5) Change Envelope: Was darf sich ändern, ohne den Safety Case neu zu öffnen?
- Vorab definierte, messbare Änderungsbereiche:
- ML-Modelle: Gewichts-Updates innerhalb validerter Performance-Bänder auf einem referenzierbaren Gold-Dataset; jede Version mit Evaluationsbericht.
- Regelwerke/Konfiguration: Änderungen in freigegebenen, versionierten Konfigs, die automatisch geprüft werden.
- UI/Texte: Sicherheitlich unkritisch, solange Telemetrie/Bedienfluss unverändert sicher bleibt.
- Gated Deployments: Jede Änderung innerhalb der Envelope durchläuft Tests, Canary/Shadow-Phasen und erfordert keinen vollständigen Safety-Review. Alles außerhalb triggert formalen Change Control mit Technical Owner und Sicherheitsingenieur.
6) Release-Trains, Baselines, on-prem Delivery-Pipeline
- Takt: Feste Release-Züge (z. B. alle 6–8 Wochen), dazwischen Continuous Delivery in Integrations- und Shadow-Umgebungen.
- Baselines: Jeder Release-Zug erzeugt eine eingefrorene Version inkl. Evidenzpaket. Spätere Patches sind differenziell nachvollziehbar.
- Branching-Strategie: Trunk-based Development mit kurzlebigen Feature-Branches; Release-Branches nur für Stabilisierung/Hotfixes. Alles andere vergrößert die Divergenz.
- Air-Gap-fähige Pipeline:
- Build in kontrollierter Zone, Promotion in Betriebsnetz per signierten Bundles.
- Interne Registries/Repos, keine externen Cloud-Abhängigkeiten.
- Ephemere Runner, definierte Toolchain-Container, Policy-as-Code (Build darf nur, was erlaubt ist).
7) Technical Ownership: Rolle mit Mandat, nicht nur Titel
- Aufgaben:
- Eigentümerschaft für Systemqualitäten: Sicherheit, Performanz, Testbarkeit, Observability, Betriebsability.
- Budgetierung von NFRs: z. B. maximale Latenz, Ressourcenverbrauch, Startzeit, Datenhaltung.
- Change Control gemeinsam mit Safety: Go/No-Go für Änderungen außerhalb der Envelope.
- Testarchitektur und Evidenzfluss: Welche Arten von Tests wo? Welche Artefakte in welcher Pipeline-Stufe?
- Architekturentscheidungen dokumentieren (ADRs), lebende Systemdokumentation kuratieren.
- Audit-Schnittstelle: Artefaktzugang, Nachweise, Demos der Toolchain.
- Anti-Pattern: „Product Owner priorisiert nur Features“. Ohne Technical Owner degeneriert Agilität zu Feature-Bingo mit anschließender Dokumentationshölle.
MVP in sicherheitskritischen Systemen: Minimum Viable Safety Slice
Ein MVP ist kein hübscher Prototyp und auch kein Demo-Video. Ein MVP ist ein vertikaler End-to-End-Slice, der in einer repräsentativen Umgebung läuft und folgende Kriterien erfüllt:
- Klare Risikogrenze: Der MVP operiert innerhalb einer definierten, freigegebenen Change Envelope und kann keine sicherheitskritische Aktion autonom auslösen.
- Evidenz inkludiert: Der MVP produziert denselben Typ an Artefakten wie das Endprodukt – nur in kleinerem Umfang. Dazu gehören Anforderungen, Testprotokolle, Traceability, Betriebslogs, Modell-/Datenversionen.
- Repräsentative Daten und Betriebsbedingungen: Keine synthetische Labor-Idylle. Wenn produktive Systeme nicht zugänglich sind, dann ein Schattenbetrieb auf realen Datenstreams mit striktem Read-Only.
- Rückfall und Abschaltbarkeit: Technischer Kill-Switch, definierte Degradationsmodi, klare Übergabepunkte an den Menschen.
Ein erprobtes Stufenmodell:
- Stufe 0 – Offline-Analyse: Daten aufnehmen, Golden Dataset definieren, Baseline-Metriken erstellen. Ergebnis: Datenkatalog, erste Modell/Algorithmus-Kandidaten, Evaluationsberichte.
- Stufe 1 – Shadow Mode: System läuft nebenher, gibt Empfehlungen/Ergebnisse, die noch keine Aktion triggern. Ergebnis: Vergleich mit Mensch/Legacy, Fehlertypologie, Driftmonitoring.
- Stufe 2 – Advisory Mode mit Human-in-the-Loop: Empfehlungen werden aktiv konsumiert, aber ein Mensch trifft die Entscheidung. Ergebnis: Protokollierte Entscheidungsqualität, Latenz, Belastung, Fehlalarme.
- Stufe 3 – Gated Automation: Teilautomatisierung mit Interlocks, nachgewiesener Performance und klaren Ausstiegsbedingungen.
Beispiel, vereinfacht: Bahn-Fahrzeugflotte, Anomalieerkennung in Zustandsdaten.
- Stufe 0: Segmentierung der Sensorkanäle, Feature-Engineering, Basisanomaliekriterien; Evaluation gegen historische Ausfälle.
- Stufe 1: Shadow-Deployment im Depotnetz, keine Aktionen; Metriken: Precision/Recall pro Fehlerklasse, MTTA (Time to Alert), False-Positive-Rate.
- Stufe 2: Dispatcher erhält Alarme mit Begründung (Top-K Beiträge); menschliche Bestätigung wird protokolliert und fließt in das Golden Dataset.
- Stufe 3: Automatisierte Ticket-Erstellung mit definierter Priorität, aber keine Zugausfälle ohne menschliche Freigabe.
Wichtig: Jeder Stufe hat „Done++“-Kriterien inklusive Evidenz. So baut man den Safety Case inkrementell auf, statt ihn am Ende zu erfinden.
ML-spezifische Anforderungen sicherheitsverträglich gestalten
- Daten- und Modellversionierung: Jede Trainings-/Inferenzversion mit eindeutiger ID, Hash, Datensatzreferenzen, Trainingsparametern, Validierungsbericht.
- Evaluation-Harness als Code: Feste Testbatterie, die Kennzahlen pro Modellversion produziert. Keine Ad-hoc-Notebooks als Wahrheitsquelle.
- Drift- und Bias-Monitoring: Definierte Schwellen, die zur Degradierung oder zum Rückrollen führen.
- Fail-Safe Defaults: Bei Unsicherheit – konservatives Verhalten. Empfehlungen statt Aktionen, wenn Metriken schwächeln.
- Offline-fähige Inferenz: Keine Laufzeitabhängigkeit von externen Clouds; deterministische Reproduzierbarkeit.
Zusammenarbeit mit Prüfern und Safety: früh, kontinuierlich, automatisiert
- Prüfer sind Stakeholder: Sie brauchen nicht mehr Meetings, sondern besseren Zugang zu Artefakten. Ein Self-Service-Portal mit Versionen, Prüfreports, Build-Logs, Traceability und „How-to-Verify“-Anleitungen reduziert Reibung massiv.
- Toolchain zeigen, nicht nur Ergebnisse: Wenn der Pipeline-Run nachvollziehbar Artefakte erzeugt, steigt Vertrauen. Trockene Audits („dry runs“) vor offiziellen Meilensteinen helfen.
- Lebende Systemdokumentation: Architekturbilder, Schnittstellen, Datenflüsse – automatisch aus Code/Deployments generiert, nicht manuell gepflegt. Jede Version hat ihr eingefrorenes PDF, aber die Quelle bleibt Code.
- Inkrementelle Reviews: Kleinere, häufigere Abnahmen schlagen das eine große Gate am Ende. Das ändert nicht die Formalität, aber die Fehler werden früher gefunden.
Metriken, die tatsächlich helfen
- Evidence Lead Time: Zeit von Commit bis zu einem aktualisierten, konsistenten Evidenzpaket.
- Traceability Coverage: Anteil der Anforderungen mit verknüpften Tests/Commits/Artefakten, gewichtet nach Kritikalität.
- Change Failure Rate (kritische Pfade): Anteil der Änderungen an sicherheitskritischen Komponenten, die rollbacks/Hotfixes auslösen.
- MTTR im Build: Zeit, um fehlschlagende Pipelines wieder grün zu bekommen – Indikator für technische Schulden.
- Audit Readiness Index: Prozentsatz der Artefaktkategorien, die für die aktuelle Baseline vollständig und verlinkt sind.