Imported Post 2026-04-14 00:12:20

5) Change Envelope: Was darf sich ändern, ohne den Safety Case neu zu öffnen?

Vorab definierte, messbare Änderungsbereiche:

ML-Modelle: Gewichts-Updates innerhalb validerter Performance-Bänder auf einem referenzierbaren Gold-Dataset; jede Version mit Evaluationsbericht.

Regelwerke/Konfiguration: Änderungen in freigegebenen, versionierten Konfigs, die automatisch geprüft werden.

UI/Texte: Sicherheitlich unkritisch, solange Telemetrie/Bedienfluss unverändert sicher bleibt.

Gated Deployments: Jede Änderung innerhalb der Envelope durchläuft Tests, Canary/Shadow-Phasen und erfordert keinen vollständigen Safety-Review. Alles außerhalb triggert formalen Change Control mit Technical Owner und Sicherheitsingenieur.

6) Release-Trains, Baselines, on-prem Delivery-Pipeline

Takt: Feste Release-Züge (z. B. alle 6–8 Wochen), dazwischen Continuous Delivery in Integrations- und Shadow-Umgebungen.

Baselines: Jeder Release-Zug erzeugt eine eingefrorene Version inkl. Evidenzpaket. Spätere Patches sind differenziell nachvollziehbar.

Branching-Strategie: Trunk-based Development mit kurzlebigen Feature-Branches; Release-Branches nur für Stabilisierung/Hotfixes. Alles andere vergrößert die Divergenz.

Air-Gap-fähige Pipeline:

Build in kontrollierter Zone, Promotion in Betriebsnetz per signierten Bundles.

Interne Registries/Repos, keine externen Cloud-Abhängigkeiten.

Ephemere Runner, definierte Toolchain-Container, Policy-as-Code (Build darf nur, was erlaubt ist).

7) Technical Ownership: Rolle mit Mandat, nicht nur Titel

Aufgaben:

Eigentümerschaft für Systemqualitäten: Sicherheit, Performanz, Testbarkeit, Observability, Betriebsability.

Budgetierung von NFRs: z. B. maximale Latenz, Ressourcenverbrauch, Startzeit, Datenhaltung.

Change Control gemeinsam mit Safety: Go/No-Go für Änderungen außerhalb der Envelope.

Testarchitektur und Evidenzfluss: Welche Arten von Tests wo? Welche Artefakte in welcher Pipeline-Stufe?

Architekturentscheidungen dokumentieren (ADRs), lebende Systemdokumentation kuratieren.

Audit-Schnittstelle: Artefaktzugang, Nachweise, Demos der Toolchain.

Anti-Pattern: „Product Owner priorisiert nur Features“. Ohne Technical Owner degeneriert Agilität zu Feature-Bingo mit anschließender Dokumentationshölle.

MVP in sicherheitskritischen Systemen: Minimum Viable Safety Slice

Ein MVP ist kein hübscher Prototyp und auch kein Demo-Video. Ein MVP ist ein vertikaler End-to-End-Slice, der in einer repräsentativen Umgebung läuft und folgende Kriterien erfüllt:

Klare Risikogrenze: Der MVP operiert innerhalb einer definierten, freigegebenen Change Envelope und kann keine sicherheitskritische Aktion autonom auslösen.
Evidenz inkludiert: Der MVP produziert denselben Typ an Artefakten wie das Endprodukt – nur in kleinerem Umfang. Dazu gehören Anforderungen, Testprotokolle, Traceability, Betriebslogs, Modell-/Datenversionen.
Repräsentative Daten und Betriebsbedingungen: Keine synthetische Labor-Idylle. Wenn produktive Systeme nicht zugänglich sind, dann ein Schattenbetrieb auf realen Datenstreams mit striktem Read-Only.
Rückfall und Abschaltbarkeit: Technischer Kill-Switch, definierte Degradationsmodi, klare Übergabepunkte an den Menschen.

Ein erprobtes Stufenmodell:

Stufe 0 – Offline-Analyse: Daten aufnehmen, Golden Dataset definieren, Baseline-Metriken erstellen. Ergebnis: Datenkatalog, erste Modell/Algorithmus-Kandidaten, Evaluationsberichte.

Stufe 1 – Shadow Mode: System läuft nebenher, gibt Empfehlungen/Ergebnisse, die noch keine Aktion triggern. Ergebnis: Vergleich mit Mensch/Legacy, Fehlertypologie, Driftmonitoring.

Stufe 2 – Advisory Mode mit Human-in-the-Loop: Empfehlungen werden aktiv konsumiert, aber ein Mensch trifft die Entscheidung. Ergebnis: Protokollierte Entscheidungsqualität, Latenz, Belastung, Fehlalarme.

Stufe 3 – Gated Automation: Teilautomatisierung mit Interlocks, nachgewiesener Performance und klaren Ausstiegsbedingungen.

Beispiel, vereinfacht: Bahn-Fahrzeugflotte, Anomalieerkennung in Zustandsdaten.

Stufe 0: Segmentierung der Sensorkanäle, Feature-Engineering, Basisanomaliekriterien; Evaluation gegen historische Ausfälle.

Stufe 1: Shadow-Deployment im Depotnetz, keine Aktionen; Metriken: Precision/Recall pro Fehlerklasse, MTTA (Time to Alert), False-Positive-Rate.

Stufe 2: Dispatcher erhält Alarme mit Begründung (Top-K Beiträge); menschliche Bestätigung wird protokolliert und fließt in das Golden Dataset.

Stufe 3: Automatisierte Ticket-Erstellung mit definierter Priorität, aber keine Zugausfälle ohne menschliche Freigabe.

Wichtig: Jeder Stufe hat „Done++“-Kriterien inklusive Evidenz. So baut man den Safety Case inkrementell auf, statt ihn am Ende zu erfinden.

ML-spezifische Anforderungen sicherheitsverträglich gestalten

Daten- und Modellversionierung: Jede Trainings-/Inferenzversion mit eindeutiger ID, Hash, Datensatzreferenzen, Trainingsparametern, Validierungsbericht.

Evaluation-Harness als Code: Feste Testbatterie, die Kennzahlen pro Modellversion produziert. Keine Ad-hoc-Notebooks als Wahrheitsquelle.

Drift- und Bias-Monitoring: Definierte Schwellen, die zur Degradierung oder zum Rückrollen führen.

Fail-Safe Defaults: Bei Unsicherheit – konservatives Verhalten. Empfehlungen statt Aktionen, wenn Metriken schwächeln.

Offline-fähige Inferenz: Keine Laufzeitabhängigkeit von externen Clouds; deterministische Reproduzierbarkeit.

Zusammenarbeit mit Prüfern und Safety: früh, kontinuierlich, automatisiert

Prüfer sind Stakeholder: Sie brauchen nicht mehr Meetings, sondern besseren Zugang zu Artefakten. Ein Self-Service-Portal mit Versionen, Prüfreports, Build-Logs, Traceability und „How-to-Verify“-Anleitungen reduziert Reibung massiv.
Toolchain zeigen, nicht nur Ergebnisse: Wenn der Pipeline-Run nachvollziehbar Artefakte erzeugt, steigt Vertrauen. Trockene Audits („dry runs“) vor offiziellen Meilensteinen helfen.
Lebende Systemdokumentation: Architekturbilder, Schnittstellen, Datenflüsse – automatisch aus Code/Deployments generiert, nicht manuell gepflegt. Jede Version hat ihr eingefrorenes PDF, aber die Quelle bleibt Code.
Inkrementelle Reviews: Kleinere, häufigere Abnahmen schlagen das eine große Gate am Ende. Das ändert nicht die Formalität, aber die Fehler werden früher gefunden.

Metriken, die tatsächlich helfen

Evidence Lead Time: Zeit von Commit bis zu einem aktualisierten, konsistenten Evidenzpaket.

Traceability Coverage: Anteil der Anforderungen mit verknüpften Tests/Commits/Artefakten, gewichtet nach Kritikalität.

Change Failure Rate (kritische Pfade): Anteil der Änderungen an sicherheitskritischen Komponenten, die rollbacks/Hotfixes auslösen.

MTTR im Build: Zeit, um fehlschlagende Pipelines wieder grün zu bekommen – Indikator für technische Schulden.

Audit Readiness Index: Prozentsatz der Artefaktkategorien, die für die aktuelle Baseline vollständig und verlinkt sind.