Agil mit Struktur: Wie wir in regulierten Branchen liefern, ohne die Zulassung zu verlieren
Agil ist kein Freifahrtschein für Planlosigkeit. Wer in Defense, Luftfahrt oder Bahn Software baut, kennt die Spannung: Wir wollen kurze Feedbackzyklen und schnellen Lerneffekt – gleichzeitig erwarten Prüfinstanzen lückenlose Nachweise, stabile Baselines, wiederholbare Builds und nachvollziehbare Entscheidungen. Das passt nur zusammen, wenn Agilität eine strukturelle Heimat bekommt: im Prozess, in der Architektur und in den Artefakten.
Dieser Beitrag beschreibt, wie wir in sicherheits- und missionskritischen Umgebungen arbeiten. Kein “Was ist Scrum?”-Artikel. Stattdessen konkrete Muster, Schnittstellen und Qualitätsnachweise, die Sprint-Tempo und Zulassungspflichten versöhnen.
Problemrahmen: Warum “Scrum by the book” in regulierten Umgebungen scheitert
Die üblichen Stolpersteine:
- Keine Artefakte für Compliance: Sprint Boards und Demo-Videos sind für Auditoren wertlos. Sie brauchen Traceability, Hazard Logs, Testprotokolle, Konfigurationsbaselines und Build-Nachweise.
- Fehlende Baseline-Disziplin: Ohne eingefrorene Schnittstellen, deterministische Builds und dokumentierte Toolchains ist Reproduzierbarkeit Glückssache.
- Scope drift in sicherheitskritischen Teilen: Feature-Toggles sind kein Ersatz für zertifizierte Konfigurationszustände. Ein “Toggle on Friday” kann eine Safety Argumentation crashen.
- QA als Phase: “Wir testen am Ende” widerspricht Unabhängigkeit, Abdeckung und Nachvollziehbarkeit – ganz abgesehen davon, dass Fehler dann am teuersten sind.
- Architektur unterbestimmt: Ohne früh festgelegte NFR-Budgets (Latenz, Speicher, Determinismus, Failsafe) geht jedes “agile Refactoring” an den Safety Cases vorbei.
Unser Kernsatz: In regulierten Branchen funktioniert Agilität nur, wenn die Nachweisführung ein gleichberechtigtes Inkrement ist. Man entwickelt Features und gleichzeitig die Evidenz.
Operating Model: Agile mit integrierter Compliance
Wir trennen Arbeit nicht nach “Feature vs. Doku”, sondern führen vier Backlogs:
1) Regulatory Backlog: Normative Anforderungen, Zulassungsauflagen, Auflagen aus Sicherheits- und Datenschutzanalysen (z. B. Anforderungen aus Safety Cases, Security Threat Modeling, DPIA).
2) Hazard & Risk Backlog: Gefährdungsanalysen, Fehlermodi, mitigierende Maßnahmen, Verifikation der Mitigation.
3) System Backlog: Architekturentscheidungen, Schnittstellen, NFR-Budgets, Entwicklungs- und Toolchain-Constraints.
4) Delivery Backlog: Produktinkremente, User Stories, technische Tasks.
Definition of Ready/Done beinhalten immer Compliance:
- Ready: Klare Zuordnung zu Anforderungen, identifizierte Risiken, Akzeptanzkriterien inkl. Verifikationsmethode, Trace-ID.
- Done: Code + Tests + aktualisierte Traceability, aktualisierter Hazard Log, generierte Test- und Coverage-Berichte, reproduzierbarer Build-Artefakt, aktualisierte Architekturentscheidung (ADR) falls betroffen, SBOM und Lieferketten-Attestierung.
Continuous Compliance in der Pipeline:
- Build-Pipeline erzeugt prüffähige Artefakte: SBOM, Testberichte, Coverage, Statische Analyse, formalisierte Traceability-Matrizen, Release Notes mit Konfigurationsdelta, signierte Artefakte und Attestierungen.
- Reproduzierbarkeit: Pinned Toolchains, Build-Container, deterministische Builds (z. B. via Bazel/Nix, festgenagelte Compiler/LibC), dokumentierte Seed- und RNG-Policies für ML.
- Konfigurationsmanagement: Versionierte Anforderungen, ICDs (Interface Control Documents), Daten- und Modellversionen (für ML), Änderungen unter Vier-Augen-Prinzip.
Technical Ownership: Das fehlende Bindeglied
Technical Ownership ist nicht “ein besserer PO”. Es ist die durchsetzungsfähige, technische Verantwortung über:
- Architektur und NFR-Budgets, inkl. harte Tradeoffs: Latenz vs. Genauigkeit, RAM vs. Durchsatz, On-Prem vs. Cloud.
- Traceability und Zulassungsfähigkeit: Jede Entscheidung besitzt eine ADR, ist Rückführbar auf Anforderungen, und hat klare Verifikationspläne.
- Schnittstellen zu Prüfinstanzen: Welche Artefakte in welchem Reifegrad pro Inkrement bereitstehen, wie Unabhängigkeit der Verifikation gewährleistet wird.
- Lieferkette: SBOM, Lizenz-Compliance, Lieferketten-Sicherheit (z. B. signierte Abhängigkeiten, in-toto Attestierungen), Offline-Update-Prozesse.
Anti-Patterns:
- Proxy-PO ohne technische Entscheidungskompetenz.
- Architektur als “späteres Thema”.
- QA als separate Phase am Ende.
- Outsourcing der Verantwortung: “Das macht der Zulieferer schon.”
Stattdessen setzen wir auf:
- Architekturentscheidungen per ADRs, mit klaren Konsequenzen und Rückrollplan.
- RACI für sicherheitsrelevante Entscheidungen.
- Harte Quality Gates in CI/CD mit Blocker-Kriterien, die nicht “überstimmt” werden.
- Evidence-First: “No PR without Trace”.
MVP in sicherheitskritischen Systemen: Minimal Viable Safety Case
Ein MVP ist kein Wegwerf-Prototyp. Es ist ein minimaler, zulassungsfähiger Schnitt. Was dazu gehört:
- Eingegrenzter Betriebsrahmen (Operational Design Domain, ODD): Explizit machen, was das System noch nicht kann. Hard Limits statt impliziter Annahmen.
- Safety Cage für ML: ML-Komponenten liefern Advisory, nie Steuerbefehle. Regelbasierte Hülllogik prüft Inferenz auf Plausibilität, setzt harte Grenzwerte und schaltet in Fail-Safe.
- Shadow Mode: MVP läuft parallel, sammelt Daten und liefert Metriken, beeinflusst aber keine sicherheitskritischen Entscheidungen. Go/No-Go-Kriterien sind vorab definiert.
- Degradations- und Fallback-Modi: Bewusster Umgang mit Ausfällen (Sensor weg, Netzwerk down, Modell unsicher) – Verhalten ist spezifiziert, testbar und verifiziert.
- Daten- und Modell-Governance: Versionierte Datasets und Modelle, reproduzierbare Trainingsläufe, dokumentierter Herkunftsnachweis (Data Provenance), klare Datenschutzmaßnahmen.
- On-Prem Deployment: Keine Abhängigkeit von US-Clouds für Betrieb oder Auswertung. Updates laufen signiert, offline-fähig, innerhalb definierter Wartungsfenster.