Agil mit Struktur: Produktentwicklung in regulierten Branchen ohne Theater
Das eigentliche Problem in sicherheitskritischen Domänen ist nicht „Wie führen wir Scrum ein?“, sondern „Wie liefern wir wirksame, auditierbare Produkt-Inkremente unter harten Randbedingungen?“ Wer Verteidigung, Luftfahrt oder Bahn kennt, weiß: Agil scheitert dort nicht an Sprintlängen, sondern an fehlender Nachvollziehbarkeit, an improvisierten Toolchains und daran, dass Nicht-Funktionales (Sicherheit, Datenschutz, Betrieb) zu spät gedacht wird. Agil heißt nicht planlos; Agil heißt hypothesengetriebene Entwicklung mit strenger Beweisführung.
Aus unserer Praxis in regulierten Umfeldern haben sich drei Hebel als entscheidend erwiesen:
- Agilität und Assurance trennen – aber gekoppelt inkrementell liefern
- Technisches Ownership als Designautorität etablieren
- MVP neu definieren: kleinster Wert plus kleinste glaubwürdige Evidenz, innerhalb einer Safety- und Compliance-„Envelope“
Im Folgenden beschreibe ich praktikable Muster, Artefakte und Architekturen, die in der Realität funktionieren – mit konkreten Trade-offs, ohne Hype.
1. Randbedingungen in regulierten Umgebungen
Typische Restriktionen, die direkte Architektur- und Prozessfolgen haben:
- Nachvollziehbarkeit und Beweisführung: Anforderungen, Annahmen, Designentscheidungen, Tests und Ergebnisse müssen querverweisbar und versioniert sein. „Es funktioniert“ reicht nicht – es muss erklärbar sein, warum es unter bestimmten Randbedingungen sicher funktioniert.
- Netz- und Datenrestriktionen: On-prem, segmentierte Netze, Air-Gap-Varianten, personenbezogene/klassifizierte Daten, kein US-Cloud-Zwang. Das begrenzt Toolauswahl, Trainings- und Deploy-Strategien für ML/LLM massiv.
- Determinismus und Reproduzierbarkeit: Reproduzierbare Builds und reproduzierbares Training; deterministische Softwarestände; auditierbare Modellartefakte.
- Betrieb als Teil des Systems: Fehlertoleranz, Beobachtbarkeit, Security, Patchability und Rollback sind nicht „DevOps später“, sondern Zulassungskriterium.
- Lebenszykluslänge: 10+ Jahre im Feld sind üblich; Third-Party-Abhängigkeiten müssen über diesen Zeitraum handhabbar bleiben.
Wer diese Prämissen ernst nimmt, baut Prozess und Architektur von Beginn an anders.
2. Dual-Track: Produktentwicklung und Assurance inkrementell koppeln
Das gängigste Missverständnis ist: „Wir entwickeln agil und dokumentieren am Ende.“ Das führt zu Tachometerschminke vor Audits. Besser funktioniert eine Dual-Track-Struktur:
- Produkt-Track: liefert funktionale Inkremente entlang von Nutzerhypothesen.
- Assurance-Track: liefert die korrespondierenden Evidenzen, Artefakte und Prüfungen.
Beide Tracks hängen an denselben Arbeitseinheiten. Jede Story oder jedes Engineering-Work Item bekommt neben funktionalen Akzeptanzkriterien explizite Assurance-Kriterien. Definition of Done ist erweitert („DoD+“).
DoD+ umfasst erfahrungsgemäß:
- Tests: Unit/Integration/Systemtests grün; Testdaten versioniert; reproduzierbare Testläufe
- Beobachtbarkeit: Telemetrie-/Log-Events definiert und aggregierbar; Metriken stehen in einem Monitoring-Backbone bereit
- Sicherheits- und Safety-Artefakte: Betroffene Risiken/Bedrohungen aktualisiert; Controls umgesetzt; Nachweise verlinkt
- Architekturentscheidungen: ADRs (Architecture Decision Records) erstellt/aktualisiert
- Daten/MLOps: Datensatzversionen, Feature-Spezifikationen, Modell-/Pipeline-Artefakte in einem Registry-System; Evaluationsberichte mit Akzeptanzschwellen
- Betriebsfähigkeit: Deploy-Manifest signiert; Rollback-Pfad vorhanden; Betriebshandbuch-Delta erstellt
Leichtgewichtige Gates helfen, Tempo und Sorgfalt zu kalibrieren:
- Gate 0 – Hypothese definiert, Risikoeinschätzung grob, Messkriterien festgelegt
- Gate 1 – Architektur- und Sicherheitsentwurf akzeptiert, Messumgebung vorhanden
- Gate 2 – Inkrement im Shadow-/Sandbox-Betrieb, Metriken erfüllt, Evidenz konsistent
- Gate 3 – Freigabe für begrenzten Wirkbetrieb (z. B. human-in-the-loop), Betriebsauflagen dokumentiert
Diese Gates sind keine Mini-Wasserfälle; sie sind Prüfpunkte mit klaren Artefakt-Checklisten, die in Sprints verankert sind.
3. Technical Ownership: Die Rolle, die Produkte rettet
In regulierten Projekten ist Technical Ownership keine Ehrenbezeichnung, sondern ein Konstruktionsprinzip. Die/der Technical Owner ist die Designautorität mit End-to-End-Verantwortung von der Problemformulierung bis zum operativen Verhalten – über Teams und Lieferanten hinweg. Drei Verantwortungsblöcke sind zentral:
- Problem und Randbedingungen scharfstellen
- Nicht-funktionale Anforderungen explizit und messbar machen: Latenz, MTTR, Datenlokation, Netzwerkzonen, Plattformvorgaben, Logging-Pflichten
- Safety- und Security-Annahmen dokumentieren; Failure- und Abuse-Cases beschreiben
- Betriebsmodelle definieren: On-prem-/Edge-Deployments, Updatefenster, Air-Gap-Mechanik
- Architektur und Schnittstellen entscheiden
- Architekturguardrails vorgeben (z. B. keine Public-Cloud-Abhängigkeit; containerisierte Deployments mit signierten Images; deterministische Build- und Training-Umgebungen)
- Schnittstellenverträge pflegen: Datenformate, Latenz-/Qualitätsgarantien, Semantikversionierung
- Technologieauswahl an Lebenszyklus koppeln: Tooling, das man auditierbar einfrieren, patchen und über Jahre betreiben kann
- Qualität und Evidenz sicherstellen
- Eigentümerschaft für Observability, Teststrategie, Security Controls, Daten- und Modell-Governance
- „Assurance-Backlog“ priorisieren: Was fehlt an Beweisführung, welche Lücken blockieren Gate 2/3?
- Wiederverwendung und Vereinfachung erzwingen: Wenige, dafür robuste Pfade statt viele Sonderlocken
Technical Ownership ersetzt nicht Product Management, QA oder Security – sie hält die Linie, wenn funktionales Wunschkonzert, Lieferdruck und regulatorische Anforderungen kollidieren.
4. MVP in sicherheitskritischen Systemen: kleinster Wert + kleinste glaubwürdige Evidenz
Ein MVP ist hier kein Wegwerfprototyp in PowerPoint, sondern eine Systemscheibe, die in ihrer Zielumgebung unter Auflagen läuft und bereits auditierbar ist. Drei Muster haben sich bewährt:
- Shadow Mode + Human-in-the-Loop
- Das System beobachtet, empfiehlt, automatisiert aber nichts. Entscheidungen bleiben beim Menschen. Dadurch entsteht Daten- und Betriebssicherheit, ohne das Risiko automatisierter Fehlhandlungen.
- Technische Konsequenz: Read-Only-Integrationen, klare UI für Empfehlungen, Logging der Operatorentscheidungen als Trainings- und Evaluationsdaten.