Ein minimaler, auditierbarer Slice lässt sich so zuschneiden, ohne operative Versprechen zu brechen:
- Zielhypothese: „Ein einfacher Anomalieindikator für eine kritische Komponente hilft Instandhaltern, Auffälligkeiten früher zu sehen.“
- Gate 0: Datenquellen und Eventformat festgelegt; read-only Anbindung an fünf Fahrzeuge/Subsysteme; Messkriterien definiert (Precision/Recall für Alarme auf Golden-Set, maximal zulässige False Positives im Shadow).
- Gate 1: Architektur-ADR zu Datenpfad, Feature-Berechnung, Modelltyp, Observability; Security-/Safety-Envelope (keine Schreibzugriffe, Ressourcenlimits); Dataset- und Modell-Registry eingerichtet.
- Umsetzung: Pipeline baut Feature-Vektoren, trainiert ein baseline-Modell; Evaluation gegen Golden-Set; Metriken werden ins Monitoring gepusht; UI zeigt Empfehlungen mit Begründungen; Logging erfasst Operatorfeedback.
- Gate 2: Shadow-Betrieb 4 Wochen; Metriken stabil; Evidenz-Index mit Querverweisen auf Anforderungen/ADRs/Testläufe; Drift-Monitoring aktiv.
- Gate 3: Enger Wirkbetrieb mit Human-in-the-Loop; Rollback-Pfade dokumentiert; Betriebsauflagen klar.
Kein Bestandteil ist „nice to have“ – alles ist minimal, aber tragfähig und auditierbar.
9. LLM-Agenten in regulierten Netzen: Gating statt Hoffnung
LLM-Einsatz in industriellen Umgebungen verlangt harte Leitplanken:
- Wissensbasis: Nur freigegebene, versionierte Dokumente; Retrieval mit dokumentierten Indizierungs-Pipelines; kein Live-Zugriff auf unklassifizierte Quellen.
- Tooling: White-List von Tools mit klarer Semantik; Parametergrenzen; Side-Effect-Logging; Dry-Run-Pfade.
- Policy Engine: Regeln wie „kein Schreibzugriff ohne Human-Approval“, „kein Zugriff außerhalb Zone X“, „kein Prompt mit sensiblen Tokens“.
- Prompt- und Execution-Hygiene: Deterministische Prompt-Templates; Ausführungs-Sandboxing; Kommandos mit Signaturen; Messung von Halluzinationsindikatoren an Golden-Fragen.
- Observability: Vollständige Protokollierung (Prompt, Kontext, Tool-Calls, Ergebnisse, Entscheidungen), Metriken (Success/Failure pro Intention, Tool-Latenzen, Rate Limits, Rückfragenquote an Menschen).
So werden Agenten von Spielzeug zu auditierbaren Komponenten – und bleiben innerhalb des definierten Risk Envelopes. On-prem Betrieb und DSGVO-konforme Datenwege sind hier Mittel zum Zweck: Souveränität ermöglicht Intelligenz.
10. Startplan: in 6–8 Wochen zu einer tragfähigen Basis
Ein pragmatischer Einstieg sieht so aus:
1) Technical Owner benennen und mit Mandat ausstatten
2) Safety-/Compliance-Envelope definieren
3) DoD+ und Assurance-Backlog einführen; Artefakt-Taxonomie und Evidenz-Index anlegen
4) Architektur-Guardrails und 3–5 initiale ADRs schreiben
5) Repro-Toolchain aufsetzen: Git mit signierten Commits, Build-/Train-Pipeline, Registry für Daten/Modelle/Container, Monitoring/Logging
6) Datenverträge und Integrations-Stubs definieren; Shadow-Umgebung einrichten
7) Ersten MVP-Slice zuschneiden; Gate-Checklisten vereinbaren
8) Shadow-Betrieb starten; Metriken und Evidenz erfassen; Retrospektive auf Technik- und Assurance-Schulden
Das ist kein Selbstzweck. Es ist die minimale Struktur, die verhindert, dass „agil“ in regulierten Domänen zur Ausrede für Unverbindlichkeit wird.
FAQ
Frage: Geht Agilität in regulierten Umgebungen überhaupt – ohne sich in Dokumentation zu verlieren?
Antwort: Ja, wenn Dokumentation als Nebenprodukt des Entwicklungsflusses entsteht. Das gelingt mit DoD+, ADRs, automatisierten Tests/Evaluationsberichten und einem Evidenz-Index, der auf Repos und Pipelines verweist. Schreiben Sie keine PDFs nach; generieren und verlinken Sie Artefakte dort, wo Arbeit passiert.
Frage: Wie sieht ein MVP aus, das Auditoren nicht nervös macht?
Antwort: Shadow-Mode, Human-in-the-Loop, klare Safety-/Compliance-Envelope, minimaler aber konsistenter Nachweisfluss. Konkret: Kontextdiagramm, ADRs zu Kernentscheidungen, top Risiken mit Controls, reproduzierbare Tests, Monitoring sichtbar, deploy- und rollback-fähiges Artefakt mit Signaturen.
Frage: Wie viel Dokumentation ist genug?
Antwort: So viel, dass eine fachkundige Person die Kette von Annahme über Entscheidung zu Implementierung und Ergebnis nachvollziehen kann – und zwar versioniert. Qualität vor Volumen: wenige, gute Artefakte (ADRs, Schnittstellenverträge, Evidenz-Index) schlagen umfangreiche, veraltete Dokumente.
Frage: Wie testet man ML/LLM-Systeme in sicherheitskritischen Kontexten?
Antwort: Mit Golden-Datasets/Szenarien, definierten Akzeptanzschwellen vor Deploy, Shadow-Phasen, Drift- und Regressions-Tests, Observability bis hinunter auf Daten-/Feature-Ebene. Für LLMs zusätzlich: kontrollierte Wissensquellen, tool- und policy-gebundene Agenten, Messung von Fehlverhalten und Pflicht zum Human-Approval für risikobehaftete Aktionen.
Frage: Braucht man Scrum, oder reicht Kanban?
Antwort: Das Rahmenwerk ist zweitrangig. Entscheidend sind Guardrails, DoD+, Dual-Track (Wert und Evidenz), WIP-Limits, Architektur- und Betriebsdisziplin. Viele Teams in regulierten Umfeldern fahren mit einem klaren, Metrik-getriebenen Kanban plus periodischen Gate-Checks besser als mit formalem Scrum.
Schluss
Agil in regulierten Branchen bedeutet keine Revolution, sondern das Ehrliche am Handwerk: Hypothesen sauber prüfen, Entscheidungen dokumentieren, Betrieb als Teil des Systems denken und Souveränität vor Geschwindigkeit stellen. Wer das strukturiert umsetzt, liefert nicht nur Software, sondern Systeme, die man verantworten kann – heute und in zehn Jahren.