Ein minimaler, auditierbarer Slice lässt sich so zuschneiden, ohne operative Versprechen zu brechen:

  • Zielhypothese: „Ein einfacher Anomalieindikator für eine kritische Komponente hilft Instandhaltern, Auffälligkeiten früher zu sehen.“
  • Gate 0: Datenquellen und Eventformat festgelegt; read-only Anbindung an fünf Fahrzeuge/Subsysteme; Messkriterien definiert (Precision/Recall für Alarme auf Golden-Set, maximal zulässige False Positives im Shadow).
  • Gate 1: Architektur-ADR zu Datenpfad, Feature-Berechnung, Modelltyp, Observability; Security-/Safety-Envelope (keine Schreibzugriffe, Ressourcenlimits); Dataset- und Modell-Registry eingerichtet.
  • Umsetzung: Pipeline baut Feature-Vektoren, trainiert ein baseline-Modell; Evaluation gegen Golden-Set; Metriken werden ins Monitoring gepusht; UI zeigt Empfehlungen mit Begründungen; Logging erfasst Operatorfeedback.
  • Gate 2: Shadow-Betrieb 4 Wochen; Metriken stabil; Evidenz-Index mit Querverweisen auf Anforderungen/ADRs/Testläufe; Drift-Monitoring aktiv.
  • Gate 3: Enger Wirkbetrieb mit Human-in-the-Loop; Rollback-Pfade dokumentiert; Betriebsauflagen klar.

Kein Bestandteil ist „nice to have“ – alles ist minimal, aber tragfähig und auditierbar.

9. LLM-Agenten in regulierten Netzen: Gating statt Hoffnung

LLM-Einsatz in industriellen Umgebungen verlangt harte Leitplanken:

  • Wissensbasis: Nur freigegebene, versionierte Dokumente; Retrieval mit dokumentierten Indizierungs-Pipelines; kein Live-Zugriff auf unklassifizierte Quellen.
  • Tooling: White-List von Tools mit klarer Semantik; Parametergrenzen; Side-Effect-Logging; Dry-Run-Pfade.
  • Policy Engine: Regeln wie „kein Schreibzugriff ohne Human-Approval“, „kein Zugriff außerhalb Zone X“, „kein Prompt mit sensiblen Tokens“.
  • Prompt- und Execution-Hygiene: Deterministische Prompt-Templates; Ausführungs-Sandboxing; Kommandos mit Signaturen; Messung von Halluzinationsindikatoren an Golden-Fragen.
  • Observability: Vollständige Protokollierung (Prompt, Kontext, Tool-Calls, Ergebnisse, Entscheidungen), Metriken (Success/Failure pro Intention, Tool-Latenzen, Rate Limits, Rückfragenquote an Menschen).

So werden Agenten von Spielzeug zu auditierbaren Komponenten – und bleiben innerhalb des definierten Risk Envelopes. On-prem Betrieb und DSGVO-konforme Datenwege sind hier Mittel zum Zweck: Souveränität ermöglicht Intelligenz.

10. Startplan: in 6–8 Wochen zu einer tragfähigen Basis

Ein pragmatischer Einstieg sieht so aus:
1) Technical Owner benennen und mit Mandat ausstatten
2) Safety-/Compliance-Envelope definieren
3) DoD+ und Assurance-Backlog einführen; Artefakt-Taxonomie und Evidenz-Index anlegen
4) Architektur-Guardrails und 3–5 initiale ADRs schreiben
5) Repro-Toolchain aufsetzen: Git mit signierten Commits, Build-/Train-Pipeline, Registry für Daten/Modelle/Container, Monitoring/Logging
6) Datenverträge und Integrations-Stubs definieren; Shadow-Umgebung einrichten
7) Ersten MVP-Slice zuschneiden; Gate-Checklisten vereinbaren
8) Shadow-Betrieb starten; Metriken und Evidenz erfassen; Retrospektive auf Technik- und Assurance-Schulden

Das ist kein Selbstzweck. Es ist die minimale Struktur, die verhindert, dass „agil“ in regulierten Domänen zur Ausrede für Unverbindlichkeit wird.

FAQ

Frage: Geht Agilität in regulierten Umgebungen überhaupt – ohne sich in Dokumentation zu verlieren?
Antwort: Ja, wenn Dokumentation als Nebenprodukt des Entwicklungsflusses entsteht. Das gelingt mit DoD+, ADRs, automatisierten Tests/Evaluationsberichten und einem Evidenz-Index, der auf Repos und Pipelines verweist. Schreiben Sie keine PDFs nach; generieren und verlinken Sie Artefakte dort, wo Arbeit passiert.

Frage: Wie sieht ein MVP aus, das Auditoren nicht nervös macht?
Antwort: Shadow-Mode, Human-in-the-Loop, klare Safety-/Compliance-Envelope, minimaler aber konsistenter Nachweisfluss. Konkret: Kontextdiagramm, ADRs zu Kernentscheidungen, top Risiken mit Controls, reproduzierbare Tests, Monitoring sichtbar, deploy- und rollback-fähiges Artefakt mit Signaturen.

Frage: Wie viel Dokumentation ist genug?
Antwort: So viel, dass eine fachkundige Person die Kette von Annahme über Entscheidung zu Implementierung und Ergebnis nachvollziehen kann – und zwar versioniert. Qualität vor Volumen: wenige, gute Artefakte (ADRs, Schnittstellenverträge, Evidenz-Index) schlagen umfangreiche, veraltete Dokumente.

Frage: Wie testet man ML/LLM-Systeme in sicherheitskritischen Kontexten?
Antwort: Mit Golden-Datasets/Szenarien, definierten Akzeptanzschwellen vor Deploy, Shadow-Phasen, Drift- und Regressions-Tests, Observability bis hinunter auf Daten-/Feature-Ebene. Für LLMs zusätzlich: kontrollierte Wissensquellen, tool- und policy-gebundene Agenten, Messung von Fehlverhalten und Pflicht zum Human-Approval für risikobehaftete Aktionen.

Frage: Braucht man Scrum, oder reicht Kanban?
Antwort: Das Rahmenwerk ist zweitrangig. Entscheidend sind Guardrails, DoD+, Dual-Track (Wert und Evidenz), WIP-Limits, Architektur- und Betriebsdisziplin. Viele Teams in regulierten Umfeldern fahren mit einem klaren, Metrik-getriebenen Kanban plus periodischen Gate-Checks besser als mit formalem Scrum.

Schluss

Agil in regulierten Branchen bedeutet keine Revolution, sondern das Ehrliche am Handwerk: Hypothesen sauber prüfen, Entscheidungen dokumentieren, Betrieb als Teil des Systems denken und Souveränität vor Geschwindigkeit stellen. Wer das strukturiert umsetzt, liefert nicht nur Software, sondern Systeme, die man verantworten kann – heute und in zehn Jahren.