• Safety-/Compliance-Envelope
  • Vor dem MVP wird festgelegt, was das System niemals darf (unverhandelbare Grenzen) und was es nur mit Freigabe darf.
  • Beispiele für Envelope-Regeln: Keine Schreibzugriffe auf Steuergeräte; keine externen Netzwerkverbindungen außer zu Whitelist-Endpunkten; maximaler Ressourcenverbrauch; Not-Aus-Pfade.
  • Technische Konsequenz: Policy-Enforcement auf Host- und Applikationsebene, strikt gekapselte Toolzugriffe, „Safe Defaults“.
  • Assurance-MVP
  • Der MVP liefert Artefakte, die zeigen, dass die Kette Anforderung → Design → Implementierung → Test → Betrieb konsistent ist – wenn auch minimal.
  • Minimal-Set an Artefakten: Systemkontextdiagramm, 3–5 ADRs zu Kernentscheidungen, Risiko-/Bedrohungsnotizen zu Top-5-Gefährdungen mit implementierten Controls, automatisierte Tests mit reproduzierbaren Ergebnissen, Betriebs-Runbook (erste Version), Evidenz-Index mit Querverweisen.

Dieser Zuschnitt vermeidet die Falle, technische Schulden in Audit-Schulden zu verwandeln.

5. Architektur- und Deploymentmuster für ML/LLM unter Souveränitätsvorgaben

Souveränität ermöglicht Intelligenz – nicht umgekehrt. Der Betrieb entscheidet, was baubar ist. Daraus folgen konkrete Muster:

  • Daten- und Modell-Souveränität
  • On-prem Storage für Rohdaten, Feature-Stores und Modelle; keine Abhängigkeit von Public-Cloud-Diensten für Training/Inferenz, sofern Datenklassifikation/Vertragslage das nahelegt.
  • Dataset- und Modellversionierung als erste Bürger: D, F, M werden wie Code behandelt (Branches, Tags, Reviews).
  • Modell-Registry mit Promotion-Stufen (Dev → Shadow → Restricted → General) und dokumentierten Annahmen/Limitierungen.
  • Reproduzierbare Umgebungen
  • Containerisierte Trainings- und Build-Pipelines mit pinbaren Abhängigkeiten; deterministische Seeds; Hardwareprofile versioniert.
  • Signierte Artefakte, Build-Provenance, unveränderliche Artefakt-Repositories im Zielnetz.
  • Observability und Governance by Design
  • Telemetrie auf vier Ebenen: Infrastruktur (CPU/GPU/Netz), Dienst (Latenzen, Fehler), Funktion (Domänenmetriken), ML/LLM (Daten-/Feature-/Drift-Metriken, Prompt-/Tool-Nutzung).
  • Policy- und Audit-Layer: Wer darf welches Modell wohin deployen? Welche Datenquellen sind zulässig? Welche Tools dürfen LLM-Agenten aufrufen?
  • Für LLM-Agenten: White-Listing von Tools, deterministische Prompt-Templates, Retrieval nur gegen freigegebene, versionierte Wissensbasen, Ausführungs-Sandboxing, Human-in-the-Loop für kritische Aktionen.
  • Netzwerk- und Deploy-Topologien
  • Air-gapped oder semi-gapped: Artefaktexport aus Buildnetz via geprüftem Transfer; Import in Betriebsnetz mit Inhaltsprüfung.
  • Edge-Deployments für geringe Latenz; Zentrale für Training/Auswertung; Asynchrone Synchronisation mit Signaturen.
  • Test- und Evaluationsstrategie
  • Golden Datasets und Szenarien; Metrikschwellen als Vertragsbestandteil vor Deploy; Wirkbetrieb erst nach Shadow-Erfolg.
  • Drift- und Regredienstests automatisieren; jede Promotion-Stufe hat definierte zusätzliche Anforderungen.

Diese Prinzipien sind technologieagnostisch; sie rahmen die konkrete Umsetzung mit Python/C++/K8s/… so, dass Auditierbarkeit und Betriebssicherheit nicht Opfer kurzfristiger Effizienz werden.

6. Teammechanik: Wie sieht das im Sprint aus?

Ein funktionierendes Sprint- oder Kanban-Setup unterscheidet nicht nur „Dev“ und „Test“, sondern mappt Arbeit auf Wert- und Evidenzflüsse:

  • Zwei Backlogs, eine Wahrheit
  • Product Backlog führt die Wert-Hypothesen.
  • Assurance Backlog führt die dazugehörigen Evidenzaufgaben. Beide werden zusammen geplant; ein Item ist nur dann fertig, wenn beide Aspekte nach DoD+ erfüllt sind.
  • Engineering Kanban mit WIP-Limits
  • WIP-Limits halten das System stabil. Besonders kritisch: Integrations- und Testspalten nicht überladen.
  • Eine eigene „Integration/Shadow“-Spalte verhindert, dass halbgare Inkremente sich nach „Done“ ausgeben.
  • Rollen und Verantwortlichkeiten
  • Technical Owner kuratiert Guardrails, ADRs, Schnittstellenverträge, Observability-Standards; entscheidet bei Zielkonflikten.
  • QA/Assurance mit klarer Eigentümerschaft für Evidenzkonsistenz; nicht Gatekeeper erst am Ende, sondern Coach und Reviewer im Fluss.
  • Product arbeitet mit Engineering Hypothesen und Messkriterien aus, nicht Featurelisten.
  • Reviews, die Substanz haben
  • Sprint Review hat zwei gleichwertige Teile: „User Value Review“ und „Assurance Review“. Im zweiten Teil wird gezeigt, wie Nachweise entstanden sind, welche Metriken gemessen wurden, wo noch Lücken sind.
  • Retrospektiven adressieren technische Schulden und Evidenzschulden explizit.
  • Artefakt-Checklisten pro Inkrement
  • ADR aktualisiert? Trace Links gesetzt? Logs/Metriken im Monitoring sichtbar? Sicherheits-/Safety-Kontrollen verifiziert? Deploy-Rollbacks getestet? Daten-/Modellartefakte versioniert und signiert?

Diese Praxis ist am Anfang gewöhnungsbedürftig, verhindert aber die teuren Kurven vor Gate 3.

7. Trade-offs offen benennen

Agile Produktentwicklung in regulierten Umfeldern bedeutet bewusste Kompromisse:

  • Cloud-Komfort vs. Souveränität: Public-Cloud-Dienste beschleunigen – solange Datenlage und Abhängigkeiten vertretbar sind. On-prem bedeutet mehr Eigenverantwortung für Betrieb, aber Kontrolle und Auditierbarkeit. Für viele Industrien ist letzteres nicht verhandelbar.
  • Performance vs. Determinismus: Höchste Performance verlangt aggressive Optimierung; Auditierbarkeit verlangt Reproduzierbarkeit. Wir setzen früh deterministische Pipelines auf und akzeptieren initiale Performanceverluste – optimieren dann gezielt unter Kontrolle.
  • Feature-Fülle vs. Betriebsstabilität: Weniger Features, dafür robuste Deploy-/Rollback-Mechanik, saubere Logs, stabile Schnittstellen – das gewinnt auf Dauer.
  • Modellgüte vs. Testbarkeit: „Schnell höherer Score“ gegen „Beobachtbarkeit, Fairness, Robustheit, OOD-Verhalten“. In sicherheitskritischen Kontexten ist erklärbare Robustheit wichtiger als ein paar Prozentpunkte an Metrikgewinn ohne Begründbarkeit.
  • Lieferantenabhängigkeit vs. Time-to-Market: Proprietäre SDKs beschleunigen; Abhängigkeiten verteuern spätere Zertifizierungen und Langzeitbetrieb. Wir wählen bewusst Schnittstellen und Komponenten, die eingefroren und langfristig gepflegt werden können.

8. Beispielhafter Inkrement-Schnitt: Zustandsüberwachung einer Flotte