Konkreter Ablauf für ein MVP in der visuellen Inspektion (Fertigung oder Bahn):
1) Discovery mit Grenzen:

  • ODD definieren: Welche Bauteile, welche Beleuchtung, welche Taktzeit, welche Fehlertypen.
  • Hazard Workshop: Fehlklassifikation und Latenz als Gefährdungen identifizieren, Mitigation via Safety Cage und manuelle Freigabewege.
  • Security & Privacy: Datenfluss on-prem, Pseudonymisierung falls nötig, Zugriff über RBAC, Audit-Logging.

2) Architektur-Schnitt:

  • Edge-Inferenz (C++/Rust + TensorRT/OpenVINO) mit harter Latenzgrenze.
  • Aufnahme-Pipeline mit deterministischer Vorverarbeitung (feste Bildoperatoren, konstante Seeds).
  • Datenablage in einem on-prem Data Lake mit Versionierung (DVC/LakeFS), unveränderlichen Artefakten (Write-Once-Buckets).
  • Steuerung via ICD mit stabilem Schema und Migration-Plan.

3) Pipeline & Evidenz:

  • CI: Unit-/Integrationstests, deterministische Builds, SBOM, SAST/DAST.
  • ML Eval Harness: Fixierte Evaluationssets, Metriken (Precision/Recall pro Defektklasse), Drift-Detektion vorbereitet (z. B. PSI/KL-Divergenz).
  • Traceability: Anforderungen ↔ Tests ↔ Code ↔ Modellversion, automatisch aus Repo generiert.

4) Shadow-Mode Rollout:

  • Read-only Integration, Echtzeit-Performance messen, Advisory mitgeloggt.
  • Wöchentliche Evidence-Drops: Eval-Berichte, Latenzverteilung, Falsch-Positiv/Negativ-Analysen, Aktualisierung Hazard Log.

5) Go-Live mit Safety Cage:

  • Nur unkritische Entscheidungen werden automatisiert; kritische Entscheidungen erfordern Bediener-Quittierung.
  • Fail-Safe: Bei Unsicherheit oder Performance-Degradation automatische Deaktivierung mit klarer HMI-Meldung.

6) Betrieb & Updates:

  • Signierte Update-Pakete, Offline-verteilbar.
  • Canary in einer Linie, dann gestaffelter Rollout.
  • Observability-Metriken: Latenz, GPU/CPU-Budgets, Unsicherheitsquoten, Drift-Indikatoren.

Werkzeug- und Architektur-Muster für Nachweisfähigkeit

Traceability ohne DOORS-Monolith:

  • Anforderungen als versionierte, textuelle Artefakte (z. B. YAML/Asciidoc mit IDs).
  • Referenzen im Code (Annotationen), Tests übernehmen dieselben IDs.
  • CI generiert Trace-Matrizen und markiert Lücken als Build-Fehler.
  • Für formalen Austausch: ReqIF-Exports aus der Textquelle, nicht umgekehrt.

Verifikation & Validierung kontinuierlich:

  • Statische Analyse (z. B. MISRA-konforme Checks bei C/C++), Cyclomatic Complexity-Limits, Duplication-Limits.
  • Coverage zielnormabhängig; wichtige Pfade und Entscheidungslogik werden gezielt abgedeckt; Coverage-Berichte dem Build beigefügt.
  • Unabhängige Reviews: Peer-Review nicht durch Autorenteam; für Safety-relevante Komponenten zusätzlich unabhängige Prüferrolle in CI etabliert (Approval required).

Determinismus & Reproduzierbarkeit:

  • Pinned Toolchains in Container-Images, die selbst versioniert und signiert sind.
  • Einheitliche Build-Orchestrierung (Bazel/Nix) statt individuell konfigurierter IDE-Builds.
  • Artefakt-Provenance: in-toto/SLSA-ähnliche Attestierungen, die Build-Umgebung, Commit und Abhängigkeiten dokumentieren.

ML-spezifische Governance:

  • Dataset- und Model Cards mit klaren Geltungsbereichen, Limitierungen und Trainingsdaten-Charakteristika.
  • Data Lineage: Welche Sensorsessions sind in welchem Trainingslauf gelandet? Welche Label-Qualität? Wer hat freigegeben?
  • Drift-Überwachung als nicht-invasive Telemetrie, on-prem verarbeitet; keinerlei PII verlässt das Netzwerk.
  • Rollback-fähige Modellverteilung mit A/B-/Shadow-Mechanismen und dokumentierter Performance-Grenze.

GenAI/LLM in regulierten Umgebungen:

  • Kein Internetzugriff aus dem Produktivsystem. On-Prem-LLM, abgeschottete RAG-Quellen mit geprüften Dokumenten.
  • Prompt- und Output-Logging für Nachvollziehbarkeit, PI-Filter, Policy-Checks vor Auslieferung der Antwort.
  • Agenten dürfen keine sicherheitskritischen Aktionen ohne deterministische Guardrails auslösen.
  • Für operative KI-Agenten ist Observability zentral: Auditierbare Entscheidungen, reproduzierbare Agentenläufe, strenge Rechteverwaltung. Genau hier braucht es spezialisierte Plattformen für Observability und Governance, die on-prem laufen und DSGVO-konform arbeiten.

Planung und Kadenzen: Spikes mit Nachweis, Gateways ohne Big-Design-Upfront

Dual-Track Discovery/Delivery:

  • Discovery-Spikes sind timeboxed, liefern aber harte Ergebnisse: Architektur-ADR, aktualisiertes Risiko, Prototyp mit Messwerten, Entscheidungsgrundlage “go/stop”.
  • Keine “Proof-of-Concepts” ohne definierte Kill-Kriterien und Lernziele.

Leichte, wiederkehrende Gateways:

  • Safety-Review: Auswirkungen auf Hazard Log, Mitigation-Status, Testabdeckung.
  • Architektur-Review: NFR-Budgets, Schnittstellenstabilität, Performance-Headroom.
  • Security/Privacy-Review: Neue Datenflüsse, Bedrohungen, DPIA-Änderungen.
  • Diese Gateways sind in Sprints eingebettet; Entscheidungen werden dokumentiert (ADRs) und Artefakte landen automatisiert im Build-Output.

Metriken, die in regulierten Umgebungen zählen

Vermeiden Sie Vanity-Metriken. Stattdessen messen wir:

  • Evidence Accrual Rate: Wieviel prüffähige Evidenz entsteht pro Sprint (Tests, Berichte, Trace-Links)?
  • Time-to-Explain: Zeit, um eine Anforderung bis zur Testevidenz lückenlos zu erklären.
  • Reproduzierbarkeitsquote: Anteil der Builds, die bit-identisch reproduzierbar sind.
  • Drift-Detection Time: Zeit bis zur Erkennung signifikanter Daten-/Modell-Drifts im Betrieb.
  • Audit Findings per Release: Anzahl und Schwere offener Abweichungen.
  • Risk Burndown: Abbau von Risiken im Hazard Backlog, nicht nur Story Points.
  • MTTR unter Sicherheitsauflagen: Wiederherstellungszeit mit dokumentierten, sicheren Verfahren.

Deployment-Modelle: On-Prem by default, Air-Gap fähig

Datenhoheit und Betriebssicherheit verlangen:

  • Air-Gapped-Option: Updates als signierte, paketierte Bundles, Offline-Verification, kontrollierte Wartungsfenster.
  • Rollende Zertifizierungsfenster: Funktionsgruppen werden in “Zertifikats-Slices” zusammengefasst, um Änderungen gezielt einzuschränken.
  • Konfigurations-Governance: Zwei-Personen-Freigaben, versionierte Konfigurationen, Two-Phase-Commit für sicherheitskritische Parameter.
  • Observability on-prem: Metrik- und Log-Pipelines ohne externe Abhängigkeiten, Retention-Policies, manipulationssichere Audit-Logs.

Kurzbeispiele aus der Praxis (anonymisiert)

Defense: Sensorfusion in einer taktischen Umgebung

  • Forderung: Deterministische Latenz < X ms, kein Cloud-Zugriff, reproduzierbare Builds auf definierter Hardware.
  • Vorgehen: Edge-Optimierung in C++ mit festen Speicherprofilen; Shadow-Integration im Teststand; Safety Cage verhindert Aktorbefehle außerhalb definierter Parameter.
  • Ergebnis: Jede Sprintlieferung brachte Feature plus Evidenzpaket (Trace, Test, SBOM), was die spätere formale Abnahme beschleunigte.