2) Safety‑Envelope / Simplex‑Architektur
- Muster: Ein verifizierter, schlichter Sicherheitsregler überwacht/überschreibt einen leistungsstarken, aber weniger formell abgesicherten Regler oder eine KI‑Komponente. Der Safety‑Regler erzwingt Invarianten (Grenzwerte, Rate‑Limiter, Fallback).
- Einsatz: Bahn (Zustandsüberwachung mit Eingriffsgrenzen), Produktion (Assistenz‑KI, die nicht autonom schaltet), Defence (Entscheidungsassistenz mit menschlicher Autorität).
- Trade‑off: Doppelentwicklung, aber Zulassungspfad für Innovationen ohne gesamte Systemklassifizierung zu erhöhen.
3) Kontraktbasierte Schnittstellen
- Idee: Komponenten kommunizieren über explizite Verträge (Assume/Guarantee), maschinenlesbar versioniert. Kontrakt‑Tests laufen in CI.
- Nutzen: Inkrementelle Zertifizierbarkeit, isolierte Änderungen, klare Aufwände bei Re‑Zertifizierung.
4) Ereignislog/Audit‑First (Event Sourcing/Append‑Only)
- Vorteil: Lückenlose Nachvollziehbarkeit, Replays für Tests, forensische Auswertbarkeit.
- Trade‑off: Komplexere Konsistenzmodelle, aber Audit‑Gewinn und einfachere „Shadow“-Betriebsmodi.
5) Determinismus und Side‑Effect‑Isolation
- Praxis: Keine Hidden I/O in Domänenlogik, deterministische Seeds für stochastische Komponenten in Tests, reproduzierbare Builds, feste Compiler‑Versionen, pinned Dependencies.
- Nutzen: Reproduzierbarkeit ist in Audits Gold wert.
6) Speicher- und Typsicherheit
- Wahl: Für sicherheitskritische Echtzeit‑Teile C/C++ mit strengen MISRA‑Regeln oder Rust für Speicher‑Safety; UI/Business‑Layer flexibel (z. B. C++/Qt, Web).
- Trade‑off: Höhere Disziplin, aber weniger undefiniertes Verhalten.
7) Betriebsarchitektur mit Souveränität
- On‑Prem‑Kubernetes in Air‑Gap: Private Registry, signierte Container (z. B. Sigstore/Cosign), SBOMs (CycloneDX), Git‑Ops (ArgoCD/Flux) mit Offline‑Mirrors.
- Observability: Metriken/Logs/Traces lokal, Langzeitarchiv DSGVO‑konform. Keine Third‑Party‑SaaS für Betriebsdaten in Defence/Bahn.
- Update‑Strategien: Blue‑Green in Depotumgebung, rollierende Flotten‑Wellen, Hardware‑Gate (nur im Instandhaltungsfenster), stets mit Rollback‑Plan und Fleet‑Health‑Monitoring.
MLOps in regulierten Umgebungen: offline‑fähig und evidenzgetrieben
- Datenhoheit: Daten verbleiben im Werk/Rechenzentrum. Zugriff per Rollen/Prozessen, Pseudonymisierung wo nötig.
- Reproduzierbare Trainingspipelines: Versionierte Datasets/Features (z. B. DVC/LakeFS), fixierte Lib‑Stacks, deterministische Seeds, Pipeline‑Definition als Code.
- Modell‑Governance: Modellkarten, Validierungsberichte, Einsatzgrenzen (Operational Design Domain, ODD), Drift‑Monitore, Freigabeprozesse mit Vier‑Augen‑Prinzip.
- Shadow‑Mode/Parallelbetrieb: Neue Modelle beobachten/empfehlen, greifen aber nicht ein, bis Nachweise und Monitoring passen.
- Kein US‑Cloud‑Zwang: GPU‑Cluster On‑Prem, Job‑Scheduler, bewusste Bibliothekswahl ohne Telemetrie‑Exfiltration.
LLM‑Einsatz für Operator‑Assistenz: nur mit Observability und Governance
- Prinzipien: On‑Prem‑Modelle oder souveräne Hosting‑Partner; Prompt/Output‑Logging mit Zugriffskontrolle; strikte Retrieval‑Scopes; keine ungeprüften externen Aufrufe; human‑in‑the‑loop.
- Governance: Policies als Code (z. B. zulässige Datenquellen), regelbasierte Guardrails, Auswertung/Audit von Dialogen, klare Deaktivierung bei Drift/Fehlverhalten.
- Deployment: Containerisiert in isolierten Namespaces, egress‑restricted, mit Not‑Aus‑Schalter. Audit‑Export in das Nachweisarchiv.
MVP neu denken: Minimum Viable Proof statt Minimalprodukt
Ein MVP für ein sicherheitskritisches System ist kein halbgares Feature in der Produktion. Es ist ein minimaler, aber vollständiger Nachweisstrang für einen eng begrenzten Nutzwert – technisch funktionsfähig, betrieblich abgesichert, regulatorisch vertretbar. Elemente:
- Enges ODD: Präzise begrenzte Einsatzbedingungen (z. B. nur Depotbetrieb, nur Analyse ohne Eingriff, nur bestimmte Flottensegmente).
- Sicherheitsfall‑Skelett (GSN): Claim–Argument–Evidence sind vorhanden, wenn auch schlank. Annahmen und Einschränkungen sind explizit dokumentiert.
- Shadow‑Mode oder Read‑Only‑Eingriff: Beobachten/empfehlen statt steuern; Messbarkeit ohne Risikoerhöhung.
- Technische Schutzschicht: Safety‑Envelope/Rate‑Limiter/Konfidenz‑Gates, die Fehlverhalten technisch unterbinden.
- Rollout‑Plan mit Kill‑Switch: Klare Abbruchkriterien, sofortige Rollback‑Fähigkeit, Monitoring‑Schwellen.
- Auditreife Artefakte: Anforderungen, Architektur, Tests, Evidenz, Betriebs‑SOPs – traceable, versioniert.
So sieht ein 12‑Wochen‑Pfad zu einem echten Minimum Viable Proof aus:
- Wochen 1‑2: Hazard‑Workshop, ODD‑Abgrenzung, Architektur‑Schnitt (Safety‑Envelope, Ports/Adapter), Evidence‑Plan. Aufsetzen von Repro‑Builds, Signing, Private Registry.
- Wochen 3‑6: Implementierung Domänenkern und technische Schutzschicht, Kontrakt‑Tests, initiale Validierung auf synthetischen/archivierten Daten. GSN‑Skelett mit ersten Evidenzen.
- Wochen 7‑9: Shadow‑Mode im Zielbetrieb (Air‑Gap vorbereitet), Observability, Drift‑Monitore, Verfahren zur Datenaufnahme DSGVO‑konform. Evidence‑Reviews, Härtung der Betriebsprozesse.
- Wochen 10‑12: Gesteuerter Feldtest im ODD mit Kill‑Switch, Abschluss‑Nachweise, Go/No‑Go anhand definierter Metriken (Fehlalarmrate, Evidenzabdeckung, Betriebsstabilität).
Konkrete Muster aus realen Industrien
- Bahn: Fleet Intelligence mit stufenweisem Eingriff
Entscheidung: Ereignisgetriebene Architektur, Audit‑Log als primäre Wahrheit; Modell‑Einsatz ausschließlich im Shadow‑Mode über 90 Tage, danach schrittweise Aktivierung nicht‑sicherheitskritischer Empfehlungen. Deployments nur im Depot, signierte Artefakte, Blue‑Green pro Fahrzeuggruppe. Trade‑off: Spätere direkte Kostenersparnis, dafür früher regulatorischer Frieden und keine Betriebsüberraschungen.
- Produktion: Visuelle Fehlererkennung mit Safety‑Envelope
Entscheidung: KI klassifiziert, aber SPS‑Eingriffe nur über einen verifizierten Grenzwert‑Controller (Simplex). ODD: Nur Produktionslinien X/Y, nur optische Prüfstationen, menschliche Freigabe für Ausschuss bis Evidenzreife. Trade‑off: Weniger Automatisierungsgrad am Anfang, dafür schnell nutzbares Qualitätsfeedback ohne Zertifizierungsblocker.
- Defence: Entscheidungsassistenz ohne Datenabfluss
Entscheidung: LLM‑Assistent on‑prem mit strikt begrenzten Retrieval‑Quellen, kein Internet‑Egress, vollständige Protokollierung. Kein Autonomiegrad, nur Vorschläge; Human‑on‑the‑loop als Policy. Trade‑off: Kein schicker SaaS‑Komfort, aber Daten‑ und Missions‑Souveränität.
Metriken, die zählen: Velocity ja – aber mit Evidenz