• Shadow Mode: Neue Logik läuft passiv mit, Entscheidungen werden nicht aktiviert. Wir erfassen Telemetrie und vergleichen gegen Ground Truth. Abnahmekriterium ist nicht „fühlt sich gut an“, sondern statistische Nachweise (Fehlalarme, Erkennungsraten, Worst-Case-Latenzen).
  • Advisory First: System gibt nur Empfehlungen, keine Aktorsteuerung. Der/die Operator:in bestätigt. Dabei messen wir Workload-Effekte, Fehlerreduktion, Interventionsraten.
  • Read‑Only Integration: Integrieren Sie zuerst lesende Zugriffe (z. B. Sensorfusion, Fleet Insight), bevor Sie schreibende Pfade anfassen. Das baut Vertrauen und Datenkompetenz auf, ohne Hazard‑Exposure.
  • Canary im Offline‑Betrieb: Rollen Sie neue Modelle/Algorithmen zuerst in einer abgeschlossenen Simulations-/Replayschleife aus (Hardware‑in‑the‑Loop, Software‑in‑the‑Loop). Erst wenn die Evidenzschwellen erreicht sind, folgt ein begrenzter Feldtest.
  • Safety Gates als Feature‑Flags: Freigaben sind an objektive Metriken gebunden (z. B. max. False‑Negative‑Rate in definierten Szenarien, Timing‑Budget eingehalten, Memory‑Footprint stabil). Feature‑Flags sind gebunden an Safety‑Interlocks – nicht bloß an Konfigurationsschalter.

Beispiel‑Kriterien für ein MVPS‑Gate:

  • Funktional: Definierte Use‑Cases mit Akzeptanztests bestanden; Interface‑Invarianten gehalten.
  • Zeitverhalten: P95/P99‑Latenzen unter Budget; keine Deadline‑Misses in Worst-Case-Szenarien.
  • Robustheit: Fault‑Injection‑Tests ohne gefährliche Zustände; Degradationsstrategie greift (Fail‑Safe).
  • Daten/ML (falls zutreffend): Dataset-Version fixiert; Trainings-/Validierungsprotokolle archiviert; Drift‑Detektor aktiviert; Re‑Training nur via Change‑Control.
  • Betrieb: Telemetrie minimal, aber ausreichend; Log‑PII geprüft; Rollback‑Pfad getestet; Not‑Aus/Kill‑Switch dokumentiert.

Toolchain- und Deployment-Blueprint ohne Cloud-Abhängigkeit

In Defense, Bahn, industriellen Fertigungen ist ein US‑Cloud‑SaaS nicht akzeptabel. Eine souveräne, on‑prem Toolchain ist möglich – ohne die Agilität zu opfern.

  • Versionsverwaltung und CI/CD:
  • Git on‑prem (z. B. GitLab, Gitea) mit gehärteten Runnern in einem abgeschotteten Cluster.
  • Reproduzierbare Builds (Bazel oder Nix), signierte Container (cosign), Supply‑Chain‑Attestierungen (in‑toto/SLSA‑konform).
  • Toolqualifikation: Kritische Tools mit dokumentierten Vertrauensgrenzen; festgenagelte Versionen; Hash‑gepinnt.
  • Artefakt-/Modellverwaltung:
  • Private Registry (Harbor) mit CVE‑Scanning und Signaturprüfungen.
  • Artifact Store on‑prem (z. B. MinIO/S3‑kompatibel) für Build‑Artefakte, Testreports, Evidenzdokumente.
  • Für ML: Dataset-/Model‑Versionierung (z. B. DVC oder LakeFS), reproduzierbare Trainingspipelines im isolierten Cluster.
  • Deploy/Run:
  • Kubernetes on‑prem (k3s/MicroK8s oder reguläres K8s) mit GitOps (Argo CD/Flux). Manifeste sind signiert; Admission Controller erzwingt Policies.
  • Strikte Netzwerksegmentation, nur Pull aus signierten internen Registries, keine ausgehenden Internetverbindungen.
  • Observability on‑prem (Loki/Prometheus/Grafana), Log‑Retention nach DSGVO/Branchenvorgaben; PII‑Filter vor Persistenz.
  • Nachweisführung:
  • Safety/Compliance Case als Code (z. B. GSN in Markdown/Graph‑Syntax), versioniert; CI setzt aus Artefakten den aktuellen Case zusammen.
  • SBOMs pro Build (SPDX/CycloneDX), Abweichungsberichte bei neuen CVEs, definiertes Patch‑Fenster mit Risikobewertung.

AI/LLM‑spezifisch: Governance und Observability

Wenn KI/LLM‑Komponenten dazukommen, reicht klassische Telemetrie nicht. Sie brauchen:

  • Prompt/Policy‑Versionierung, Input/Output‑Sampling, Red‑Team‑Suiten gegen Prompt‑Injection und Datenexfiltration.
  • Guardrails/Policies, die nicht im Prompt „versteckt“ sind, sondern als überprüfbare, versionierte Regeln laufen.
  • Agent‑Observability: Kausal nachvollziehen, warum ein Agent eine Aktion vorgeschlagen hat (Tool‑Aufrufe, Kontextzuschnitte, Confidence‑Scores).
  • On‑prem Feintuning/Inference; keine US‑Cloud‑Abhängigkeit; PII‑Kontrollen vor und nach der Inferenz.

Wir entwickeln und betreiben hierfür Alpi‑M – eine Observability‑ und Governance‑Plattform für LLM‑Agenten in Industrieumgebungen. Wichtig ist nicht das Tooling per se, sondern dass Sie Agenten‑Verhalten messen, protokollieren und gegen Policies validieren – on‑prem, nachvollziehbar und auditierbar.

Konkrete Mini‑Beispiele aus Projekten

  • Visuelle Qualitätskontrolle (Fertigung): Start im Shadow Mode mit hochauflösender Bildtelemetrie, offline‑Vergleich gegen manuelles Labeling. Erst nach stabilen Kennzahlen (False‑Negatives unter Grenzwert, Latenz unter 80 ms) wurde der Advisory Mode aktiviert. Safety‑Envelope: Ein unabhängiger Monitor blockt Freigaben, wenn das Sichtfeld teilverdeckt ist oder die Belichtung außerhalb der Toleranzen liegt.
  • Flottenintelligenz (Bahn): Vor der Zustandsprognose im Live‑Betrieb lief ein Simulations‑/Replay‑Betrieb mit echten Telemetriedaten. Deployment on‑prem in Werkstätten‑Rechenzentren; GitOps, keine Internet‑Abhängigkeit. KPI‑Gates: Prognosefenster‑Trefferquote, Alarmermüdung (Operator‑Ack‑Raten), Integrations‑SLAs mit Instandhaltung.
  • Missionsplanung (Defense): Strikte Partitionierung zwischen sicherheitskritischem Guidance‑Kern und situativer Entscheidungsunterstützung. Schnittstellen sind seriell, deterministisch; KI‑Komponenten laufen read‑only und liefern Rankings. Nachweis: Worst‑Case‑Timing auf COTS‑Hardware, Fault‑Injection, strikte Redundanzpfade.

Typische Anti‑Patterns – und was stattdessen funktioniert

  • „Wir bauen schnell, die Zertifizierung machen wir später.“ Stattdessen: Inkrementelle Evidenz. Jede Story liefert einen Baustein für den Safety/Compliance Case.
  • „Scrum ersetzt Systemingenieurwesen.“ Stattdessen: Hybrid‑V. Systemarchitektur und Schnittstellen zuerst, danach agile Implementierung und Verifikation.
  • „Cloud‑SaaS macht uns schneller.“ In regulierten Domänen ist die Rückabwicklung teurer als der anfängliche Komfort. Stattdessen: On‑prem GitOps mit gehärteter Supply‑Chain.
  • „Testen ist QA‑Sache.“ Stattdessen: Technical Ownership verantwortet die Teststrategie und -metriken; QA verifiziert die Angemessenheit, nicht die Existenz.
  • „AI ist eine Blackbox.“ Stattdessen: Daten‑ und Modell‑Governance, deterministische Inferenzpfade, Messbarkeit, red‑team‑getestete Guardrails, Agent‑Observability.

Ein Ablaufplan, der Montag startet