- Shadow Mode: Neue Logik läuft passiv mit, Entscheidungen werden nicht aktiviert. Wir erfassen Telemetrie und vergleichen gegen Ground Truth. Abnahmekriterium ist nicht „fühlt sich gut an“, sondern statistische Nachweise (Fehlalarme, Erkennungsraten, Worst-Case-Latenzen).
- Advisory First: System gibt nur Empfehlungen, keine Aktorsteuerung. Der/die Operator:in bestätigt. Dabei messen wir Workload-Effekte, Fehlerreduktion, Interventionsraten.
- Read‑Only Integration: Integrieren Sie zuerst lesende Zugriffe (z. B. Sensorfusion, Fleet Insight), bevor Sie schreibende Pfade anfassen. Das baut Vertrauen und Datenkompetenz auf, ohne Hazard‑Exposure.
- Canary im Offline‑Betrieb: Rollen Sie neue Modelle/Algorithmen zuerst in einer abgeschlossenen Simulations-/Replayschleife aus (Hardware‑in‑the‑Loop, Software‑in‑the‑Loop). Erst wenn die Evidenzschwellen erreicht sind, folgt ein begrenzter Feldtest.
- Safety Gates als Feature‑Flags: Freigaben sind an objektive Metriken gebunden (z. B. max. False‑Negative‑Rate in definierten Szenarien, Timing‑Budget eingehalten, Memory‑Footprint stabil). Feature‑Flags sind gebunden an Safety‑Interlocks – nicht bloß an Konfigurationsschalter.
Beispiel‑Kriterien für ein MVPS‑Gate:
- Funktional: Definierte Use‑Cases mit Akzeptanztests bestanden; Interface‑Invarianten gehalten.
- Zeitverhalten: P95/P99‑Latenzen unter Budget; keine Deadline‑Misses in Worst-Case-Szenarien.
- Robustheit: Fault‑Injection‑Tests ohne gefährliche Zustände; Degradationsstrategie greift (Fail‑Safe).
- Daten/ML (falls zutreffend): Dataset-Version fixiert; Trainings-/Validierungsprotokolle archiviert; Drift‑Detektor aktiviert; Re‑Training nur via Change‑Control.
- Betrieb: Telemetrie minimal, aber ausreichend; Log‑PII geprüft; Rollback‑Pfad getestet; Not‑Aus/Kill‑Switch dokumentiert.
Toolchain- und Deployment-Blueprint ohne Cloud-Abhängigkeit
In Defense, Bahn, industriellen Fertigungen ist ein US‑Cloud‑SaaS nicht akzeptabel. Eine souveräne, on‑prem Toolchain ist möglich – ohne die Agilität zu opfern.
- Versionsverwaltung und CI/CD:
- Git on‑prem (z. B. GitLab, Gitea) mit gehärteten Runnern in einem abgeschotteten Cluster.
- Reproduzierbare Builds (Bazel oder Nix), signierte Container (cosign), Supply‑Chain‑Attestierungen (in‑toto/SLSA‑konform).
- Toolqualifikation: Kritische Tools mit dokumentierten Vertrauensgrenzen; festgenagelte Versionen; Hash‑gepinnt.
- Artefakt-/Modellverwaltung:
- Private Registry (Harbor) mit CVE‑Scanning und Signaturprüfungen.
- Artifact Store on‑prem (z. B. MinIO/S3‑kompatibel) für Build‑Artefakte, Testreports, Evidenzdokumente.
- Für ML: Dataset-/Model‑Versionierung (z. B. DVC oder LakeFS), reproduzierbare Trainingspipelines im isolierten Cluster.
- Deploy/Run:
- Kubernetes on‑prem (k3s/MicroK8s oder reguläres K8s) mit GitOps (Argo CD/Flux). Manifeste sind signiert; Admission Controller erzwingt Policies.
- Strikte Netzwerksegmentation, nur Pull aus signierten internen Registries, keine ausgehenden Internetverbindungen.
- Observability on‑prem (Loki/Prometheus/Grafana), Log‑Retention nach DSGVO/Branchenvorgaben; PII‑Filter vor Persistenz.
- Nachweisführung:
- Safety/Compliance Case als Code (z. B. GSN in Markdown/Graph‑Syntax), versioniert; CI setzt aus Artefakten den aktuellen Case zusammen.
- SBOMs pro Build (SPDX/CycloneDX), Abweichungsberichte bei neuen CVEs, definiertes Patch‑Fenster mit Risikobewertung.
AI/LLM‑spezifisch: Governance und Observability
Wenn KI/LLM‑Komponenten dazukommen, reicht klassische Telemetrie nicht. Sie brauchen:
- Prompt/Policy‑Versionierung, Input/Output‑Sampling, Red‑Team‑Suiten gegen Prompt‑Injection und Datenexfiltration.
- Guardrails/Policies, die nicht im Prompt „versteckt“ sind, sondern als überprüfbare, versionierte Regeln laufen.
- Agent‑Observability: Kausal nachvollziehen, warum ein Agent eine Aktion vorgeschlagen hat (Tool‑Aufrufe, Kontextzuschnitte, Confidence‑Scores).
- On‑prem Feintuning/Inference; keine US‑Cloud‑Abhängigkeit; PII‑Kontrollen vor und nach der Inferenz.
Wir entwickeln und betreiben hierfür Alpi‑M – eine Observability‑ und Governance‑Plattform für LLM‑Agenten in Industrieumgebungen. Wichtig ist nicht das Tooling per se, sondern dass Sie Agenten‑Verhalten messen, protokollieren und gegen Policies validieren – on‑prem, nachvollziehbar und auditierbar.
Konkrete Mini‑Beispiele aus Projekten
- Visuelle Qualitätskontrolle (Fertigung): Start im Shadow Mode mit hochauflösender Bildtelemetrie, offline‑Vergleich gegen manuelles Labeling. Erst nach stabilen Kennzahlen (False‑Negatives unter Grenzwert, Latenz unter 80 ms) wurde der Advisory Mode aktiviert. Safety‑Envelope: Ein unabhängiger Monitor blockt Freigaben, wenn das Sichtfeld teilverdeckt ist oder die Belichtung außerhalb der Toleranzen liegt.
- Flottenintelligenz (Bahn): Vor der Zustandsprognose im Live‑Betrieb lief ein Simulations‑/Replay‑Betrieb mit echten Telemetriedaten. Deployment on‑prem in Werkstätten‑Rechenzentren; GitOps, keine Internet‑Abhängigkeit. KPI‑Gates: Prognosefenster‑Trefferquote, Alarmermüdung (Operator‑Ack‑Raten), Integrations‑SLAs mit Instandhaltung.
- Missionsplanung (Defense): Strikte Partitionierung zwischen sicherheitskritischem Guidance‑Kern und situativer Entscheidungsunterstützung. Schnittstellen sind seriell, deterministisch; KI‑Komponenten laufen read‑only und liefern Rankings. Nachweis: Worst‑Case‑Timing auf COTS‑Hardware, Fault‑Injection, strikte Redundanzpfade.
Typische Anti‑Patterns – und was stattdessen funktioniert
- „Wir bauen schnell, die Zertifizierung machen wir später.“ Stattdessen: Inkrementelle Evidenz. Jede Story liefert einen Baustein für den Safety/Compliance Case.
- „Scrum ersetzt Systemingenieurwesen.“ Stattdessen: Hybrid‑V. Systemarchitektur und Schnittstellen zuerst, danach agile Implementierung und Verifikation.
- „Cloud‑SaaS macht uns schneller.“ In regulierten Domänen ist die Rückabwicklung teurer als der anfängliche Komfort. Stattdessen: On‑prem GitOps mit gehärteter Supply‑Chain.
- „Testen ist QA‑Sache.“ Stattdessen: Technical Ownership verantwortet die Teststrategie und -metriken; QA verifiziert die Angemessenheit, nicht die Existenz.
- „AI ist eine Blackbox.“ Stattdessen: Daten‑ und Modell‑Governance, deterministische Inferenzpfade, Messbarkeit, red‑team‑getestete Guardrails, Agent‑Observability.
Ein Ablaufplan, der Montag startet