Ein praktikables Telemetrie-Schema nutzt Event-Sourcing:

  • Append-only Log pro Session und pro Agent-Version
  • Stark typisierte Events (PromptIssued, ToolCalled, ContextRetrieved, PolicyViolated, HumanApproved, OutputDelivered)
  • Versionierte Schemata, signierte Artefakte (Modell, Prompt, Policy), um bei Audits eindeutig zuordnen zu können

Governance-Policies als Code
Policies sollten nicht „in die Prompts“ geschrieben werden, sondern als explizite Regeln vor und hinter das Modell. Beispiel einer einfachen, maschinenlesbaren Policy:

{
“name”: “safety_and_data_policy_v3”,
“rules”: [
{ “if”: { “ticket.severity”: “safety_critical” },
“then”: [“require_human_approval”, “log_evidence_pack”] },
{ “if”: { “tool.name”: “web_search” },
“then”: [“deny”, “reason:external_egress_disallowed”] },
{ “if”: { “answer.has_sources”: false },
“then”: [“defer”, “route:research_queue”] }
]
}

Solche Policies laufen deterministisch, sind testbar und trennbar von Prompt-Änderungen. Sie bilden die Grundlage für Haftbarkeit: Man kann belegen, dass die KI nie außerhalb klar definierter Leitplanken agierte.

Evaluieren im Trockendock
Bevor ein Agent live geht:

  • Behavior-Testsuite mit realistischen Aufgaben, Edge-Cases, Red-Team-Szenarien (Prompt-Injection, Tool-Abuse, Datenlücken)
  • Golden-Questions mit deterministischer Erwartung, inklusive erlaubter Variabilität im Wortlaut, aber fester Tool- und Quellenanforderung
  • Canary-Prompts im Betrieb, um Drifts früh zu erkennen
  • Offline-Replays realer Sessions gegen neue Versionen (Modelle, Prompts, Policies) mit Diff der Outcomes

Operative Dashboards sollten nicht nur LLM-Metriken zeigen, sondern Entscheidungsmetriken:

  • Anteil Entscheidungen mit menschlicher Freigabe
  • Zeit bis Freigabe
  • Eskalationsrate je Schicht/Zeitfenster
  • Ursachenbäume für Deferrals (Policy-bedingt, Quellenabdeckung, Tool-Fehler)

Alpi-M als Plattform für Observability und Governance
Wir entwickeln mit Alpi-M eine Plattform, die genau diese Anforderungen adressiert: LLM-Agenten und komplexe KI-Workflows werden als beobachtbare, kontrollierbare Systeme betrieben – on-premise, DSGVO-konform, ohne US-Cloud-Abhängigkeit. Kernprinzipien sind Ereignisprotokollierung, Policy-as-Code und revisionssichere Nachvollziehbarkeit. Für Industrien, in denen Souveränität nicht verhandelbar ist, ist das die Basis, nicht die Kür.

4) Governance und Verantwortung: Wer haftet, wenn die KI falsch liegt?

Governance muss den juristischen und operativen Pfad abbilden – von der Idee bis zur Incident-Aufarbeitung.

Rollen und Verantwortlichkeiten

  • Product/Process Owner: definiert Entscheidungsrechte der KI, Abbruchkriterien, Fallback-Prozesse.
  • Data/ML Owner: verantwortet Datenqualität, Trainings-/Eval-Kriterien, Modellversionierung.
  • Ops Owner: verantwortet Laufzeitumgebung, Monitoring, Incident Response.
  • Approval Roles: definierte Personen/Gruppen, die Freigaben bei Safety-/Compliance-relevanten Aktionen erteilen.

Safety Case und Dokumentation

  • Hazard-Analyse je Entscheidungsklasse, inkl. Fehlermodi und Mitigations (Policy, HITL, technische Schranken).
  • Change-Logs zu Modellen, Prompts, Policies, Datenpipelines – signiert, auditierbar.
  • Traceability: Von Entscheidung zurück auf Daten, Modell, Policy und Mensch, der freigegeben hat.

Rollout-Strategie

  • Shadow-Mode: KI beobachtet, entscheidet „für sich“, Ergebnisse werden nur mitgeloggt.
  • Recommendation-Only: KI schlägt vor, Mensch entscheidet; Metriken stabilisieren.
  • Phasenweise Autonomie: Nur für risikoarme Entscheidungen; Safety-Entscheidungen bleiben freigabepflichtig.

Incident-Management

  • Eindeutige Meldeschwellen (z. B. sprunghafte Eskalationsraten, Policy-Verletzungen).
  • Playbooks: Sofortmaßnahmen (z. B. Agent deaktivieren, nur Deferral zulassen), Root-Cause-Analyse anhand Event-Logs, Korrekturmaßnahmen.
  • Lessons Learned in Eval-Sets und Policies zurückführen.

5) Architektur: On-Premise als Grundlage für Souveränität

In unseren Projekten trennt sich die Architektur in Control Plane und Data/Execution Plane – beide on-premise oder in einer souveränen Private Cloud.

Control Plane

  • AuthN/AuthZ via OIDC, fein granulare Rollen für Agenten, Tools, Benutzer
  • Policy-Engine als eigenständiger Service, sprachagnostisch
  • Registries für Modelle, Prompts, Policies, Tools (signierte Artefakte, SBOM)
  • Observability-Stack mit Event-Store (append-only), Query-Layer, Dashboards, Alarmierung

Data/Execution Plane

  • Modell-Serving (z. B. C++/Rust/Go-Microservices für CV/TS, dedizierte LLM-Server), GPU-Orchestrierung
  • Retrieval-Infrastruktur on-prem (Vektordatenbank, Dokumenten-Pipeline, Zugriffskontrollen auf Dokument-Ebene)
  • Tool-Sandboxing: strikte Whitelists, Parameter-Validatoren, Least Privilege für Credentials, Network Egress Control
  • Air-Gapped-Optionen für Defense/critical Infrastructure mit Update-Kanälen via signiertem Transfer

Querfunktionen

  • Datenschutz: PII-Redaktion in Telemetrie; Datenminimierung; konfigurierbare Retention-Policies
  • Testbarkeit: Repro-Umgebungen, deterministische Seeds wo möglich, Replay-Fähigkeit
  • Security: Prompt-Injection-Filter auf Input und in abgeleiteten Kontexten; Output-Validation gegen Schemas; kontextuelle Rate Limits

6) Konkretes Szenario: Flottenintelligenz im Bahnverkehr (Beispiel)

Problemstellung
Ein Bahnunternehmen möchte Anomalien in Antriebs- und Klimasystemen früh erkennen, um Ausfälle zu vermeiden. Datenbasis sind Onboard-Sensordaten, Diagnosetickets aus Wartungssystemen und technische Dokumentation. Ein LLM-Agent erstellt Diagnosenvorschläge auf Basis strukturierter Features und Dokumentation und erzeugt Wartungstickets.

HITL-Design

  • Entscheidungen mit niedriger Kritikalität (z. B. Komforteinschränkung ohne Sicherheitsbezug): Agent erstellt Ticket inkl. Maßnahmenvorschlag; automatische Freigabe, Mensch informiert.
  • Sicherheitsnahe Entscheidungen (z. B. Antriebsanomalie): Agent muss Deferral machen. Er packt Evidenz zusammen: betroffene Sensoren, Residuenverlauf, Gegenprüfung mit Regel-Overlays, relevante Auszüge aus dem Instandhaltungsmanual.
  • Approval-UI zeigt:
  • Zeitreihe mit markierten Anomalie-Regionen, Referenz vs. Ist
  • Liste der herangezogenen Dokumentpassagen mit Links/IDs
  • Tooltrace (z. B. „retrieve_manual_section”, „compute_residuals”, „compose_ticket”)
  • Policy-Hinweis („SafetyCritical -> Approval required”)
  • Klarer Vorschlag („Zug in nächster planmäßiger Wartung prüfen; sofortige Betriebseinschränkung nicht notwendig“) mit Button „Freigeben”/„Ablehnen”/„Weitere Prüfung anfordern”

Explainability

  • Kein „magisches Score“, sondern ein Residuenprofil mit überlagerter Regelverletzung (monotone Regel), ergänzt um LLM-Zitate der genutzten Kapitel.
  • „Nicht gefunden“-Transparenz: Anzeige, welche typischen Fehlerbilder explizit NICHT zutrafen.