Imported Post 2026-04-23 00:17:54

Ein praktikables Telemetrie-Schema nutzt Event-Sourcing:

Append-only Log pro Session und pro Agent-Version

Stark typisierte Events (PromptIssued, ToolCalled, ContextRetrieved, PolicyViolated, HumanApproved, OutputDelivered)

Versionierte Schemata, signierte Artefakte (Modell, Prompt, Policy), um bei Audits eindeutig zuordnen zu können

Governance-Policies als Code
Policies sollten nicht „in die Prompts“ geschrieben werden, sondern als explizite Regeln vor und hinter das Modell. Beispiel einer einfachen, maschinenlesbaren Policy:

{
“name”: “safety_and_data_policy_v3”,
“rules”: [
{ “if”: { “ticket.severity”: “safety_critical” },
“then”: [“require_human_approval”, “log_evidence_pack”] },
{ “if”: { “tool.name”: “web_search” },
“then”: [“deny”, “reason:external_egress_disallowed”] },
{ “if”: { “answer.has_sources”: false },
“then”: [“defer”, “route:research_queue”] }
]
}

Solche Policies laufen deterministisch, sind testbar und trennbar von Prompt-Änderungen. Sie bilden die Grundlage für Haftbarkeit: Man kann belegen, dass die KI nie außerhalb klar definierter Leitplanken agierte.

Evaluieren im Trockendock
Bevor ein Agent live geht:

Behavior-Testsuite mit realistischen Aufgaben, Edge-Cases, Red-Team-Szenarien (Prompt-Injection, Tool-Abuse, Datenlücken)

Golden-Questions mit deterministischer Erwartung, inklusive erlaubter Variabilität im Wortlaut, aber fester Tool- und Quellenanforderung

Canary-Prompts im Betrieb, um Drifts früh zu erkennen

Offline-Replays realer Sessions gegen neue Versionen (Modelle, Prompts, Policies) mit Diff der Outcomes

Operative Dashboards sollten nicht nur LLM-Metriken zeigen, sondern Entscheidungsmetriken:

Anteil Entscheidungen mit menschlicher Freigabe

Zeit bis Freigabe

Eskalationsrate je Schicht/Zeitfenster

Ursachenbäume für Deferrals (Policy-bedingt, Quellenabdeckung, Tool-Fehler)

Alpi-M als Plattform für Observability und Governance
Wir entwickeln mit Alpi-M eine Plattform, die genau diese Anforderungen adressiert: LLM-Agenten und komplexe KI-Workflows werden als beobachtbare, kontrollierbare Systeme betrieben – on-premise, DSGVO-konform, ohne US-Cloud-Abhängigkeit. Kernprinzipien sind Ereignisprotokollierung, Policy-as-Code und revisionssichere Nachvollziehbarkeit. Für Industrien, in denen Souveränität nicht verhandelbar ist, ist das die Basis, nicht die Kür.

4) Governance und Verantwortung: Wer haftet, wenn die KI falsch liegt?

Governance muss den juristischen und operativen Pfad abbilden – von der Idee bis zur Incident-Aufarbeitung.

Rollen und Verantwortlichkeiten

Product/Process Owner: definiert Entscheidungsrechte der KI, Abbruchkriterien, Fallback-Prozesse.

Data/ML Owner: verantwortet Datenqualität, Trainings-/Eval-Kriterien, Modellversionierung.

Ops Owner: verantwortet Laufzeitumgebung, Monitoring, Incident Response.

Approval Roles: definierte Personen/Gruppen, die Freigaben bei Safety-/Compliance-relevanten Aktionen erteilen.

Safety Case und Dokumentation

Hazard-Analyse je Entscheidungsklasse, inkl. Fehlermodi und Mitigations (Policy, HITL, technische Schranken).

Change-Logs zu Modellen, Prompts, Policies, Datenpipelines – signiert, auditierbar.

Traceability: Von Entscheidung zurück auf Daten, Modell, Policy und Mensch, der freigegeben hat.

Rollout-Strategie

Shadow-Mode: KI beobachtet, entscheidet „für sich“, Ergebnisse werden nur mitgeloggt.

Recommendation-Only: KI schlägt vor, Mensch entscheidet; Metriken stabilisieren.

Phasenweise Autonomie: Nur für risikoarme Entscheidungen; Safety-Entscheidungen bleiben freigabepflichtig.

Incident-Management

Eindeutige Meldeschwellen (z. B. sprunghafte Eskalationsraten, Policy-Verletzungen).

Playbooks: Sofortmaßnahmen (z. B. Agent deaktivieren, nur Deferral zulassen), Root-Cause-Analyse anhand Event-Logs, Korrekturmaßnahmen.

Lessons Learned in Eval-Sets und Policies zurückführen.

5) Architektur: On-Premise als Grundlage für Souveränität

In unseren Projekten trennt sich die Architektur in Control Plane und Data/Execution Plane – beide on-premise oder in einer souveränen Private Cloud.

Control Plane

AuthN/AuthZ via OIDC, fein granulare Rollen für Agenten, Tools, Benutzer

Policy-Engine als eigenständiger Service, sprachagnostisch

Registries für Modelle, Prompts, Policies, Tools (signierte Artefakte, SBOM)

Observability-Stack mit Event-Store (append-only), Query-Layer, Dashboards, Alarmierung

Data/Execution Plane

Modell-Serving (z. B. C++/Rust/Go-Microservices für CV/TS, dedizierte LLM-Server), GPU-Orchestrierung

Retrieval-Infrastruktur on-prem (Vektordatenbank, Dokumenten-Pipeline, Zugriffskontrollen auf Dokument-Ebene)

Tool-Sandboxing: strikte Whitelists, Parameter-Validatoren, Least Privilege für Credentials, Network Egress Control

Air-Gapped-Optionen für Defense/critical Infrastructure mit Update-Kanälen via signiertem Transfer

Querfunktionen

Datenschutz: PII-Redaktion in Telemetrie; Datenminimierung; konfigurierbare Retention-Policies

Testbarkeit: Repro-Umgebungen, deterministische Seeds wo möglich, Replay-Fähigkeit

Security: Prompt-Injection-Filter auf Input und in abgeleiteten Kontexten; Output-Validation gegen Schemas; kontextuelle Rate Limits

6) Konkretes Szenario: Flottenintelligenz im Bahnverkehr (Beispiel)

Problemstellung
Ein Bahnunternehmen möchte Anomalien in Antriebs- und Klimasystemen früh erkennen, um Ausfälle zu vermeiden. Datenbasis sind Onboard-Sensordaten, Diagnosetickets aus Wartungssystemen und technische Dokumentation. Ein LLM-Agent erstellt Diagnosenvorschläge auf Basis strukturierter Features und Dokumentation und erzeugt Wartungstickets.

HITL-Design

Entscheidungen mit niedriger Kritikalität (z. B. Komforteinschränkung ohne Sicherheitsbezug): Agent erstellt Ticket inkl. Maßnahmenvorschlag; automatische Freigabe, Mensch informiert.

Sicherheitsnahe Entscheidungen (z. B. Antriebsanomalie): Agent muss Deferral machen. Er packt Evidenz zusammen: betroffene Sensoren, Residuenverlauf, Gegenprüfung mit Regel-Overlays, relevante Auszüge aus dem Instandhaltungsmanual.

Approval-UI zeigt:

Zeitreihe mit markierten Anomalie-Regionen, Referenz vs. Ist

Liste der herangezogenen Dokumentpassagen mit Links/IDs

Tooltrace (z. B. „retrieve_manual_section”, „compute_residuals”, „compose_ticket”)

Policy-Hinweis („SafetyCritical -> Approval required”)

Klarer Vorschlag („Zug in nächster planmäßiger Wartung prüfen; sofortige Betriebseinschränkung nicht notwendig“) mit Button „Freigeben”/„Ablehnen”/„Weitere Prüfung anfordern”

Explainability

Kein „magisches Score“, sondern ein Residuenprofil mit überlagerter Regelverletzung (monotone Regel), ergänzt um LLM-Zitate der genutzten Kapitel.

„Nicht gefunden“-Transparenz: Anzeige, welche typischen Fehlerbilder explizit NICHT zutrafen.