Was wir in produktiven Setups loggen und steuern

  • Vollständige Ausführungsgraphen: Jede Session als DAG mit Knoten (Gedanken/Plan, Tool-Call, Retrieval), Kanten (Datenfluss), Zeitstempeln.
  • Prompt-/Policy-Versionierung: Prompt-Templates, Tool-Schemata, Policies (Rollen, Budgets, Allow-/Deny-Listen) versioniert und signiert. Änderungen gehen durch Review-Workflow (4-Augen).
  • Telemetrie: Latenz pro Schritt, Token-Kosten, Fehlerraten pro Tool, Abbruch-/Loop-Erkennung (Agent hängt in Replan-Schleife).
  • Risikosignale: PII-/Geheimnis-Leak-Anzeichen via Pattern-Matching/Redaktion, Antwort-„Faktenrisiko“ basierend auf fehlenden/konfligierenden Quellen, Out-of-Scope-Erkennung.
  • Ressourcenkontrollen: Pro Session Budgets (Token, Zeit, Tool-Quotas), egress-Allowlist (DNS/IP), Sandbox (z. B. seccomp, read-only FS), Ephemeral Credentials über einen Secret-Broker.
  • Policy-as-Code: Rollenbasierte Toolfreigaben, Datenzugriffsbereiche, Hard Stops („nie Bestellungen auslösen“), Soft Gates („Bestellung > 5k€ nur mit Mensch“).

On-prem-Architekturkomponenten

  • K8s im Werk-/Behörden-DMZ, Air-gapped oder kontrollierte Egress-Pfade.
  • Inferenz-Runtimes (z. B. Text-LLMs) mit lokalen Gewichten; Vektorsuche on-prem (z. B. pgvector), Index-Builds als CI/CD-Artefakte.
  • Observability via OpenTelemetry; Logs in zentrale, verschlüsselte Stores; RBAC über Unternehmens-IdP.
  • Seitcar-Pattern für Audit: Jeder Agent-Pod hat einen Logging-Sidecar, der Prompt/Response-Metadaten, Tool-Traces, Policies mitschreibt. Inhalte werden nach DLP-Regeln geschwärzt.

Wie wir das bündeln: Alpi-M

  • Alpi-M ist unsere Plattform für Observability und Governance von LLM-Agenten. Sie aggregiert Ausführungsgraphen, misst Metriken (Kosten, Latenz, Tool-Erfolg), setzt Policies durch (Rollen, Budgets, egress), und stellt Audit-Trails bereit.
  • Fokus auf Industrietauglichkeit: On-premise, DSGVO-konform, ohne US-Cloud-Abhängigkeit. Unterstützt Air-Gap-Betrieb, integriert mit bestehenden SIEM-/IdP-Systemen, und erlaubt Policy-as-Code-Workflows inkl. Freigabeprozessen.
  • Praxisnutzen: Teams sehen, warum ein Agent eine Entscheidung traf, welche Evidenz er genutzt hat, welcher Step fehlschlug, und wann der Mensch eingriff. Das senkt die Hemmschwelle für Freigaben – weil Risiken sichtbar und kontrollierbar sind.

4) Governance: Wer ist verantwortlich, wenn die KI falsch liegt?

Governance beginnt nicht mit einem Gremium, sondern mit eindeutigen Verantwortlichkeiten im Code und in den Pipelines.

Rollen und Verantwortlichkeiten (RACI-artig)

  • Product Owner (Use Case): Verantwortlich für Business-Ziele, Fehlertoleranzen, SLOs und Freigabemodi.
  • Model Owner: Verantwortlich für Modellauswahl, Trainings-/Evaluationsdaten, Kalibrierung, Drift-Monitoring.
  • Policy Owner (Agenten): Verantwortlich für Toolfreigaben, Budgets, Datenzugriffsregeln, Change-Approval.
  • Operations/Platform: Verantwortlich für Laufzeitumgebung (K8s, Secrets, Observability), Backups, Restore, Patching.
  • Data Steward: Verantwortlich für Datenqualität, Katalogisierung, Lösch-/Sperrkonzepte.

Change-Management und Auditierbarkeit

  • Alles ist Code: Modelle (Versionen/Hashes), Prompts, Policies, Datenpipelines. Git, semantische Versionierung, Release Notes mit Breaking Changes.
  • 4-Augen-Prinzip für Risikoänderungen: Neue Tool-Freigaben, gelockerte Schwellwerte, neue Datenquellen.
  • Canary/Shadow-Rollouts: Änderungen werden zunächst ohne Seiteneffekte (read-only) oder auf einem Teilsegment gefahren; Metriken müssen SLOs halten, bevor global ausgerollt wird.
  • AI Decision Records (AIDR): Pro kritischer Entscheidung wird der Kontext protokolliert: Input, Modell/Policy-Versionen, Evidenz, Unsicherheitswerte, menschliche Freigabe/Override inkl. Begründung. So wird Verantwortlichkeit konkret und rekonstruierbar.

Incident-Response für KI-Systeme

  • Detection: Alerting auf SLO-Verletzungen (z. B. Anstieg Override-Rate, Häufung Out-of-Distribution-Inputs, Tool-Fehlerrate).
  • Containment: Kill-Switch pro Agent/Modell, Rollback auf letzte stabile Version, harte Policiesschließung (z. B. alle Schreib-Tools disabled).
  • Root Cause Analysis: Klassifizieren nach Prompt-/Policy-Change, Datenänderung (neue Charge, neues Ersatzteil), Infrastrukturfehler, Upstream-Service.
  • Postmortem mit Präventionsmaßnahmen: Neue Tests, striktere Kalibrierung, zusätzliche Evidenz im UI, härtere Policies. Kein „human error“ als Enddiagnose, wenn die UI den Fehler provoziert hat.

Metriken und SLOs, die zählen

  • TPR/FPR bei betriebsrelevantem Threshold, nicht nur „Accuracy“.
  • Auto-Accept-Rate vs. Review-Rate und Median Review Time.
  • Override-Rate des Menschen (und in welche Richtung).
  • Drift-Indikatoren: Population Stability Index, Score-Distribution-Shift.
  • Agenten-spezifisch: Tool-Failure-Rate, Loop-Rate, Kosten pro erledigtem Task, Policy-Violations.

5) Souveränität: On-Premise schlägt „bequeme“ Cloud – aus technischen Gründen

Warum insistieren wir auf On-Premise in sensiblen Industrien?

  • Datenkontrolle: Produktions-, Flotten-, Verteidigungsdaten verlassen die Domäne nicht. Egress ist deterministisch kontrollierbar.
  • Fehlerdomänen trennen: Wenn ein externer Cloud-Service eine Modelländerung ausrollt, haben Sie einen „unbounded change“. On-Prem: gleiche Gewichte, gleiche Runtimes, reproduzierbare Builds.
  • Latenz und Verfügbarkeit: Fabrik/Flotte funktioniert auch bei gestörten WAN-Verbindungen. Modelle liegen lokal, Vektorsuche ist lokal, Policies werden lokal erzwungen.
  • Lieferkette/Haftung: Klare Verantwortlichkeiten und Auditierbarkeit, keine Intransparenz durch externe Blackboxes.
  • Kosten-Kontrolle: Token-/API-Kosten sind nicht die dominierende Variable. GPU-Auslastung, Scheduling und Modellwahl sind unter Ihrer Kontrolle.

Typische Deployment-Topologie

  • Steuerungszone: K8s-Cluster mit Inferenzdiensten (REST/gRPC), Agenten-Orchestrierung, Policy-Engine (z. B. OPA/Rego), Secrets Vault.
  • Datenzone: Feature Store/Timeseries-DB, Vektorsuche (pgvector), DMS-Connectoren. Datenflüsse per Message-Bus (z. B. NATS/Kafka) mit Schema-Validation.
  • Observability: OpenTelemetry-Collector, Log-Archiv mit WORM-Eigenschaften, Metrik-Dashboards, Alerting.
  • CI/CD: Signierte Artefakte (Modelle, Prompts, Policies), Freigabe-Workflows, Canary/Shadow-Support. Air-gap-fähige Registry/Artefakt-Storage.

6) Was Sie nächste Woche umsetzen können: Minimal-Patterns