Observability

  • Jeder Schritt als Event im lokalen Event-Store, inklusive der genutzten Dokumentversionen.
  • Metriken: Anteil Deferrals, mittlere Freigabezeit je Depot, Tool-Failure-Rate (z. B. Retrieval ohne Treffer), Deckung der Antwort durch Quellen.
  • Canary-Fälle laufen täglich; bei Drift wird Autonomie-Modus sofort auf Recommendation-Only gesetzt (Policy-Schalter).

Governance

  • RACI: Engineering verantwortet Modell, Betrieb verantwortet Freigaben. Safety-Manager genehmigt die Policy-Änderungen.
  • Rollout: 4 Wochen Shadow-Mode, dann 8 Wochen Recommendation-Only, danach Autonomie nur für Komfortthemen; Safety bleibt dauerhaft freigabepflichtig.

7) Design-Checkliste: Was in der Praxis den Unterschied macht

  • Entscheidungsklassen definieren und dokumentieren; daraus leiten sich Policies ab, nicht umgekehrt.
  • „Abstention“ implementieren und feiern: Unsicherheit ist ein Qualitätsmerkmal, kein Fehler.
  • Evidenzpakete standardisieren: Welche Felder müssen in jedem Freigabefall vorliegen?
  • Policies als Code pflegen; Trennung von Prompt, Policy und Tooling.
  • Telemetrie früh einbauen; „später nachrüsten“ scheitert an DSGVO und Gewohnheiten.
  • Offline-Replay zur Pflicht machen; jede Version wird gegen Produktionsreplays geprüft.
  • Datenpfade souverän halten: Retrieval, Logs, Modelle on-prem; externe Egress standardmäßig verbieten.
  • UI für Operatoren bauen, nicht für Data Scientists: wenige, stabile Artefakte; keine Debug-Infos.

Antipatterns, die zuverlässig schaden

  • Konfidenz als alleiniger Gatekeeper
  • Erklärungen als bunte Charts ohne Operationsbezug
  • Prompt-basierte „Policies“ im Fließtext
  • Nicht versionierte Models/Prompts/Policies
  • LLM-Agenten mit generischem Webzugriff in sicherheitsrelevanten Umgebungen
  • Logging ohne Datenminimierung und Rollenbezug

Warum On-Prem in kritischen Industrien sinnvoll ist

Souveränität ist eine technische Eigenschaft, keine Pressemitteilung. Sie entsteht, wenn

  • Daten den Standort nicht verlassen, es eine nachvollziehbare Zugriffskontrolle gibt und Löschkonzepte durchgesetzt werden können,
  • Modelle, Policies und Prompts als signierte Artefakte versioniert sind,
  • und Observability- und Governance-Funktionalitäten nicht hinter fremden SaaS-Mauern liegen.

On-Prem-Deployments ermöglichen genau das: DSGVO-konforme Verarbeitung, keine Abhängigkeit von US-Cloud-Infrastrukturen, klar definierte Netzgrenzen einschließlich Air-Gap-Szenarien. Für Defense, Bahn, Fertigung ist das oft nicht nur „Option“, sondern Voraussetzung für den operativen Rollout.

Fazit

Mensch-KI-Interaktion in der Industrie ist ein Ingenieurthema. Es geht nicht darum, das neueste Modell zu zeigen, sondern darum, Verantwortung in Software zu gießen. Mit risikobasiertem Human-in-the-Loop, erklärbarer Evidenz, beobachtbaren LLM-Agenten und harten Policies-as-Code entsteht ein System, dem Bediener vertrauen können – und das Unternehmen auditierbar betreiben können. Souveränität ist dabei kein Widerspruch zu Intelligenz, sondern ihr Ermöglicher.

FAQ

Frage: Brauchen wir für jedes Modell „XAI“?
Antwort: Sie brauchen für jede entscheidungsrelevante Funktion begründete Evidenz. Ob diese aus Attributionsmethoden, Regel-Overlays, Quellenzitaten oder Gegenbeweisen besteht, hängt von der Domäne ab. Für Safety-/Compliance-nahe Entscheidungen ist ein minimaler, standardisierter Evidenzsatz Pflicht; für rein interne Ranking-Modelle genügt oft eine robuste Offline-Evaluierung.

Frage: Wie messen wir Vertrauen und Qualität im Feld?
Antwort: Nicht über Offline-Accuracy allein. Nutzen Sie betriebsnahe Metriken: Deferral-/Eskalationsrate, Zeit bis Freigabe, Quellenabdeckung bei LLM-Antworten, Tool-Failure-Rate, Drift-Indikatoren. Ergänzen Sie Golden-Questions und Canary-Fälle im Dauerbetrieb. Wichtig ist die Korrelation zu Geschäftszielen (Fehlteilequote, Ausfallminuten), aber ohne vorschnelle Kausalbehauptungen.

Frage: Was dürfen wir protokollieren, ohne die DSGVO zu verletzen?
Antwort: Prinzipien: Datenminimierung, Zweckbindung, Rollenbezug. Loggen Sie Artefakt-IDs, Zeitstempel, technische Metriken, Dokument- und Chunk-IDs statt Volltext, wo möglich. Redigieren Sie PII früh (z. B. Hashes, Pseudonymisierung). Definieren Sie Retention-Policies je Event-Typ und setzen Sie rollenbasierte Sichtrechte durch. On-Prem-Event-Stores erleichtern die Governance.

Frage: Sollen wir Chain-of-Thought speichern?
Antwort: Interne Gedankengänge sind für Audits nicht erforderlich und können rechtlich heikel sein. Speichern Sie deterministische Traces: Prompts mit Template-Versionen und Variablen, Toolaufrufe, Quellen, Policies, Entscheidungen und menschliche Freigaben. Das ist erklärbar, testbar und reduziert Risiken.

Frage: On-Prem vs. Cloud – worauf kommt es an?
Antwort: Bei kritischen Prozessen zählt Kontrolle über Daten, Artefakte und Observability. On-Prem ermöglicht strenge Netzgrenzen, Datenlokalität, signierte Artefakte, Air-Gap-Optionen und DSGVO-konforme Verarbeitung ohne Drittlandübermittlung. Für reine Prototypen kann Cloud-Compute sinnvoll sein; für Betrieb, Audit und Haftung empfehlen wir on-prem bzw. souveräne Private Clouds.