Observability
- Jeder Schritt als Event im lokalen Event-Store, inklusive der genutzten Dokumentversionen.
- Metriken: Anteil Deferrals, mittlere Freigabezeit je Depot, Tool-Failure-Rate (z. B. Retrieval ohne Treffer), Deckung der Antwort durch Quellen.
- Canary-Fälle laufen täglich; bei Drift wird Autonomie-Modus sofort auf Recommendation-Only gesetzt (Policy-Schalter).
Governance
- RACI: Engineering verantwortet Modell, Betrieb verantwortet Freigaben. Safety-Manager genehmigt die Policy-Änderungen.
- Rollout: 4 Wochen Shadow-Mode, dann 8 Wochen Recommendation-Only, danach Autonomie nur für Komfortthemen; Safety bleibt dauerhaft freigabepflichtig.
7) Design-Checkliste: Was in der Praxis den Unterschied macht
- Entscheidungsklassen definieren und dokumentieren; daraus leiten sich Policies ab, nicht umgekehrt.
- „Abstention“ implementieren und feiern: Unsicherheit ist ein Qualitätsmerkmal, kein Fehler.
- Evidenzpakete standardisieren: Welche Felder müssen in jedem Freigabefall vorliegen?
- Policies als Code pflegen; Trennung von Prompt, Policy und Tooling.
- Telemetrie früh einbauen; „später nachrüsten“ scheitert an DSGVO und Gewohnheiten.
- Offline-Replay zur Pflicht machen; jede Version wird gegen Produktionsreplays geprüft.
- Datenpfade souverän halten: Retrieval, Logs, Modelle on-prem; externe Egress standardmäßig verbieten.
- UI für Operatoren bauen, nicht für Data Scientists: wenige, stabile Artefakte; keine Debug-Infos.
Antipatterns, die zuverlässig schaden
- Konfidenz als alleiniger Gatekeeper
- Erklärungen als bunte Charts ohne Operationsbezug
- Prompt-basierte „Policies“ im Fließtext
- Nicht versionierte Models/Prompts/Policies
- LLM-Agenten mit generischem Webzugriff in sicherheitsrelevanten Umgebungen
- Logging ohne Datenminimierung und Rollenbezug
Warum On-Prem in kritischen Industrien sinnvoll ist
Souveränität ist eine technische Eigenschaft, keine Pressemitteilung. Sie entsteht, wenn
- Daten den Standort nicht verlassen, es eine nachvollziehbare Zugriffskontrolle gibt und Löschkonzepte durchgesetzt werden können,
- Modelle, Policies und Prompts als signierte Artefakte versioniert sind,
- und Observability- und Governance-Funktionalitäten nicht hinter fremden SaaS-Mauern liegen.
On-Prem-Deployments ermöglichen genau das: DSGVO-konforme Verarbeitung, keine Abhängigkeit von US-Cloud-Infrastrukturen, klar definierte Netzgrenzen einschließlich Air-Gap-Szenarien. Für Defense, Bahn, Fertigung ist das oft nicht nur „Option“, sondern Voraussetzung für den operativen Rollout.
Fazit
Mensch-KI-Interaktion in der Industrie ist ein Ingenieurthema. Es geht nicht darum, das neueste Modell zu zeigen, sondern darum, Verantwortung in Software zu gießen. Mit risikobasiertem Human-in-the-Loop, erklärbarer Evidenz, beobachtbaren LLM-Agenten und harten Policies-as-Code entsteht ein System, dem Bediener vertrauen können – und das Unternehmen auditierbar betreiben können. Souveränität ist dabei kein Widerspruch zu Intelligenz, sondern ihr Ermöglicher.
FAQ
Frage: Brauchen wir für jedes Modell „XAI“?
Antwort: Sie brauchen für jede entscheidungsrelevante Funktion begründete Evidenz. Ob diese aus Attributionsmethoden, Regel-Overlays, Quellenzitaten oder Gegenbeweisen besteht, hängt von der Domäne ab. Für Safety-/Compliance-nahe Entscheidungen ist ein minimaler, standardisierter Evidenzsatz Pflicht; für rein interne Ranking-Modelle genügt oft eine robuste Offline-Evaluierung.
Frage: Wie messen wir Vertrauen und Qualität im Feld?
Antwort: Nicht über Offline-Accuracy allein. Nutzen Sie betriebsnahe Metriken: Deferral-/Eskalationsrate, Zeit bis Freigabe, Quellenabdeckung bei LLM-Antworten, Tool-Failure-Rate, Drift-Indikatoren. Ergänzen Sie Golden-Questions und Canary-Fälle im Dauerbetrieb. Wichtig ist die Korrelation zu Geschäftszielen (Fehlteilequote, Ausfallminuten), aber ohne vorschnelle Kausalbehauptungen.
Frage: Was dürfen wir protokollieren, ohne die DSGVO zu verletzen?
Antwort: Prinzipien: Datenminimierung, Zweckbindung, Rollenbezug. Loggen Sie Artefakt-IDs, Zeitstempel, technische Metriken, Dokument- und Chunk-IDs statt Volltext, wo möglich. Redigieren Sie PII früh (z. B. Hashes, Pseudonymisierung). Definieren Sie Retention-Policies je Event-Typ und setzen Sie rollenbasierte Sichtrechte durch. On-Prem-Event-Stores erleichtern die Governance.
Frage: Sollen wir Chain-of-Thought speichern?
Antwort: Interne Gedankengänge sind für Audits nicht erforderlich und können rechtlich heikel sein. Speichern Sie deterministische Traces: Prompts mit Template-Versionen und Variablen, Toolaufrufe, Quellen, Policies, Entscheidungen und menschliche Freigaben. Das ist erklärbar, testbar und reduziert Risiken.
Frage: On-Prem vs. Cloud – worauf kommt es an?
Antwort: Bei kritischen Prozessen zählt Kontrolle über Daten, Artefakte und Observability. On-Prem ermöglicht strenge Netzgrenzen, Datenlokalität, signierte Artefakte, Air-Gap-Optionen und DSGVO-konforme Verarbeitung ohne Drittlandübermittlung. Für reine Prototypen kann Cloud-Compute sinnvoll sein; für Betrieb, Audit und Haftung empfehlen wir on-prem bzw. souveräne Private Clouds.