Mensch-KI-Interaktion in der Industrie: Vertrauen ist eine Architekturfrage, keine Folie im Pitchdeck

Problem zuerst: In industriellen Umgebungen entscheidet eine KI nicht über den „perfekten Marketingtext“, sondern über Stillstände, Qualitätsmängel, Sicherheitsrisiken und Haftung. Falsch-positive Defekterkennung kostet Taktzeit, falsch-negative führen zu Reklamationen. Ein LLM-Agent mit zu viel Autonomie kann in Minuten Prozesse durcheinanderbringen, die Jahre brauchten, um stabil zu werden. Das Vertrauen des Bedieners in die KI ist deshalb kein Soft-Faktor, sondern Ergebnis einer klaren Systemarchitektur: Wo entscheidet die KI? Wo entscheidet der Mensch? Welche Evidenz wird gezeigt? Wie werden Unsicherheiten sichtbar gemacht? Wer ist verantwortlich, wenn etwas schiefgeht?

Unsere Position ist eindeutig: Souveränität ermöglicht Intelligenz. Ohne Kontrolle über Datenflüsse, Modelle, Agenten-Policies und Observability ist jedes KI-System in der Industrie eine Hypothek. In diesem Beitrag skizzieren wir, wie wir Human-in-the-Loop, Erklärbarkeit, Observability von LLM-Agenten und Governance in produktiven on-premise-Setups umsetzen – ohne US-Cloud-Abhängigkeiten, DSGVO-konform, und mit dem Fokus auf reale technische Trade-offs.

1) Human-in-the-Loop: Wann der Mensch entscheiden muss

Die zentrale Frage lautet nicht „KI oder Mensch?“, sondern: Welche Klasse von Entscheidungen darf die KI autonom treffen, und wo braucht es menschliche Freigabe? Mit welchen Signalen begründet die KI ihre Empfehlung, sodass ein Bediener sie in Sekunden bewerten kann?

Praktikable Entscheidungsmodi in der Industrie

  • Suggest-only: Die KI erzeugt Vorschläge, der Mensch entscheidet immer. Typisch für Erstrollouts („Shadow Mode“) oder bei hohen Haftungsrisiken.
  • Gatekeeper: Die KI entscheidet autonom, solange ihre Unsicherheit unter einem definierten Schwellenwert liegt („calibrated confidence“). Überschreitet sie den Schwellwert, wird der Mensch eingebunden.
  • Autopilot mit Override: Die KI trifft Entscheidungen in Echtzeit, ein Operator kann rückwirkend Korrekturen einpflegen (Audit-Trail, Korrektur propagiert in Lern- und Entscheidungsdaten).

Diese Modi lassen sich entlang eines Risikoprofils mappen:

  • Sicherheit/Compliance-kritisch (z. B. Railway Bremsanlage-Diagnose): Suggest-only oder Gatekeeper mit konservativem Schwellwert, formale Freigabe-Workflows, 4-Augen-Prinzip.
  • Qualitätskritisch (z. B. visuelle Defekterkennung): Gatekeeper, dynamische Schwellwerte je nach Linie/Charge, definierte False-Accept/Reject-Kosten.
  • Kosten-/Effizienzthemen (z. B. Teilekommissionierung): Autopilot mit Override, Monitoring von Fehlerraten, schnelle Rollbacks.

Technische Umsetzung: Unsicherheit sichtbar und steuerbar machen

  • Selektives Entscheiden: Das Modell muss „Ich weiß es nicht“ sagen können (Abstain-Option). In der Praxis: calibrations auf Score/Logit-Ebene, Thresholding pro Klasse/Use-Case, optionale Conformal-ähnliche Methoden für Vorhersage-Intervalle.
  • Kostenbasierte Schwellenwerte: Schwellwerte optimieren nicht nur Accuracy, sondern erwartete Kosten: E[Cost] = p(FN)*Cost_FN + p(FP)*Cost_FP. Diese Werte müssen pro Linie und Schicht konfigurierbar sein.
  • Live-Kalibrierung: Reliabilitätsdiagramme und Expected Calibration Error (ECE) offline bestimmen; online mit Driftdetektion koppeln (verschieben sich Score-Verteilungen, kippt die Kalibrierung?).
  • Review-Kapazität im Blick: Ein zu enger Schwellenwert erzeugt zu viele menschliche Reviews und verschlechtert Taktzeiten. Wir tracken Review-Queue-Länge und Zeit-bis-Entscheid als SLOs.

UI-Patterns für vertrauenswürdige Entscheidungen

  • Evidenz-zuerst: Zeigen Sie immer die Belege, bevor Sie die Empfehlung zeigen. In der visuellen Prüfung: ROI-Overlays, differenzierte Bounding Boxes mit Score und Begründung („fehlende Schraube, Position X, Template-Abweichung 2.3 mm“).
  • Alternative Hypothesen: Statt „defekt“ vs. „ok“ nur als Ampel zu zeigen, Ranglisten mit Top-3-Klassen und Distanz/Score zeigen, inkl. „Unentschieden“-Zustand.
  • Zeitachsen-Kontext: In der Instandhaltung werden Sensoranomalien ohne Kontext falsch bewertet. Zeigen Sie Residuen über Zeit, Vergleich zu gesunden Referenzfenstern, Last-/Umgebungsparameter.
  • Explizite Unsicherheit: Keine binäre UI. Anzeigen wie „Sicher 93% (kalibriert)“ plus kurze Begründung vermeiden den Eindruck von Pseudo-Objektivität.

Beispiel: Visuelle Montageprüfung

  • Modellarchitektur: Kombination aus Objekt-Detektion (Fehlteil) und Keypoint-Estimation (Fehlposition), fusioniert zu einem konsolidierten Befund.
  • Human-in-the-Loop: Gatekeeper-Setup. Autonomie, solange Score > 0.98 (kritische Montage) oder > 0.92 (unkritischer Schritt). Darunter Review durch Linienführer.
  • Metriken, die wir berichten: Auto-Accept-Rate, False-Reject-Rate, Median Review Time, Override-Rate des Bedieners, Drift der Score-Verteilung pro Schicht.

2) Erklärbarkeit in industriellen KI-Systemen: Praktikabel statt akademisch

Erklärbarkeit ist kein Selbstzweck. Der Bediener braucht in 5–10 Sekunden Antworten auf: Was hat das System wahrgenommen? Warum gerade diese Entscheidung? Was würde die Entscheidung kippen?

Tabular/Timeseries (z. B. Predictive Maintenance)

  • Feature-Attribution auf Instanzebene: Statt „SHAP-Plot im Data-Scientist-UI“ direkt in die Betriebsoberfläche übersetzen: „Anstieg RMS-Schwingung Lager 2 um 37% gegenüber Referenz“; Einheit, Zeitraum, Threshold.
  • Szenarien statt globale Wichtigkeit: Dem Nutzer hilft „Im aktuellen Fenster war Temperatur X ausschlaggebend“, nicht „global ist Temperatur Platz 3“.
  • Counterfactuals in Engineeringsprache: „Wenn Schmierstofftemperatur < 60°C, wäre die Entscheidung ‚kein Eingriff‘ gewesen.“

Computer Vision

  • Region-of-Interest klar deliniert, keine diffuse Heatmap. Anzeige der detektierten Strukturen mit Geometrieparametern (Abstand, Winkel, Toleranzverletzung).
  • Negative Evidenz: „Schraube A vorhanden, B fehlt“ ist stärker als „Heatmap rot bei B“.
  • Aggregierte Bildserien: Wenn eine Kamera streut, zeigen wir 3–5 Frames, nicht nur den Auslöser-Frame.

LLM/RAG/Agents

  • Quellenzitate auf Absatz-/Satzebene. Jede Antwort zeigt, welche Dokument-Snippets herangezogen wurden, mit Permalink in das DMS/PLM.
  • Tool-Trace: Wenn der Agent auf Tools zugreift (z. B. SAP-Abfrage), zeigen wir die Sequenz: „1) Teileliste geladen, 2) Verfügbarkeit geprüft, 3) Freigabe-Policy evaluiert“.
  • Keine versteckte Chain-of-Thought speichern. Stattdessen: gerichtete „Rationale“ pro Schritt, die ohne sensitive Kontextdetails auskommen.

3) LLM-Agenten überwachen und kontrollieren: Observability ist die Voraussetzung für Freigabe

Ein Agent ist kein „größerer Chatbot“, sondern ein verteilter Prozess mit Seiteneffekten: Tool-Aufrufe, API-Schreibzugriffe, Dateisystem, Kosten, zeitliche Abhängigkeiten. Ohne Observability und harte Kontrollen verschmilzt Entscheidung, Ausführung und Governance – das endet früher oder später im Incident.