• Dual-Panel “Claim ↔ Evidence”:
  • Linke Seite: klare Behauptung, empfohlene Aktion, Risikoeinschätzung.
  • Rechte Seite: anklickbare Beweise, Quellen, Sensorplots, Versionsangaben.
  • Jede Behauptung verlinkt auf genau die Artefakte, die sie stützen. Kein Clickbait.
  • “Warum nicht?”-Pflichtfeld bei Overrides:
  • Wenn der Operator ablehnt, muss er ein kurzes “Warum” angeben (Freitext + Kategorien). Das ist kein Micromanagement, sondern Gold für Error Taxonomy und Modelliteration.
  • Kontrollierbare Autonomie-Schieber:
  • Sichtbarer Moduswechsel mit klaren Konsequenzen (“Mehr Autonomie: schnellere Durchlaufzeit, mehr Gate-Alarme”). Keine versteckte “KI hat heute mehr Lust”.

8) Qualitäts-Engineering statt Modell-Fetisch: Was wir vor Go-Live prüfen

  • Datenabdeckung: Sind die relevanten Betriebszustände ausreichend repräsentiert? Welche “No-Go”-Bereiche sind klar markiert?
  • Drift-Detektion: Welche Signals wecken Misstrauen? Wie reagieren wir operational (z. B. mehr Human-in-the-Loop)?
  • Fehlermodi-Bibliothek: Explizite, erwartete Fehlerarten mit passenden Erkennungen und Fallbacks.
  • E2E-Last: Latenz- und Kostenbudgets über die gesamte Kette, nicht nur das Modell. Wo befinden sich harte Zeitgrenzen (z. B. Taktzeit)?
  • Regressionsschutz: Golden Sets, Replay-Framework, automatisierte Reports für jede Änderung.

9) Was wir konsequent nicht tun

  • Keine “Erklärung” ohne echtes Artefakt im Backend.
  • Keine Autonomie ohne definierte Fallbacks und Gates.
  • Keine Metriken ohne Business-Bezug (z. B. nur “Accuracy 0.94”). Relevante KPI sind Fehlerkosten, Verzögerungskosten, Review-Last.
  • Keine Shadow-Mode-Abkürzung. Ohne Shadow-Phase sind Überraschungen vorprogrammiert.
  • Kein “Prompt-Fix” als Dauerlösung. Policies, Indexqualität und Tool-Schnittstellen sind meist der Hebel.

Fazit

Mensch-KI-Interaktion in Industrieumgebungen ist eine Frage der Systemarchitektur und des Betriebs, nicht der Folien. Wenn Sie die Entscheidungslogik risikobasiert bauen, Evidenz statt Deko liefern, LLM-Agenten mit Traces, Budgets und Policies einfassen und Governance als klare Entscheidungsrechte leben, entsteht Vertrauen – nicht weil jemand “der KI glaubt”, sondern weil das System überprüfbar, steuerbar und reproduzierbar ist. On-Premise-Betrieb ist dabei kein Selbstzweck, sondern die Grundlage, um Souveränität technisch durchzusetzen: Daten bleiben, wo sie hingehören; Entscheidungen sind nachvollziehbar; Verantwortungen sind klar.

FAQ

Frage: Wie bestimme ich sinnvolle Human-in-the-Loop-Schwellen, ohne mich in Konfidenzmetriken zu verlieren?
Antwort: Gehen Sie von Business-Risiken aus. Definieren Sie Kostenmodelle für Fehler und Verzögerung. Setzen Sie zunächst konservative Gates auf Basis einfacher Regeln (Interlocks) und erweitern Sie um risikogewichtete Scores (Konfidenz, Drift, Neuheit). Validieren Sie in Shadow-Mode und passen Sie Schwellen anhand realer Overrides und ihrer Gründe an. Konfidenz ist ein Signal, aber nie das einzige.

Frage: Welche XAI-Methoden sind in der Produktion tatsächlich nützlich?
Antwort: Die, die als Evidenz in Entscheidungen einfließen können. In CV: saubere Overlays mit Unsicherheitskonturen, referenzierte Vergleichsbilder, Kamerameta. In Zeitreihen: Residuals und Event-Korrelationen. In Tabular: stabile lokale Beiträge plus kontrafaktische Szenarien. Setzen Sie einen “Claim-Evidence-Contract” durch: Jede Erklärung muss auf ein abrufbares Artefakt mappen.

Frage: Wie verhindere ich Halluzinationen bei LLM-RAG-Agenten, ohne sie zu “verstummen”?
Antwort: Mit Retrieval Contracts und Degradierungen. Antworten sind nur erlaubt, wenn Quellen mit ausreichendem Score vorhanden sind; sonst wird nachgefragt oder eine Kandidatenliste präsentiert. Ergänzen Sie Whitelists für Tools, strikte Parser, Budgets und Human Gates für Schreibzugriffe. Beobachten Sie Spans und bauen Sie Golden Sets für regelmäßige Offline-Tests.

Frage: Was gehört in einen Audit-Trail, damit er im Ernstfall trägt?
Antwort: Vollständige Eingaben, Artefakte (Dokument-IDs, Sensorplots), Modell-/Index-/Policy-Versionen, Agenten-Traces (Prompts, Tool-Calls, Ergebnisse), Human-Interaktionen (Wer? Was? Warum?), Outcome. Der Trail muss durchsuchbar, exportierbar und on-prem gespeichert sein. Ohne diese Kette sind Ursachenanalysen und Verantwortlichkeiten kaum belegbar.

Frage: Wie rolle ich Änderungen an Prompts/Policies/Modellen sicher aus?
Antwort: Mit einem standardisierten Vier-Stufen-Prozess: 1) Offline-Replay gegen Golden Set mit Metrikberichten; 2) Shadow-Mode im Live-Betrieb; 3) Canary-Rollout mit klaren Gates (Policy-Verstöße, Kosten, Latenz); 4) Vollausrollung mit Revert-Plan. Jede Stufe erzeugt Artefakte im Audit-Trail und erfordert eine explizite Freigabe durch die zuständigen Rollen.