Titel: LLM-Agenten in der Industrie: Observability und Kontrolle statt Bauchgefühl
Wer jemals eine KI in einer produktionsnahen Umgebung live geschaltet hat, kennt das Gefühl: Die Demo war beeindruckend, aber im Betrieb zählt nur, ob der Bediener einer Empfehlung vertrauen kann – und ob Sie als verantwortliches Team erklären können, warum die KI getan hat, was sie tat. Genau hier scheitert vieles: fehlende Nachvollziehbarkeit, keine belastbaren Unsicherheiten, keine klaren Eskalationspfade. Ergebnis: Menschen ignorieren die KI oder – schlimmer – folgen ihr blind.
Dieser Beitrag fokussiert auf die technische Kernfrage: Wie gestalten wir Observability und Kontrolle für LLM-Agenten so, dass Betriebsteams in Industrieumgebungen souverän entscheiden können? Aus der Praxis, ohne Hype. Mit Mustern, Architekturen und Trade-offs, die in Defense, Fertigung, Bahn, Luftfahrt und Bauwesen funktionieren – überall dort, wo Datenhoheit nicht verhandelbar ist.
Was LLM-Agenten von klassischer ML unterscheidet
- Stochastisches Verhalten: LLMs sind probabilistisch. Identische Eingaben können unterschiedliche Ausgaben erzeugen (Temperatur, Sampling). Reproduzierbarkeit ist eine aktive Designaufgabe.
- Agentik statt statischer Inferenz: Moderne Systeme orchestrieren Planung, Tool-Aufrufe, Gedächtnis und Entscheidungen über mehrere Schritte. Fehler kumulieren sich entlang der Kette.
- Kontext- und Prompt-Sensitivität: Kleinste Prompt- oder Kontextänderungen verschieben Verhalten. Prompt-Versionierung ist so kritisch wie Code-Versionierung.
- Neue Angriffs- und Fehlermuster: Prompt-Injection, Halluzination, Tool-Missbrauch, Overreach. Klassische ML-Drift allein adressiert das nicht.
Wenn diese Eigenschaften auf sicherheits- oder geschäftskritische Prozesse treffen, brauchen Sie ein Observability- und Kontroll-Design, das die richtigen Fragen beantwortet – nicht nur hübsche Dashboards.
Welche Fragen Observability für Agenten beantworten muss
- Was genau ist passiert? Vollständige, strukturierte Traces mit allen Zwischenschritten: System-Prompt, Benutzereingabe, abgeleitete Ziele, genutzte Tools, Eingaben/Ausgaben, Fehlermeldungen, Latenzen.
- Warum ist es passiert? Sichtbare Evidenz: welche Dokumente/Signale wurden herangezogen, welche Regeln/Policies griffen, wie wurde Unsicherheit geschätzt.
- Ist es reproduzierbar? Exakte Versionen und Parameter: Modell-Hash, Prompt-Version, Temperatur/top_p, Seed, Tool-Schemata und deren Versionen.
- War es konform? Policy-Checks, Zugriffsrechte, Ausleitungsverbote, PII-/Geheimnisschutz eingehalten? Welche Guardrails lösten aus?
- Wann muss ein Mensch entscheiden? Gekoppelt an Unsicherheiten, Risikoklassen und Policy. Dokumentierte Eskalationsgründe.
- Wie gut performt das System? Betriebsmetriken mit SLOs: Aufgaben-Erfolgsquote, Interventionsrate, Falsch-positiv/-negativ bei Aktionen, Zeit bis zur Lösung, Blockraten unsicherer Vorschläge.
- Können wir auditieren und lernen? Unveränderliche Protokolle, Fallvergleich, Regressionserkennung, kontrollierte Rollbacks.
Telemetrie-Design: Was Sie wirklich loggen müssen
Loggen Sie nicht “alles irgendwie”, loggen Sie strukturiert das, was Sie später zur Erklärung und zum Debugging brauchen – und zwar DSGVO- und IP-konform.
- Anfragekontext
- Benutzerrolle/Identität (pseudonymisiert, sofern nötig), Mandant/Projekt
- Eingabe-Intent (task label), Priorität, Risikoklasse
- System-Prompt, Tool-Registry (Versionen, Schemas), Policies (Versionen)
- Modell- und Laufzeitparameter
- Modellname und exakter Modell-Hash
- Temperatur, top_p, max_tokens, Seed oder Sampling-Config
- Hardware-/Serving-Info (Instanz, Quantisierung), Latenzen pro Schritt
- Agenten-Schritte
- Geplanter Schritt, gewähltes Tool, Tool-Argumente (validiert gegen Schema)
- Tool-Outputs (inkl. Statuscodes, Fehler)
- Kontextaktualisierungen (Speicher, kurzer State-Diff statt Volltext)
- Evidenz und Retrieval
- Verwendete Dokumente/Sensoren mit stabilen Referenzen (IDs, Hashes)
- Zeitstempel und Gültigkeit der Evidenz (“last seen”, Ablaufdatum)
- Scores/Ranking des Retrievals, Konfidenzen der Matching-Modelle
- Unsicherheit und Scoring
- Selbstberichtete LLM-Konfidenz ist kein Maß. Loggen Sie kalibrierte Scores von Subsystemen (Klassifikatoren, Retrieval, Validatoren)
- Risikoaggregation: Score + Risikoklasse + Policy-Resultat
- Guardrails und Policies
- Ausgelöste Regeln, Block-/Maskierereignisse, PII-/Secret-Detektion
- Ausleitungsversuche (Netzwerk), Allow-/Deny-Entscheidungen
- Mensch im Loop
- Eskalationsgrund (Score, Regel, Toolfehler)
- Entscheidung des Operators (approve/modify/reject) mit Pflichtbegründung
- Nachgelagerte Korrekturen und Rückmeldungen (für spätere Auswertung)
- Datenschutz und Souveränität
- Redaktionen/Maskierungen an Quelle, Verschlüsselung at rest/in transit
- Aufbewahrungsfristen, Löschmarker, Zugriffspfade (Least Privilege)
- Keine Übertragung in US-Clouds, On-Prem- oder souveräne Umgebung
Wichtig: Tokenweise Roh-“Gedankenketten” des LLM nicht im Klartext persistieren. Sie bergen IP-/Datenschutzrisiken. Protokollieren Sie stattdessen strukturierte Schritte, Tool-Interaktionen und erzeugen Sie optional eine komprimierte, geprüfte “Reasoning-Zusammenfassung” post-hoc.
Kontrollarchitektur: Autonomie dosieren statt Abschalten oder Durchwinken
Die nützlichste Architektur in industriellen Umgebungen trennt Vorschlag, Prüfung, Entscheidung und Ausführung klar.
- Vorschlag
- Der Agent erzeugt eine Aktionsempfehlung mit Evidenz-Referenzen und maschinenlesbarem Aktionsobjekt (z. B. JSON nach strengem Schema).
- Parallel werden Subsystem-Scores berechnet: Retrieval-Qualität, Schema-Validierung, Regelkonformität.
- Prüfung
- Policy-Engine wendet Regeln an: Whitelists, Blacklists, Grenzwerte, Kontextabhängigkeiten, Mandantenregeln.
- Risikoaggregation: Score-Matrix kombiniert Unsicherheiten, Auswirkungen und Policy-Ergebnisse zu einem Autonomiegrad.
- Entscheidung
- Oberhalb eines sicheren Autonomieschwellenwerts: automatische Ausführung.
- Dazwischen: Assistenzmodus, Pflicht zur menschlichen Freigabe.
- Unterhalb: harte Blockade, mit Pflichtbegründung des Operators, wenn dennoch Überschreibung gewünscht ist (Zwei-Personen-Regel optional).
- Ausführung
- Aktionen erfolgen in Sandboxes oder mit minimalen Rechten.
- Alle Seiteneffekte werden atomar protokolliert (Idempotenz, Korrelation).
- Rückkopplung
- Ergebnisse und nachgelagerte Metriken fließen in Evaluationssuites und Kalibrationen zurück.
Technische Bausteine hierfür:
- Unsicherheitsabschätzung über Ensembles/Validatoren, nicht das LLM selbst.
- Kalibration (z. B. isotone Regression oder Platt für Klassifikationsscores von Subtasks).
- Schema-strikte Toolaufrufe: JSON-Schemas, strikte Parser, Fehlertoleranz über Reparaturpipelines statt “free-form prompts”.
- Policy-as-Code: versionierte, signierte Regelbündel, die wie Software deployed werden.
- Kill-Switch und Autonomie-Throttling als Betriebshebel.