• Daten- und Modellhoheit:
  • Vektorindizes, Dokumente, Telemetrie, Agent-Protokolle verbleiben im Werk oder im Unternehmensrechenzentrum.
  • Keine US-Cloud-Abhängigkeit, keine grauen Datenpfade.
  • Performance und Kostenkontrolle:
  • Für textlastige Wartungs-Assistenten reichen oft quantisierte 7–13B-Modelle auf modernen CPUs/GPU-Light aus, wenn Retrieval gut ist.
  • Größere Modelle nur, wenn notwendig (z. B. komplexe Diagnosen mit heterogenen Quellen). Horizontal skalieren, nicht reflexhaft „größeres Modell“.
  • Betriebsfähigkeit:
  • Containerisierte Laufzeit, reproduzierbare Builds, SBOM, signierte Artefakte.
  • Cluster-Deployment mit Standard-Komponenten, die Ihre IT bereits betreibt.
  • Governance first:
  • Observability und Policy-Engine sind Erstklass-Komponenten, nicht „Add-on“.

AlpiType liefert genau diese Bausteine als Produkt- und Projektleistung (→ alpitype.de/leistungen/). Unser Plattformmodul für LLM-Agenten-Observability und Governance (Alpi-M) adressiert Auditierbarkeit, Reproduzierbarkeit und Richtlinien-Durchsetzung on-prem.

7) Observability: Metriken, die Agenten in die Realität holen
Was wir standardmäßig messen und warum:

  • Retrieval-Metriken:
  • Filter-Hit-Rate, semantische Trefferqualität (Proxy: Anteil Antworten mit ≥1 relevanter Quelle), Re-Ranking-Lift.
  • Generierungs-Metriken:
  • Token-Latenz, Gesamtlatenz, Wiederholungs-/Abbruchraten wegen Policy-Verstößen.
  • Tooling-Metriken:
  • Call-Erfolgsquote, Timeouts, Circuit-Breaker-Open-Events, Idempotenz-Hits.
  • Qualitäts-Signale:
  • Zitierungsabdeckung (Anteil der Sätze mit Quelle), Konfliktdetektion (widersprüchliche Quellen), „I don’t know“-Rate.
  • Nutzungsdaten:
  • Häufigste Intents/Prompts (pseudonymisiert), Fehlversuche, manuelle Überschreibungen.

Wichtig: Metriken ohne Replay bringen wenig. Jede Interaktion ist versioniert (Prompt-, Policy-, Index-Revision, Modell-Checksum). So lässt sich ein Vorfall reproduzieren und ein Fix verifizieren.

8) Evaluation: Offline zuerst, dann Canary, dann Erstnutzung
Ein produktionsnahes Vorgehen:

  • Offline-Evaluation:
  • Gold-Set aus realen Störmeldungen, typischen Fragen und Mischfällen mit Ground-Truth (erfahrene Instandhalter reviewen).
  • Messen mit fixem Index-Stand und fixen Policies. Akzeptanzkriterien definieren (z. B. ≥90% richtige Quellen, ≤5% „sicher falsche“ Vorschläge).
  • Shadow-Mode:
  • Live-Daten, aber keine Nutzerinteraktion: Agent erzeugt Vorschläge im Hintergrund, die wir mit den real getroffenen Maßnahmen vergleichen.
  • Canary-Rollout:
  • 5–10% der Nutzergruppen im Werk, erweiterbar, mit Kill-Switch und rollbarer Policy-/Prompt-Versionierung.

9) Sicherheit, Rollen, DSGVO: „Need-to-know“ ist auch für LLM gültig

  • Rollen- und Werkssicht:
  • Zugriffskontrolle bis auf Dokument-Chunk-Ebene. Ein Instandhalter in Werk A sieht nicht die vertraulichen Passagen aus Werk B.
  • PII- und Betriebsgeheimnis-Minimierung:
  • Log-Pseudonymisierung, Reduktion von Freitextfeldern in Telemetrie.
  • Kein Personaldaten-Retrieval; klare Negativlisten im Prompt und in Policies.
  • Auditierbarkeit:
  • Signierte Release-Pipelines (Prompts, Policies, Agent-Graph), Vier-Augen-Prinzip für Änderungen.
  • IT/OT-Segmentierung:
  • Keine direkten Schreibpfade in OT-Netze. Historian/MES-Zugriff via dedizierter Gateways, nur read oder mit Freigabeworkflow.

10) Integration ins Werksökosystem: Kontext ja, Steuerung nein
Konkrete Pattern, die funktionieren:

  • HMI/Andon-Integration:
  • Statt „Freitext-Chat“ eine Aufgabenmaske: „Störung beschreiben -> Anlage wählen -> Agent schlägt Schritte mit Quellen vor -> optional: Ticket-Entwurf“.
  • Kontext-Autofill:
  • Asset-ID aus HMI oder QR/Barcode einlesen; letzte Alarme aus Historian referenzieren (read-only).
  • EAM-Handshake:
  • Agent erstellt Ticket-Entwurf mit verlinkten Quellen und Evidenzen. Freigabe durch Verantwortliche, dann idempotent anlegen.
  • Offline-Fähigkeit:
  • Caching für Dokumente/Antworten je Werk. Bei fehlender Konnektivität degrade auf Retrieval-only, klare Kennzeichnung.

11) Performance- und Kapazitätsplanung: Latenzbudgets sind Produktanforderungen
Zielgrößen, die sich bewährt haben:

  • Antwortzeit:
  • 500–1200 ms für „Kurzantworten“ (Schritte, Werkzeugliste), 1,5–3 s für längere Diagnosen mit 1–2 Tool-Calls.
  • Durchsatz:
  • Planen Sie Spitzen pro Schichtwechsel; häufig steigen Anfragen beim Morgengang und nach Alarmserien.
  • Caching:
  • Ergebnis-Caches pro Werk und pro Asset-Klasse. Retries hitten Cache statt Tools, wenn Input äquivalent ist.
  • Ressourcen:
  • Retrieval- und Re-Ranking-Services skalieren getrennt von LLM-Inferenz.
  • LLM-Kapazität auf reale Token-Last planen; „größeres Modell“ ist selten der Engpass.

12) Drei Szenarien aus der Praxis

  • Textile Fertigung: Triage statt Mythos „Selbstheilung“
  • Problem: Vibrationsüberwachung detektiert häufige Anomalien; Instandhalter verlieren Zeit mit dem Auswerten heterogener Logs.
  • Lösung: Agent aggregiert Alarme, ruft passende OEM-Anleitungen ab, schlägt Prüfsequenzen und Sicherheits-Hinweise mit Zitaten vor; optionaler EAM-Entwurf.
  • Architektur-Entscheid: Kein direkter Zugriff aufs SPS-Netz, Historian read-only. Idempotente Ticket-Erstellung. Ergebnis: gleichbleibende Qualität, weniger Kontextwechel.
  • Bahn-Flotteninstandhaltung: Variantenvielfalt bändigen
  • Problem: Anleitungen unterscheiden sich je nach Baureihe, Seriennummer und Retrofit-Stand. Falsche Anleitung = Sicherheitsrisiko.
  • Lösung: Strenges Metadaten-Filter vor Retrieval, Inline-Zitieren, Workflow-Graph mit „Gültigkeitscheck“-Knoten. Keine Freitextergänzungen ohne Quelle.
  • Governance: Jede Antwort führt Quelle+Gültigkeitsfenster; bei Ambiguität zwingender „I don’t know“.
  • Fertigungs-Qualitätssicherung: Was LLMs nicht tun sollten
  • Visuelle Gut-/Schlecht-Entscheidungen mit harten Latenz- und Fehlerratenanforderungen gehören nicht in einen textbasierten Agenten.
  • Der Agent kann Protokolle und Abweichungsberichte strukturieren, aber nicht den Detektor ersetzen. Echtzeit-Entscheidungen bleiben am Edge-Computer-Vision-Modul.

13) Lessons learned

  • Retrieval ist die „Modellqualität“: Schlechte Metadaten schlagen jedes größere Sprachmodell.
  • Freiform ist gefährlich: Agenten brauchen Graphen, nicht „Kreativität“.
  • „I don’t know“ ist ein Feature: Erzwingen Sie es in Prompt und Policy. Belohnen Sie Zurückhaltung ohne Quelle.
  • Telemetrie zuerst: Ohne Replay ist jede Verbesserung Bauchgefühl.
  • Aufwände richtig planen: 70% Engineering (Daten, Integrationen, Policies), 20% Observability/Governance, 10% Modelltuning.