Imported Post 2026-04-20 00:16:47

Daten- und Modellhoheit:
Vektorindizes, Dokumente, Telemetrie, Agent-Protokolle verbleiben im Werk oder im Unternehmensrechenzentrum.
Keine US-Cloud-Abhängigkeit, keine grauen Datenpfade.
Performance und Kostenkontrolle:
Für textlastige Wartungs-Assistenten reichen oft quantisierte 7–13B-Modelle auf modernen CPUs/GPU-Light aus, wenn Retrieval gut ist.
Größere Modelle nur, wenn notwendig (z. B. komplexe Diagnosen mit heterogenen Quellen). Horizontal skalieren, nicht reflexhaft „größeres Modell“.
Betriebsfähigkeit:
Containerisierte Laufzeit, reproduzierbare Builds, SBOM, signierte Artefakte.
Cluster-Deployment mit Standard-Komponenten, die Ihre IT bereits betreibt.
Governance first:
Observability und Policy-Engine sind Erstklass-Komponenten, nicht „Add-on“.

AlpiType liefert genau diese Bausteine als Produkt- und Projektleistung (→ alpitype.de/leistungen/). Unser Plattformmodul für LLM-Agenten-Observability und Governance (Alpi-M) adressiert Auditierbarkeit, Reproduzierbarkeit und Richtlinien-Durchsetzung on-prem.

7) Observability: Metriken, die Agenten in die Realität holen
Was wir standardmäßig messen und warum:

Retrieval-Metriken:
Filter-Hit-Rate, semantische Trefferqualität (Proxy: Anteil Antworten mit ≥1 relevanter Quelle), Re-Ranking-Lift.
Generierungs-Metriken:
Token-Latenz, Gesamtlatenz, Wiederholungs-/Abbruchraten wegen Policy-Verstößen.
Tooling-Metriken:
Call-Erfolgsquote, Timeouts, Circuit-Breaker-Open-Events, Idempotenz-Hits.
Qualitäts-Signale:
Zitierungsabdeckung (Anteil der Sätze mit Quelle), Konfliktdetektion (widersprüchliche Quellen), „I don’t know“-Rate.
Nutzungsdaten:
Häufigste Intents/Prompts (pseudonymisiert), Fehlversuche, manuelle Überschreibungen.

Wichtig: Metriken ohne Replay bringen wenig. Jede Interaktion ist versioniert (Prompt-, Policy-, Index-Revision, Modell-Checksum). So lässt sich ein Vorfall reproduzieren und ein Fix verifizieren.

8) Evaluation: Offline zuerst, dann Canary, dann Erstnutzung
Ein produktionsnahes Vorgehen:

Offline-Evaluation:
Gold-Set aus realen Störmeldungen, typischen Fragen und Mischfällen mit Ground-Truth (erfahrene Instandhalter reviewen).
Messen mit fixem Index-Stand und fixen Policies. Akzeptanzkriterien definieren (z. B. ≥90% richtige Quellen, ≤5% „sicher falsche“ Vorschläge).
Shadow-Mode:
Live-Daten, aber keine Nutzerinteraktion: Agent erzeugt Vorschläge im Hintergrund, die wir mit den real getroffenen Maßnahmen vergleichen.
Canary-Rollout:
5–10% der Nutzergruppen im Werk, erweiterbar, mit Kill-Switch und rollbarer Policy-/Prompt-Versionierung.

9) Sicherheit, Rollen, DSGVO: „Need-to-know“ ist auch für LLM gültig

Rollen- und Werkssicht:

Zugriffskontrolle bis auf Dokument-Chunk-Ebene. Ein Instandhalter in Werk A sieht nicht die vertraulichen Passagen aus Werk B.

PII- und Betriebsgeheimnis-Minimierung:

Log-Pseudonymisierung, Reduktion von Freitextfeldern in Telemetrie.

Kein Personaldaten-Retrieval; klare Negativlisten im Prompt und in Policies.

Auditierbarkeit:

Signierte Release-Pipelines (Prompts, Policies, Agent-Graph), Vier-Augen-Prinzip für Änderungen.

IT/OT-Segmentierung:

Keine direkten Schreibpfade in OT-Netze. Historian/MES-Zugriff via dedizierter Gateways, nur read oder mit Freigabeworkflow.

10) Integration ins Werksökosystem: Kontext ja, Steuerung nein
Konkrete Pattern, die funktionieren:

HMI/Andon-Integration:
Statt „Freitext-Chat“ eine Aufgabenmaske: „Störung beschreiben -> Anlage wählen -> Agent schlägt Schritte mit Quellen vor -> optional: Ticket-Entwurf“.
Kontext-Autofill:
Asset-ID aus HMI oder QR/Barcode einlesen; letzte Alarme aus Historian referenzieren (read-only).
EAM-Handshake:
Agent erstellt Ticket-Entwurf mit verlinkten Quellen und Evidenzen. Freigabe durch Verantwortliche, dann idempotent anlegen.
Offline-Fähigkeit:
Caching für Dokumente/Antworten je Werk. Bei fehlender Konnektivität degrade auf Retrieval-only, klare Kennzeichnung.

11) Performance- und Kapazitätsplanung: Latenzbudgets sind Produktanforderungen
Zielgrößen, die sich bewährt haben:

Antwortzeit:
500–1200 ms für „Kurzantworten“ (Schritte, Werkzeugliste), 1,5–3 s für längere Diagnosen mit 1–2 Tool-Calls.
Durchsatz:
Planen Sie Spitzen pro Schichtwechsel; häufig steigen Anfragen beim Morgengang und nach Alarmserien.
Caching:
Ergebnis-Caches pro Werk und pro Asset-Klasse. Retries hitten Cache statt Tools, wenn Input äquivalent ist.
Ressourcen:
Retrieval- und Re-Ranking-Services skalieren getrennt von LLM-Inferenz.
LLM-Kapazität auf reale Token-Last planen; „größeres Modell“ ist selten der Engpass.

12) Drei Szenarien aus der Praxis

Textile Fertigung: Triage statt Mythos „Selbstheilung“

Problem: Vibrationsüberwachung detektiert häufige Anomalien; Instandhalter verlieren Zeit mit dem Auswerten heterogener Logs.

Lösung: Agent aggregiert Alarme, ruft passende OEM-Anleitungen ab, schlägt Prüfsequenzen und Sicherheits-Hinweise mit Zitaten vor; optionaler EAM-Entwurf.

Architektur-Entscheid: Kein direkter Zugriff aufs SPS-Netz, Historian read-only. Idempotente Ticket-Erstellung. Ergebnis: gleichbleibende Qualität, weniger Kontextwechel.

Bahn-Flotteninstandhaltung: Variantenvielfalt bändigen

Problem: Anleitungen unterscheiden sich je nach Baureihe, Seriennummer und Retrofit-Stand. Falsche Anleitung = Sicherheitsrisiko.

Lösung: Strenges Metadaten-Filter vor Retrieval, Inline-Zitieren, Workflow-Graph mit „Gültigkeitscheck“-Knoten. Keine Freitextergänzungen ohne Quelle.

Governance: Jede Antwort führt Quelle+Gültigkeitsfenster; bei Ambiguität zwingender „I don’t know“.

Fertigungs-Qualitätssicherung: Was LLMs nicht tun sollten

Visuelle Gut-/Schlecht-Entscheidungen mit harten Latenz- und Fehlerratenanforderungen gehören nicht in einen textbasierten Agenten.

Der Agent kann Protokolle und Abweichungsberichte strukturieren, aber nicht den Detektor ersetzen. Echtzeit-Entscheidungen bleiben am Edge-Computer-Vision-Modul.

13) Lessons learned

Retrieval ist die „Modellqualität“: Schlechte Metadaten schlagen jedes größere Sprachmodell.

Freiform ist gefährlich: Agenten brauchen Graphen, nicht „Kreativität“.

„I don’t know“ ist ein Feature: Erzwingen Sie es in Prompt und Policy. Belohnen Sie Zurückhaltung ohne Quelle.

Telemetrie zuerst: Ohne Replay ist jede Verbesserung Bauchgefühl.

Aufwände richtig planen: 70% Engineering (Daten, Integrationen, Policies), 20% Observability/Governance, 10% Modelltuning.