Archetyp B: Zustandsüberwachung und Anomalieerkennung für rotierende Maschinen
- Problem: Lagerschäden, Unwucht, Fehljustage frühzeitig detektieren, ohne tausende gelabelte Ausfallfälle.
- Daten: Schwingungen/Schall (z. B. 1–10 kHz Sampling), Stromaufnahme, Temperatur. Historie von Wochen/Monaten reicht für Start.
- Architektur:
- Sensor → Edge-Gateway (OPC UA/MQTT) → Stream (Kafka/Redpanda) → Time-Series DB (InfluxDB/Timescale)
- Feature-Pipeline: Zeit- und Frequenzfeatures (RMS, Kurtosis, Bandpower, Spektralpeaks)
- Modelle: Unsupervised Anomaly Detection (Isolation Forest, One-Class SVM) oder Autoencoder; pro Maschine/Typ getrennt
- Alarmierung: Schwellen dynamisch, Hysterese, Debounce; Ticketsystem-Integration
- Trade-offs:
- Ohne gelabelte Ausfälle sind Alarme „anomal“ und nicht „diagnostisch“ – akzeptieren und mit Domänenwissen mappen (Anomaliecode → Prüfprozedur)
- Datenqualität (Sensorbefestigung, Drift) ist oft limitierend. Investieren Sie früh in Sensormontage-Standards.
- Deliverables nach 12 Wochen:
- Live-Anomalie-Score pro Maschine mit begründetem Schwellenkonzept
- MTTD-Verbesserung quantifiziert an historischen Events
- Minimaler Diagnose-Playbook: „Bei Anomalie X → Messung Y, Inspektion Z“
Archetyp C: LLM-gestützte Wissensarbeit: Technische Wissenssuche (RAG) für Service/Engineering
- Problem: Wartungspläne, Schaltpläne, Normen und Störungsberichte sind verteilt; Suchen kostet Zeit; Antworten müssen nachvollziehbar sein.
- Daten: PDFs, CAD-Exports, Confluence/SharePoint-Daten – lokal synchronisiert; Metadaten (Gültigkeit, Version).
- Architektur:
- Ingestion: Parser (PDF, DOCX, CAD-Text), domänenspezifisches Chunking (z. B. pro Kapitel/Bauteil)
- Embeddings lokal (BGE/E5-Klasse); Vektor-DB (Qdrant); Retrieval mit Hybrid-Suche (BM25 + Vektor)
- LLM-Serving On-Prem (vLLM) mit 7–13B-Klasse Modell; Prompt-Template mit Zitatenpflicht (Quellenliste)
- Guardrails: Tool-Use nur weißgelistet; Antwort nur aus Zitaten; „Keine Quelle → Keine Antwort“
- Observability: Prompt-/Tool-Logs; Halluzinations-Benchmarks (Antwort mit/ohne Quellen)
- Trade-offs:
- Kleine LLMs sind günstiger und einfacher on-prem, aber brauchen starkes Retrieval und strikte Prompting-Policies
- Dokumentversionierung kritisch: „Gültig ab/bis“ muss im Chunk landen, sonst entsteht veraltetes Wissen
- Deliverables nach 12 Wochen:
- Produktiver Such-Assistant mit Quellenangaben
- Evaluations-Set mit 50–100 realen Fragen, Metriken: Hit Rate@k, Antwort mit Quelle
- Rechte- und Rollenmodell (z. B. Mandant Werk A/B, Rolle Service vs. Engineering)
4) Warum Mittelstand oft schneller ist – wenn man richtig organisiert
- Kürzere Entscheidungswege: Nutzen Sie das, indem Sie einen „Product Owner KI“ benennen, der Budget und Abnahmebefugnis hat.
- Direkter Zugang zum Shopfloor: Binden Sie 1–2 erfahrene Facharbeiter pro Linie ein. Ihre 2 Stunden pro Woche sparen später Wochen an Fehlentwicklung.
- Schlanke Governance: On-Prem reduziert Datenschutzabstimmung. Dafür: klare Policies, automatische Checks (z. B. Outbound-Traffic blockiert, SBOM vorhanden), und ein leichtgewichtiger Freigabeprozess.
- Iteration statt Masterplan: Monatliche, nicht jährliche Roadmaps. Erfolgreiche Mittelständler liefern Teilnutzen im 1. Quartal und erweitern entlang messbarer Outcomes.
Organisationspattern:
- Wöchentliches Tech/Domain-Sync (30 Minuten): offene Datenprobleme, Ground Truth, Drift
- Zwei Umgebungen reichen zunächst: Integration (INT) und Produktion (PRD); vermeiden Sie „Test-Wildwuchs“
- Akzeptanzkriterien als If-Then: „Wenn FP-Rate > 5% in Schicht 3, dann Rollback auf Modell v0.9“
5) LLM-Agenten on-prem: Observability und Governance sind Pflicht, nicht Kür
Sobald LLMs Tools nutzen (z. B. ERP-Abfragen, Ticketanlage), sind sie Agenten. Ohne Observability sind Sie blind für Kosten, Fehler und Sicherheitsvorfälle.
Minimal-Set für produktionsreife Agenten:
- Prompt-/Tool-Registry: Versionierte Systemprompts, Tool-Schemas, Rollout-Matrix
- Token-Level-Metriken: Tokens in/out, Latenz, Cache-Hit-Rate – je Endpoint, je Mandant
- Audit-Trail: Wer hat was gefragt, welches Dokument wurde zitiert, welcher Tool-Call wurde ausgeführt – unter RBAC, revisionssicher
- Policy Engine:
- Keine externen HTTP-Calls
- Maximaler Tool-Fanout
- PII-Leak-Prevention (Regeln und Klassifizierer)
- Replay & Offline-Test: Produktions-Traces als Testfälle in CI; Regressionen erkennen, bevor Sie deployen
- Halluzinationsbudget: Fail-Closed bei fehlenden Quellen, definierte Fallback-Dialoge
Ohne diese Bausteine wird ein LLM „gefühlt nützlich“, aber betrieblich unvertretbar. Gerade on-prem sind diese Komponenten implementierbar, weil Sie volle Kontrolle über Metriken und Logs haben.
6) Infrastruktur pragmatisch planen: Kapazität, Kosten, Upgrades
- Hardware-Start:
- Ein kompakter Inferenz-Server (z. B. 2× L4 oder A4000/A4500-Klasse) deckt 7–13B LLMs in int4-Quantisierung und mehrere CV/AD-Modelle parallel ab.
- Edge-Geräte bei Bild-/Signalverarbeitung verringern Netzlast; rollen Sie Modelle per Container-Image aus.
- Kapazitätsplanung:
- LLM-Kapazität in Tokens/Sekunde planen. Beispiel: 13B int4 auf L4 ≈ ausreichend für dutzende parallele kurze Anfragen mit Prompt-Caching.
- CV/Signal-Modelle in FPS oder Maschinenzahl rechnen. Puffer für Updates und Retraining einplanen.
- Software:
- Kubernetes sinnvoll ab 2–3 Knoten oder wenn mehrere Teams/Workloads. Sonst: Docker-Compose + klare Namensräume reicht am Anfang.
- Updates offline: Artifakt-Mirror, signierte Bundles, Change-Log, Rollback-Plan.
- TCO:
- Ein sauberer On-Prem-Stack spart wiederkehrende API-Kosten und verringert Compliance-Aufwand. Betrieb erfordert DevOps-Disziplin. Rechnen Sie Betreuungsanteile explizit (z. B. 0,5–1,0 FTE für 1–2 Cluster).
7) Vorgehensmodell: 12 Wochen von Problem zu Pilot
- Woche 1–2: Problem-Präzisierung und Datenkontrakt
- Zielmetrik(en) definieren, Messbarkeit klären
- Datenquellen inventarisieren; minimaler Datenextrakt; Datenschutz-Checklisten
- Erfolgskriterien schriftlich fixieren (Cutoffs, FP/FN, Latenz, Kostenziele)
- Woche 3–4: Baseline und Architektur
- Baseline-Modell (klassisch/regelbasiert oder vortrainiertes Modell ohne Fine-Tuning) als Vergleich
- Zielarchitektur in Infra-as-Code (Terraform/Ansible) und CI/CD-Pipeline
- Observability früh aktivieren (Metriken, Logs, Traces)
- Woche 5–8: Iteration am realen Prozess
- Active Learning/Labeling-Loop
- Domänenspezifische Heuristiken ergänzen (z. B. Masken, Zonen, Spektralbänder)
- Sicherheitshärtung: Outbound-Block, Secrets, RBAC, Audit-Logs
- Woche 9–10: Pilotbetrieb
- Shadow Mode oder A/B gegen manuellen Prozess
- Drift-Monitoring und Fallback-Strategien testen
- Nutzerfeedback strukturiert erfassen (Fehlermeldungen mit Kontext)