Integrationsansatz:
- Side-by-Side-Inferenzdienst: Ein containerisierter Vision-Server (z. B. mit TensorRT/Triton) erhält Bilder über Zero-Copy-Sharing vom Grabber oder per gRPC-Streaming. Er liefert Prognosen inkl. Konfidenz und erklärenden Overlays (BBoxes).
- Schnittstellenvertrag: Protobuf-Messages mit Feldern für Kamera-ID, Timestamps (PTP-synchronisiert), Produkttyp, Bild-Hash. Antwort: Klassen, Scores, optional Heatmaps/Masken als Referenz.
- Betriebsmodi:
- Phase 1 – Shadow: Altes System entscheidet, ML rechnet parallel. Ergebnisse werden verglichen und geloggt.
- Phase 2 – Canary: 5–10 % der Teile laufen über ML-Entscheidung, Gate mit Grenzwerten (Confidence > X, nur bestimmte Defektklassen).
- Phase 3 – Hybrid: Regelwerk als „Guardrail“, ML entscheidet innerhalb definierter Freiheitsgrade, bei Unsicherheit Rückfall auf Regeln oder manuelle Sichtprüfung.
- Latenzoptimierung:
- Batching bei 1–4 Bildern per Inferenz, nur wenn es das Taktzeitbudget erlaubt.
- TensorRT-Optimierung (INT8/FP16) mit Kalibrierung, Fixierung der Input-Resolution.
- GPU-Pinning, dedizierte NIC, kein Overcommit auf dem Inferenzknoten.
- OT-Anbindung:
- Ergebnisse und Qualitätscodes werden über bestehende OPC-UA-Nodes zurückgemeldet; keine Direktzugriffe des ML-Servers auf das MES-Schema.
- Qualitätssicherung:
- Golden Dataset aus realen Produktionsbildern, annotiert mit dem bestehenden QS-Prozess.
- Metriken: False-Reject-Rate (PPM), False-Accept-Rate (Sicherheitsfaktor), Drift-Indikatoren (Veränderung der Score-Verteilungen).
- Abnahme: Grenzwerte pro Variante/Anlage, dokumentierte Reproduzierbarkeit (fixierter RNG-Seed, deterministische Preprocessing-Pipeline).
- Betrieb:
- Updates nur signiert, in Wartungsfenstern, mit Rollback-Plan. Modellwechsel über Registry-Flag, Blue/Green auf Inferenzpod-Ebene.
- Audit: Jede Entscheidung wird mit Bild-Hash, Modellversion, Feature-Checksumme protokolliert.
Ergebnis:
- Reduktion von Pseudoausschüssen ohne Eingriff in bestehende MES/PLC-Logik. KI als eigenständige, nachvollziehbare Komponente, die sich in die vorhandenen Qualitätsworkflows einfügt.
Szenario 2: LLM-gestützte Wartungsassistenz in einer Intranet-Fachanwendung
Ausgangslage:
- Ein bestehendes Instandhaltungsportal (Web) enthält Störmeldungen, Ersatzteilkataloge, PDF-Handbücher. Suche ist Keyword-basiert, Qualität mäßig. Daten dürfen das Werk nicht verlassen.
Integrationsansatz:
- RAG-Pipeline on-prem:
- Dokumentenaufnahme über bestehende DMS/SharePoint-APIs. Vorindizierung als Hintergrundjob: Extraktion (Text + Strukturelemente), Chunking mit Semantik-Grenzen, Embedding-Generation lokal (z. B. über ein deutschsprachiges Embedding-Modell).
- Vektorindex: pgvector in Postgres-Cluster (einfaches Backup, bekannte Betriebsprozesse) oder Qdrant. Zusätzlich klassische Invertierte Indizes für Hybrid-Retrieval.
- LLM-Inferenz:
- On-prem betriebenes LLM (z. B. kleiner, feinabgestimmter 7–13B-Parameter-Decoder), quantisiert für CPU/GPU-Effizienz. Keine Internetabhängigkeit.
- Anwendungsintegration als „/assist“-Befehl im bestehenden Ticket-Editor. Der Benutzerkontext (Anlage, Rolle) fließt in Retrieval-Filter ein (ABAC).
- Governance mit Alpi-M:
- Prompt- und Antwortüberwachung: Versionierte Systemprompts, Ketten von Werkzeugaufrufen (Retrieval, Tabellenabfragen) als nachvollziehbare Trace.
- Guardrails: Zulässigkeitsregeln (z. B. keine Handlungsanweisungen ohne Quelle), PII-Redaktion im Logging, Schwellen für automatische Antwort-Vervollständigung vs. Vorschlag.
- Freigaben: Für risikobehaftete Aktionen (z. B. Änderung einer Wartungsprozedur) zwingende menschliche Freigabe mit Audit-Trail.
- Sicherheit:
- Keine direkte Datenbankverbindung des LLM-Prozesses zu Produktionssystemen. Nur wohldefinierte, least-privilege Read-APIs.
- mTLS, Service Mesh optional, Secrets in Vault, Signaturprüfung aller Containerimages.
- Qualität:
- Offline-Evaluationssuites: „Needle-in-Haystack“-Fragen aus realen Tickets, Bewertung nach Antwortvollständigkeit und Quellenbezug.
- Online-Feedback: Daumen hoch/runter und „Quelle fehlt“-Marker, die als Priorisierung in den Improvement-Backlog fließen.
Ergebnis:
- Kontextualisierte, nachvollziehbare Assistenz innerhalb der bestehenden Anwendung. Kein Vendor-Lock-in, vollständige Datenhoheit, klare Auditierbarkeit der LLM-Interaktionen durch Alpi-M.
Testen und Qualitätssicherung für KI-erweiterte Software
Die Metriken eines ML-Papers helfen im Betrieb wenig. Entscheidend sind runtime-nahe, reproduzierbare Tests und klare Abnahmekriterien:
- Vertragstests (Contract Tests): Für jede Inferenz-API definieren wir feste Schemas, zulässige Wertebereiche, Versionskompatibilität. CI bricht beim Bruch eines Schemas ab.
- Golden Datasets: Kuratierte Datensätze mit bekannten Soll-Ausgaben, die jede Modell-/Pipeline-Änderung passieren muss. Wichtig: Versionierung, rechtssichere Speicherung, Repräsentativität pro Anlage/Variante.
- Metamorphe Tests: Eingaben werden systematisch variiert (Rauschen, Rotation, Format), erwartete Invarianzen werden geprüft (z. B. Klassenergebnis stabil, Score-Band).
- Differential-Tests: Parallelbetrieb alter Regelwerke und neuer ML-Pipeline; Flaggen signifikanter Abweichungen, insbesondere bei kritischen Klassen.
- Performance- und Lasttests: Realistische Eingangsverteilungen, Worst-Case-Latenzen, Ressourcenkonflikte (I/O, GPU). Testen von Batching-Strategien gegen Latenzbudgets.
- Sicherheits- und Robustheitstests: Adversariale Prompts bei LLM, Prompt-Injection-Szenarien, Abwehrmechanismen validieren. Input-Validierung und Timeouts.
- Drift-Monitoring: Statistische Überwachung der Eingangs- und Score-Verteilungen über Zeit; Alarmierung bei Daten- oder Konzeptdrift. Maßnahmenkatalog (Re-Training, Schwellenanpassung, Rollback).
- Reproduzierbarkeit: Build-Pipelines erzeugen SBOMs, deterministische Containerimages, nachvollziehbare Artefaktketten. Modellversionen sind explizit im Betrieb sichtbar.
Schrittweise Migration: Von regelbasiert zu ML-basiert
Eine tragfähige Migrationslinie vermeidet Big Bang und verringert Risiko:
- Phase 0 – Beobachten: Shadow Mode. ML rechnet, entscheidet aber nichts. Gap-Analyse vs. Regelwerk. Definition von Abnahmekriterien.
- Phase 1 – Assist: ML liefert Vorschläge, menschliche Entscheidung bleibt maßgeblich. Sammeln von Feedbackdaten.
- Phase 2 – Gate: ML übernimmt Entscheidungen in Niedrigrisiko-Fällen (hohe Konfidenz, klare Klassen). Regeln fungieren als Safety-Net.
- Phase 3 – Automate: ML trifft Entscheidungen innerhalb definierter Leitplanken. Ausstiegsszenario (Circuit Breaker) bleibt vorhanden.
- Strangler-Pattern: Schnittweise Herauslösen von Funktionsbereichen; alte und neue Pfade koexistieren, bis die Umschaltung abgeschlossen ist.
- Governance und Kommunikation: Risk Register pro Entscheidung, definierte SLOs, Fehlerbudgets, Ownership im Betriebsteam. Dokumentierte Decommission-Kriterien für alte Regeln.