KI nachrüsten statt neu bauen: Ein Integrationsleitfaden für industrielle Bestandssoftware
Die harte Arbeit bei KI in der Industrie beginnt selten im Modell. Sie liegt in der Integration in gewachsene Systeme: in Zykluszeiten eines PLC, in Berechtigungsmodelle eines DMS, in Latenzbudgets eines Inspektionssystems, in Audit-Anforderungen einer Sicherheitsabnahme. Wer hier die falschen Schnittstellen, Deploymentmodelle oder Betriebsprozesse wählt, baut sich technische Schulden – auch mit einem hervorragenden Modell. Unser Grundsatz: Souveränität ermöglicht Intelligenz. Datenhoheit, on-premises-Betrieb und kontrollierbare Integrationspfade sind die Voraussetzung, damit KI zuverlässig und verantwortbar Mehrwert in Bestandssoftware liefert.
Ausgangslage: Warum Integration die eigentliche Herausforderung ist
- Heterogene Systemlandschaften: SCADA, OPC UA, MQTT, historisierte Zeitreihen, monolithische Fachanwendungen, selbstentwickelte ETL-Jobs, Fileshares mit 20 Jahren Historie. Es gibt keine „grüne Wiese“.
- Harte Umweltbedingungen: Echtzeitnahe Prozesse (Millisekunden bis Sekunden), deterministische Zyklen, Safety- und Compliance-Anforderungen, teilweise luftgetrennte Netzwerke (Air-Gap).
- Langlebige Release-Zyklen: Validierung, Abnahmen, Sicherheitsgutachten; ein Breaking Change kostet Monate.
- Daten- und Compliance-Anforderungen: DSGVO, Exportkontrollen, branchenspezifische Normen. Daten dürfen das Werk nicht verlassen, geschweige denn in US-Clouds.
- Betriebsrealität: IT/OT-Schnittstelle, eingeschränkter Fernzugriff, geplante Wartungsfenster, restriktive Firewall-Regeln.
Leitprinzipien für KI-Integration mit Souveränität
- Daten-lokal-first: Modelle laufen dort, wo die Daten entstehen oder gespeichert sind. Kein Datenabfluss, keine externen API-Abhängigkeiten.
- Minimal-invasiv: KI als zusätzliche, klar abgegrenzte Funktionseinheit neben dem Bestand, nicht als Eingriff in Kernprozesse.
- Explizite Schnittstellenverträge: Versionierte, binär-stabile Verträge (z. B. Protobuf/gRPC) zwischen Bestandssystem und Inferenzdienst.
- Beobachtbarkeit von Anfang an: Metriken, Traces, Audit-Logs gehören in die erste User Story, nicht in die letzte.
- Fail-safe-Design: Fallbacks auf regelbasierte Logik, Circuit Breaker, Confidence-thresholds. „Sichere Degradation“ vor falscher Automation.
- Schrittweise Migration: Von Assistenz über Vorschlagserstellung zu (teil-)automatisierten Entscheidungen, nie Big Bang.
- Reproduzierbarkeit und Auditierbarkeit: Versionierte Modelle, reproduzierbare Builds, Daten-Herkunft (Data Lineage), dokumentierte Entscheidungen.
Referenzarchitektur für KI-Nachrüstung in Bestandssoftware
1) Datenerfassung und -zugriff
- Event-getriebene Daten: OPC UA Subscriptions, MQTT Topics, Kafka Topics, Filesystem-Watcher für Bilddaten.
- Zugriffsadapter: Spezifische Adapterprozesse, die Daten aus OT/IT-Systemen in ein standardisiertes Inferenzschema überführen (z. B. Protobuf Messages mit Zeitstempeln, Sensor-Metadaten, Benutzer-IDs).
2) Inferenzdienst (ML/LLM)
- Prozessisolation: Containerisierte Services pro Modellfamilie. Für Computer Vision oft GPU-beschleunigt, für Tabular/Anomalie CPU-optimiert.
- Schnittstelle: gRPC für Latenzkritik, REST für Backoffice-Flows. Strikte Schemas, keine „hässlichen“ JSON-Freitexte ohne Vertrag.
- Betriebsmodi: Online-Inferenz (niedrige Latenz), Batch-Inferenz (Nachtläufe), Shadow Mode (Ergebnisse ohne Wirkung), Canary (Teilmenge produktiv).
- Laufzeit: On-prem Kubernetes (k3s/microk8s/Vanilla), Nomad oder Systemd-Services in Edge-Szenarien. Air-gapped Registries für Container-Images.
3) Modell- und Wissensverwaltung
- Modell-Registry: Versionierung, Signaturen, Freigabestati, Metadaten (Trainingsdaten, Hyperparameter, Lizenz).
- Feature-/Embedding-Store: Konsistente Merkmalsberechnung zwischen Training und Serving; für LLM-RAG ein Vektorindex (z. B. pgvector, Qdrant) on-prem.
- Daten-Governance: Data-Lineage und Zugriffskontrollen; Indizierung nur freigegebener Dokumente mit Attribut-basierter Zugriffskontrolle (ABAC).
4) Orchestrierung und Ressourcen
- GPU-Zuteilung: NVIDIA Container Runtime, ggf. MIG-Partitionierung für deterministische Slices. Triton Inference Server für Batching/Ensembling.
- Priorisierung: QoS-Klassen für Latenz-kritische Services, CPU/GPU-Pinning, isolierte I/O-Pfade für Kamera-Streams.
5) Observability, Sicherheit und Governance
- Telemetrie: OpenTelemetry für Traces, standardisierte Metriken (Latenz, Durchsatz, Fehlerraten, Confidence), Log-Korrelation mit Request-IDs.
- Sicherheitskontrollen: mTLS zwischen Services, Zertifikatsmanagement, Secrets in Vault, RBAC über Service Accounts, signierte Artifacts (Sigstore).
- LLM-spezifische Governance: Prompt-/Response-Logging mit PII-Redaktion, Retrieval-Kontrollen, Ausgabefilter, menschliche Freigaben für risikoreiche Aktionen. Für diese Ebene setzen wir Alpi-M ein: on-prem Observability und Governance für LLM-Agents, inkl. Prompt-/Knowledge-Audit, Guardrails und Freigabe-Workflows.
Zwei konkrete Integrationsszenarien
Szenario 1: Visuelle Defekterkennung in einer bestehenden Linie nachrüsten
Ausgangslage:
- Eine Montage-/Prüflinie nutzt bisher regelbasierte Bildverarbeitung (Schwellwerte, Blob-Analyse). Anbindung an das MES via OPC UA, Kamera-Trigger kommt aus dem PLC. Die aktuelle Prüflogik erzeugt zu viele Pseudoausschüsse (False Rejects).
- Latenzbudget: max. 80–120 ms vom Kameratrigger bis zur Entscheidung (OK/NOK).