KI in Bestandssoftware nachrüsten: Integration statt Neubau – mit Souveränität als harte Randbedingung

Die schwierigste Aufgabe an KI-Projekten in der Industrie ist selten das Modell. Es sind die Systeme, in die das Modell eingebettet wird: monolithische Anwendungen mit langen Release-Zyklen, heterogene Feldgeräte, Domänenlogik, die über Jahre gewachsen ist, strenge Qualitäts- und Compliance-Anforderungen, air-gapped Rechenzentren. Genau dort entscheidet sich, ob KI im Betrieb zuverlässig, auditierbar und wartbar läuft – oder ob sie im PoC-Status stecken bleibt.

Dieser Beitrag skizziert einen erprobten Integrationsansatz für Industrieunternehmen, die KI-Funktionen in bestehende Softwareprodukte nachrüsten wollen. Leitlinie ist Souveränität: On-Premise-Deployments, DSGVO-Konformität, keine Abhängigkeit von US-Clouds. Und: Wir starten immer mit dem konkreten Engineering-Problem, nicht mit dem Modell.

Ausgangslage in Industrie-Stacks

Typische Randbedingungen in unseren Projekten:

  • Langelebige Kernsysteme: SCADA/MES/PLM, z. T. mit C++/Qt-Frontends, proprietären Protokollen und festen Datenbank-Schemata.
  • Safety-/Regulatory-Kontext: Eisenbahn, Luftfahrt, Defense mit klaren Nachweis- und Freigabeprozessen. Jede Änderung am System muss auditierbar sein.
  • Geteilte Infrastrukturen: Vom Embedded-Edge-Gerät bis zum zentralen Rechenzentrum, oft ohne Internetzugang, mit segmentierten Netzen.
  • SLA-getriebene Prozesse: Harte Latenzbudgets in der Fertigung, hohe Verfügbarkeit, deterministische Fallbacks.

Daraus folgt: KI muss sich wie eine gut erzogene Bibliothek verhalten – sauber gekapselt, versioniert, mit klaren Verträgen und vorhersehbarem Laufzeitverhalten. Das Modell ist nur ein Baustein in einer integralen Architektur.

Architekturmuster für die Nachrüstung

1) Strangler-Pattern an der Funktionsgrenze

  • Identifizieren Sie eine konkrete, abgegrenzte Funktion (z. B. visuelle Fehlerklassifikation oder Freitext-Suche in technischen Dokumenten).
  • Kapseln Sie diese Funktion in einem neuen, externen Dienst, der die alte Schnittstelle respektiert.
  • Routingschicht vorschalten: Altsystem-Layer entscheidet, wann es den neuen Dienst aufruft (z. B. Shadow Mode, Canary, Confidence-Threshold).
  • Vorteil: Minimale Invasivität, klare Rollback-Option.

2) Sidecar-Inferenzdienst statt Embedded-Model

  • Statt das Modell in den Monolith zu linken, läuft es als separater Prozess/Container auf derselben Maschine oder im selben Segment.
  • Kommunikationen über eine schmale, versionierte API (gRPC/Protobuf für binäre Effizienz oder REST/JSON, falls menschliche Debugbarkeit wichtiger ist).
  • Vorteil: Unabhängige Releasbarkeit des Modells, Ressourcentrennung (CPU/GPU), Crash-Isolation.

3) Asynchron, wo es geht – synchron, wo es muss

  • Synchron für user-facing Interaktionen mit hartem Latenzbudget (z. B. 100–300 ms für UI-Feedback).
  • Asynchron für rechenintensive Analysen (z. B. stündliche Flottenauswertung): Event-Queue, Ergebnis-Callback, Re-Try-Strategien mit Backoff.
  • Entkopplung über Message Bus: Vermeiden Sie enge Kopplung in Prozessketten, die sonst kaskadierende Fehler auslösen.

4) Minimalinvasive Datenzugriffe

  • Keine tiefen Eingriffe in Kerndatenbanken. Exponieren Sie lesende Views (Read-Replicas, CDC-Streams) und definieren Sie Datenverträge.
  • Schreiben Sie Ergebnisse nur in explizit dafür vorgesehene Ergebnis- oder Audit-Tabellen. Niemals in kritische Transaktionstabellen ohne Guardrails.

Datenwege und Data Contracts

Das meiste Scheitern passiert vor dem Modell: fehlerhafte Felder, implizite Semantiken, unerwartete Nulls, creeping scope. Abhilfe schafft ein expliziter Datenvertrag zwischen Legacy-System und KI-Dienst.

  • Schemastrenge: Definieren Sie Protobuf/JSON-Schemata mit semantischer Versionierung (MAJOR.MINOR.PATCH). MAJOR-Brüche sind bewusst und selten, MINOR nur additive Felder, PATCH rein intern.
  • Deterministische Featurisierung: Jede abgeleitete Eigenschaft ist eine reine Funktion der Eingabedaten, mit fixierten Parametern. Featurisierer haben eigene Unit-Tests.
  • Datenqualitäts-Gates: Vor Inferenz: Pflichtfelder vollständig? Wertebereiche plausibel? Zeitstempel konsistent? Andernfalls: definierter Fallback-Pfad.
  • Drift-Signale: Loggen Sie Feature-Statistiken (Mittelwert, Varianz, Kategorienhäufigkeiten) und vergleichen Sie Online gegen Train-Distribution. Drift ist ein Betriebsereignis – mit Ticket und Runbook.

Deploymentmodelle unter Souveränitätsauflagen

On-Prem bleibt der Default. Aber On-Prem ist nicht gleichbedeutend mit „manuell und fragil“.

  • Containerisierte Dienste: Isolieren Sie Runtime-Abhängigkeiten. Nutzen Sie eine interne Registry. Image-Signaturen und SBOMs gehören in die Compliance-Mappe.
  • Orchestrierung: Ob Sie eine Orchestrierungsplattform nutzen oder systemd plus Supervisor – entscheidend sind Wiederanlauf, Health-Checks, Rolling Updates und Ressourcenlimits.
  • Ressourcenplanung: GPU/CPU-Quoten, Batching-Strategien (Trade-off Latenz vs. Durchsatz), NUMA-Affinität bei High-Throughput-Systemen.
  • Air-Gapped Updates: Signierte Artefakte, offline Promotion (Dev → Staging → Prod) via Transfer-Medium mit Prüfsummen. Einhaltung der Freigabeprozesse.
  • Edge-Varianten: Falls Bandbreite/Privacy erzwingt, läuft die Inferenz direkt am Gerät. Gleiches API-Contract, aber kleineres Modell, quantisiert, ohne Remote-Abhängigkeiten.

Migration: von Regeln zu ML – ohne Kontrollverlust

Regelwerke sind explizit, deterministisch und auditierbar. ML ist adaptiv, probabilistisch. Die sichere Brücke dazwischen:

  • Dual-Run (Shadow Mode): ML läuft im Hintergrund, trifft aber keine Entscheidungen. Ergebnisse werden geloggt, gegen Regelwerksergebnisse verglichen und mit Outcomes (Feldrückmeldungen) gelabelt.
  • Risiko-Budgets und Confidence-Thresholds: Legen Sie Grenzwerte fest, ab denen ML die Entscheidung übernehmen darf. Unterhalb: Fallback zu Regeln oder Human-in-the-Loop.
  • Schrittweise Autorisierung: Erst Empfehlungen, dann Soft-Overrides, dann Hard-Decision für Low-Risk-Subfälle.
  • Feature-Parität: Stellen Sie sicher, dass das ML dieselben Inputsignale sieht, die Regeln nutzen. „Green Feature Gaps“ führen zu Phantomverbesserungen im PoC, die in der Produktion kollabieren.
  • Änderungsnachweis: Jede Modellversion hat Release Notes mit Verhaltensänderungen gegenüber Schlüssel-Szenarien. Das gehört in die Freigabeunterlagen.

LLM-Integration in Unternehmensanwendungen – mit Observability und Governance

Große Sprachmodelle sind nützlich für Wissensarbeit in Engineering-Prozessen: Suche in Betriebshandbüchern, Assistenten für Wartungsprozeduren, Generierung strukturierter Reports. Die Hürden in der Industrie sind Sicherheit, Nachvollziehbarkeit und Offline-Betrieb.