Wir verwenden dafür eine LLM-Agenten-Observability- und Governance-Schicht on-premise (z. B. Alpi-M): ein System, das Traces, Policies, PII-Redaktion, Versionsbezug und Auditability zusammenführt – ohne Daten in externe Clouds zu senden. Wichtig ist die technische Einbettung: SDK/Proxy als dünne Schicht im Aufrufpfad; kein Vendor-Lock-in, klare Exportformate.

4) Testing und QA für KI-erweiterte Software

Klassische Unit-Tests reichen nicht. Sie benötigen eine Teststrategie, die statistische Natur, Drift und Nichtdeterminismus adressiert.

  • Goldene Datensätze:
  • Kuratierte, versionierte Beispiele pro Use-Case (z. B. 5k Rechnungen, 2k Qualitätsbilder, 1k Tickets)
  • Abdeckung seltener, aber kritischer Fälle (Edge Cases)
  • Offline-Evaluation als Build-Gate:
  • Minimale Qualitätsmetriken (z. B. Precision/Recall, SER bei OCR, JSON-Validity-Rate bei LLM) als Pipeline-Kriterien
  • Determinismus wo möglich:
  • Fixe Seeds, Temperature=0 bei LLM für produktive Flows, deterministische Backend-Libraries
  • Vertragstests (Contract Tests):
  • Input/Output-Schema zwischen Host und Inferenzdienst, Backward-Kompatibilität, klare Fehlermeldungen
  • Shadow- und A/B-Deployment:
  • Shadow: KI rechnet mit, beeinflusst Ergebnis nicht, Telemetrie wird verglichen
  • A/B: definierter Traffic-Anteil, automatische Rollback-Regeln
  • Metamorphe Tests:
  • Invarianten prüfen (z. B. Reihenfolge von irrelevanten Feldern ändert Ergebnis nicht)
  • Last- und Stresstests:
  • Durchsatz/Parallelität realitätsnah messen (Burst-Profile), GPU/CPU-Utilization, Warmup-Effekte
  • Data/Model Drift Detection:
  • Statistik auf Eingängen/Ausgängen (z. B. Verteilungsverschiebung), Alerts, Retrain-Kandidaten
  • Human Feedback Loop:
  • UI/Tools für Korrekturen, gesicherte Aufnahme als Trainingsmaterial mit Label-Qualitätssicherung

5) Schrittweise Migration: Von Regeln zu ML ohne Big Bang

Vollständige Ablösung regelbasierter Systeme ist riskant. Besser ist eine schrittweise, hybride Migration:

  • Inventur der Regeln:
  • Welche Regeln sind deterministisch richtig? Behalten.
  • Welche Regeln sind heuristisch und fehleranfällig? Kandidaten für ML.
  • Feature Layer definieren:
  • Regel- und ML-Pfade nutzen gleiche, versionierte Features (z. B. normalisierte Sensorwerte, erkannte Objekte)
  • Hybrid-Laufzeit:
  • Guardrail-Logik bleibt regelbasiert (z. B. Sicherheitsabschaltungen)
  • ML liefert Vorschlags-/Score-Ebene; Schwellenwerte und Unsicherheiten werden berücksichtigt
  • Confidence-Routing:
  • Wenn Konfidenz < T → Fallback zu Regeln oder Mensch-in-der-Schleife
  • Wenn Konfidenz hoch → Automatisierte Entscheidung
  • Parallelbetrieb:
  • Shadow zuerst, dann partielle Umschaltung pro Anwendungsfall
  • Wissensübertrag:
  • Regeln als distillation targets für initiale ML-Modelle (Teacher-Student), um Startqualität zu erhöhen
  • Governance:
  • Jede Änderung nachvollziehen: welche Regeln wurden deaktiviert, welche ML-Version aktiv, wer hat genehmigt

6) Deployment-Modelle und Souveränität

Industrie-Software arbeitet oft in Segmenten, in denen Daten nicht extern fließen dürfen. Daraus ergibt sich:

  • On-Premise-Cluster:
  • Kubernetes/Containerd on-prem, private Registry, Air-Gap-fähige CI/CD
  • GPU-Scheduling, Node Labels (Edge vs. Rechenzentrum)
  • Artefakt-Management:
  • Modell-Registry (Version, Herkunft, Lizenz), reproduzierbare Builds (Hash-Pinning von Weights und Runtimes)
  • Signierte Container/Modelle, SBOM auch für ML-Artefakte
  • Netzwerk und Sicherheit:
  • Netzwerksegmente, mTLS, kurze Timeouts, Circuit Breaker
  • RBAC, Audit-Logs, Key-Management unter Kundendomäne
  • Compliance:
  • DSGVO: Datenminimierung, Zweckbindung, Aufbewahrungsfristen
  • Kein US-Cloud-Zwang: LLM/Embeddings/Monitoring lokal betreiben
  • Upgrades und Patches:
  • Blue/Green/Canary auf Service-Ebene
  • Treiber/Runtime-Kompatibilität testen (CUDA/TensorRT/ONNX/BLAS)
  • Observability-Stack:
  • Metriken/Logs/Traces, dedizierte KPIs für KI (Qualität, Drift, Kosten)
  • Retention-Policies und PII-Redaktion by design

7) Beispielarchitekturen (aus der Praxis abstrahiert)

a) Visuelle Qualitätsprüfung in bestehender C++/Qt-Anwendung

  • Ausgangslage:
  • Monolithische Desktop-App steuert Kameras, generiert OK/NOK
  • Harte Latenzanforderungen (<100 ms), kein Internetzugang
  • Lösung:
  • In-Process-ONNX-Inferenz für Segmentierung/Klassifikation
  • Modelle als signierte Artefakte, Versionierung im UI sichtbar
  • Shadow-Modus parallel zu bestehenden Regeln; anschließend Confidence-Routing
  • Telemetrie lokal: Latenz/Fehler, Stichprobenbilder anonymisiert zur Offline-Eval
  • Ergebnis:
  • Keine Änderung an Steuerungslogik; KI liefert reproduzierbare Scores, Regel-Guardrails bleiben aktiv

b) Flottenintelligenz für Bahntechnik

  • Ausgangslage:
  • Viele Fahrzeuge, Telemetrie-Streams, Batch-Analysen über Nacht
  • Lösung:
  • Kafka-Backbone on-prem, Microservices für Feature-Engineering, Inferenz, Anomalie-Erkennung
  • Reprocessing fähig (Backfills), Canary-Deployments für neue Modelle
  • Dashboards mit SLOs: Time-to-Detect, False-Alarm-Rate
  • Ergebnis:
  • Schrittweise Migration: erst Monitoring, dann automatisierte Wartungsempfehlungen

c) LLM-Assistenz für Wartungsdokumentation

  • Ausgangslage:
  • Techniker suchen in tausenden Seiten PDF/Confluence
  • Lösung:
  • RAG on-prem: Dokument-ETL, Chunking, Embeddings, Vector-Store
  • LLM-Serving lokal mit strengen Prompts, JSON-Ausgabe validiert gegen Schema
  • Alpi-M-ähnliche Observability: Traces, PII-Redaktion, Prompt-Versionen, Policy-Checks
  • Mensch-in-der-Schleife für umstrittene Antworten
  • Ergebnis:
  • Messbare Reduktion der Suchzeit; Nachvollziehbarkeit und Audit-Fähigkeit gewährleistet

8) Häufige Fallstricke und wie man sie vermeidet

  • Modell first statt Integration first:
  • Gegenmaßnahme: Integrationsschnitt und Systemqualitäten zuerst definieren
  • Keine klaren Datenverträge:
  • Gegenmaßnahme: Versionierte Schemas, Contract Tests, Abwärtskompatibilität
  • Overfitting auf Demo-Daten:
  • Gegenmaßnahme: Goldene Datensätze mit Edge Cases, Shadow-Phase obligatorisch
  • Fehlende Observability:
  • Gegenmaßnahme: Telemetrie und Governance-Schicht von Anfang an einplanen
  • Cloud-Abhängigkeit bei sensiblen Daten:
  • Gegenmaßnahme: On-Prem-Serving und Vektorindizes, kein externer Prompt/Embeddings-Dienst
  • Unterschätzte Betriebskosten:
  • Gegenmaßnahme: Batching, Quantisierung, Kapazitätsplanung, klare SLOs
  • “Magische” Agenten ohne Kontrolle:
  • Gegenmaßnahme: Begrenzte Tools, Policies, Approval-Gates, Logging, Tests

9) Praktische Checkliste für Ihren nächsten Integrationsschritt