• Golden Datasets: Kuratierte, stabile Testmengen mit erwarteten Vorhersagen. Vor jedem Release wird gegen die Golden Sets validiert, inklusive Nicht-Regression auf Randfällen.
  • Shadow Mode: Inferenz parallel zum operativen Pfad mitgeloggt, aber ohne Einfluss auf Entscheidungen. Erst wenn Stabilität und Nutzen belegt sind, Umschaltung auf „impacting“.
  • Canary und Rollback: Prozentuale Aktivierung, automatische Zurückschaltung bei SLO-Verletzung (z. B. zu viele Low-Confidence-Fälle).
  • Contract-Tests für die Inferenz-API: Forward-/Backward-Kompatibilität bei Schemaänderungen. Feste Error Codes, kein „Exception-Text-Parsing“.
  • Kalibrierung: Konfidenzen kalibrieren (z. B. Platt/Isotonic bei Klassifikation), dokumentierte Schwellenwerte je Use Case.
  • Erklärbarkeit passend zum Bediener: Feature-Contributions, Heatmaps, Regelverweise. Ziel: Vertrauen ohne „Pseudo-Magie“.
  • Sicherheits- und Policy-Tests: PII-Leakage-Checks, Prompt- und Output-Filter (LLM), Tool-Aufruf-Whitelists, Red-Team-Szenarien.

Für LLMs gilt zusätzlich:

  • Deterministische Moduswahl, wo möglich: Temperatur 0, Top-k/Top-p konservativ, strukturierte Ausgaben (JSON-Schema), Validierung vor Weiterverarbeitung.
  • Tool-/Function-Calling nur über geprüfte Schnittstellen mit strengen Contracts und Rate Limits. Kein Freitext-Aufruf von gefährlichen Aktionen.
  • Prompt-/Kontext-Versionierung als Artefakte. Änderungen laufen durch Review und Tests, nicht per Live-Edit.

7) Schrittweise Migration: Von Regeln zu ML ohne Big Bang

Eine praxistaugliche Migrationsleiter:

  • Stufe 0 — Telemetrie: Regeln bleiben führend. Wir instrumentieren, welche Daten/Entscheidungen anfallen, um eine Ground-Truth-Basis aufzubauen.
  • Stufe 1 — Vorschlagsmodus: ML schlägt Entscheidungen vor, Bediener bestätigt. Ziel: Nutzen und Fehlermuster verstehen, UI anpassen, Erklärungen verproben.
  • Stufe 2 — Hybrid: Regel- und ML-Entscheidung werden kombiniert. Konfliktauflösung folgt einer Policy (z. B. „ML nur bei High-Confidence überschreibt Regel“).
  • Stufe 3 — ML-führend mit Fallback: Regeln bleiben als Safety-Net. Kill-Switch erlaubt Sofortdeaktivierung.
  • Stufe 4 — Konsolidierung: Obsolete Regeln entfernen, Policies aktualisieren, Dokumentation und Schulungen nachziehen.

Wichtig: Jede Stufe hat explizite Exit-Kriterien (z. B. „ X“). So bleibt das Projekt steuerbar.

8) LLM-Integration unter Souveränitätsbedingungen

LLMs sind in der Industrie vor allem als Wissens- und Arbeitsfluss-Beschleuniger interessant: Dokumentationssuche (RAG), Störungsanalyse mit Tool-Aufrufen, Protokollzusammenfassungen, Assistenz für Instandhaltung. Unter On-Prem-Randbedingungen gelten besondere Regeln:

  • Retrieval on-prem: Dokumente werden lokal indiziert (Chunking, Embeddings), PII-Redaktion vor dem Index, Zugriff pro Tenant/Role. Kein Internetzugriff.
  • Agenten nur mit sicheren Tools: Whitelist von Funktionen (Ticket erstellen, Ersatzteil suchen), strenge Schemas, Quoten und Rate Limits. Aktionen mit Impact erfordern „two-man rule“ oder explizite Bestätigung.
  • Plan-Execute-Audit: Jeder Agentenlauf erzeugt ein Audit-Log mit Prompt, Kontext, Tools, Ergebnissen, Modell-/Prompt-Version. Reproduzierbarkeit ist Pflicht.
  • Ausgabekontrolle: JSON-Response nach Schema, Validierung, bei Fehlern definierte Recovery (Re-Prompt mit Korrektur, Fallback auf fixe Templates).
  • Prompt-Governance: Prompts als versionierte Artefakte im Repo, Code-Review, Tests (halluzinationsgefährdete Queries, Safety-Cases), Freigabeprozess.

Für LLM-bezogene Observability und Governance setzen wir auf eine dedizierte Ebene. Unser Ansatz ist Alpi-M: eine on-prem Plattform, die LLM-Aufrufe, Agentenschritte, Kontext und Tooling überwacht, versioniert und auditiert. Damit lassen sich:

  • Prompts/Policies versionieren und rückverfolgen
  • Drift und Anomalien in Antworten erkennen
  • Sessions reproduzieren und „what-if“-Replays fahren
  • Block-/Allow-Listen und Sensitivitätsregeln durchsetzen
  • Mandanten und Datenzugriffe trennen, DSGVO-konform protokollieren

Kurz: Ohne Observability ist ein LLM-Feature in der Produktion eine Blackbox. In regulierten Umgebungen ist das inakzeptabel.

9) Anti-Patterns aus der Praxis

  • Notebook-to-Prod: Ein Jupyter-Skript wird als Service „deployt“. Ergebnis: keine Reproduzierbarkeit, keine Resilienz, keine Security.
  • Direktzugriff auf US-Cloud-LLM vom HMI: Bequem, aber Compliance- und Verfügbarkeitsrisiko. Netztrennung und Datenschutz werden unterlaufen.
  • Kein Fallback: ML entscheidet, aber bei Ausfall oder Low-Confidence gibt es keinen definierten Pfad. In Safety-Umgebungen fatal.
  • Unversionierte Prompts: Irgendwer ändert „mal schnell“ die System-Prompt. Später sind Ergebnisse nicht mehr erklärbar.
  • Feature-Schema-Diskrepanz: Training nutzt andere Preprocessing-Pfade als Produktion. Die Online-Performance fällt ab, aber niemand merkt es wegen fehlender Telemetrie.
  • Ein riesiges „Generalmodell“ für alle Use Cases: Statt klarer, wartbarer Capabilities entsteht ein untestbares Monster.
  • Datenhaltung „irgendwo“: Vektorindizes mit PII ohne Verschlüsselung und Löschkonzepten. Spätestens beim Audit wird’s teuer.

10) Mini-Beispiele: Wie Integration konkret aussieht

  • Visuelle Qualitätsprüfung in der Fertigung:
  • Ausgangslage: Bestehendes Prüfmodul mit festen Bildregeln (Kanten, Schwellen).
  • Integration: Sidecar-Inference-Service mit standardisiertem Bild-Preprocessing, GPU-fähig. Die HMI ruft synchron „/inspect“ auf und erhält „OK/NOK + Heatmap + Confidence“.
  • Betrieb: Shadow-Phase über zwei Wochen, dann Hybrid mit Schwellen. Fallback: Regelset übernimmt, wenn Confidence < 0,7 oder Service down.
  • Nutzen: Geringere False-Negatives, Erklärbarkeit via Overlay. Keine Änderung am Kern der HMI-Applikation nötig.
  • Flottenintelligenz im Bahnsektor:
  • Ausgangslage: Telemetrie-Events, Batch-Reports nach 24 h.
  • Integration: Event-getriebene Pipeline (on-prem), Feature-Build in Near-Real-Time, asynchrone Inferenz für Anomalie-Scorings. Ergebnisse als Events zurück in das Instandhaltungs-System.
  • Betrieb: Canary auf definierten Fahrzeuggruppen, Kalibrierung je Fahrzeugtyp. SLA: p95 < 5 s reicht, Fokus auf Präzision und Alarmmüdigkeit.
  • Dokumentenassistent in sicherer Umgebung:
  • Ausgangslage: Air-gapped Doku-Bestand, strenge Audits.
  • Integration: On-prem LLM mit RAG. Embedding-Index pro Mandant, signierte Dokument-Pipelines. Agent hat nur lesende Tools und generiert strukturierte Antworten (z. B. JSON mit Zitaten).
  • Governance: Überwachung und Audit über eine LLM-Observability-Plattform, Versionierung von Prompts und Policies.
  • Vorhersage in der Textilproduktion:
  • Ausgangslage: Regelbasierte Alarme aus Sensorgrenzen.
  • Integration: ML sagt Ausfallwahrscheinlichkeiten voraus; Stufenmodell: Vorschlagsmodus → Hybrid → ML-führend. Regeln bleiben als Safety-Net.
  • Qualität: Kalibrierte Scores, Bedienerfeedback wird als Label genutzt, monatliche Re-Trainingsfenster.