- Transparenz: Pro Prompt die verwendeten Quellen, Retrieval‑Qualität, Antwort‑Metriken, Latenzen, Token‑Bilanzen.
- Groundedness‑Checks: Automatische Plausibilisierung, ob die Antwort durch die gelieferten Quellen gedeckt ist; bei Unsicherheit: Degradierung oder Eskalation.
- Policy‑Durchsetzung: PII‑Redaktion, Mandanten‑Abgrenzung, Tool‑Berechtigungen, Antwortformate (JSON‑Schema), Timeouts.
- Änderungsmanagement: Versionierte Prompts/Tools/Workflows, Staging‑Umgebungen, Regressionstests auf Gold‑Sets vor Freigabe.
- Betrieb in Eigenregie: On‑prem Deploy, ohne US‑Cloud‑Abhängigkeit, DSGVO‑konform.
Wichtig: LLMs nicht “im Regelkreis” ohne Fallback platzieren. Entweder asynchron (Tasks, Drafts) oder synchron mit klaren Grenzen: Zeitbudget, Output‑Schema, Abbruch mit Defaultantwort.
5) Testen und Qualitätssicherung für KI‑erweiterte Software
Klassische Tests reichen alleine nicht; wir ergänzen sie um robuste Strategien für nichtdeterministische Komponenten.
a) Contract‑ und Integrationstests vor den Modellen
- Strenge Schemas an allen KI‑Schnittstellen. Tests prüfen: Akzeptanzgrenzen, Fehlerszenarien, Zeitouts, Idempotenz.
- Replay‑Tests: “Golden Traces” von realen Produktionsflüssen, reproduzierbar durchziehbar über neue Versionen.
b) Golden Datasets und Schwellen
- Für Vision/Tabular: Kuratierte Datensätze mit Label‑Qualität. Metriken und Akzeptanzschwellen (z. B. Fehlerrate pro Klasse, Falsch‑Negativ‑Budget).
- Für LLM: Gold‑Fragen mit Referenzantworten und Toleranzregeln (z. B. muss Felder A/B korrekt, Feld C optional). JSON‑Schema validiert Struktur.
c) Metamorphe Tests
- Invarianten statt exakte Antworten: Wenn Eingang X um eine irrelevante Formattierung variiert, darf sich die Entscheidung nicht ändern.
- Adversarial Inputs: Bewusst gestörte, grenzwertige oder bösartige Eingaben (Prompt‑Injection‑Muster, korrodierte Bilder).
d) Nichtdeterminismus eindämmen
- In Tests Temperatur=0, feste Seeds, identische Pre/Post‑Prozesse.
- Output‑Vergleich über Normalisierung (z. B. Whitespace, Sortierung von Arrays).
e) Laufzeit‑Überwachung als Teil der Qualität
- Drift‑Signale: Verteilung der Eingänge, Score‑/Konfidenz‑Verschiebungen, Retrieval‑Trefferqualität.
- SLOs: Latenz, Verfügbarkeit, Fehlerraten, Anteil “Unsicher” mit Eskalation.
- Alarm‑Runbooks: Wer tut was bei Ausfall, Drift, Qualitätsabfall?
6) Schrittweise Migration: Von Regelwerken zu ML ohne Big Bang
a) Dual‑Run mit Arbiter
- Regel und ML laufen parallel; ML liefert Score und Begründung.
- Arbiter entscheidet: Ab Score‑Schwelle und Unkritikalität darf ML entscheiden; sonst Regel oder Mensch.
- Protokollierung: Alle Abweichungen werden geloggt und erklärt (Feature‑Attributionen, Quellen, Konfidenz).
b) Erklärbarkeit praktikabel machen
- Kein “magisches” LLM im Kernprozess. Stattdessen: strukturierte Gründe (Top‑Features, Quelle, Gegenbeispiele).
- Kontrafaktische Checks: “Welche kleine Eingangsänderung hätte die Entscheidung umgekehrt?” – hilfreich für Operatoren.
c) Stilllegung planen
- Wenn ML stabil ist, frieren wir die Regelbasis ein, behalten sie als Fallback und für Regressionsvergleiche.
- Notfall‑Umschaltung bleibt möglich (Feature Flag).
7) Souveränität ist ein Architekturmerkmal, kein Vertragstext
On‑prem ist kein Selbstzweck. Es ist eine Antwort auf konkrete Anforderungen: Daten dürfen das Werk nicht verlassen, Entscheidungen müssen lokal nachvollziehbar sein, Lieferketten müssen kontrollierbar bleiben.
Praktische Konsequenzen:
- Artefakt‑Supply‑Chain: Interne Registry, signierte Images/Modelle, SBOMs, Viren-/Malware‑Scans, Freigabeworkflows. Kein Pull direkt aus dem Internet.
- Air‑gapped Updates: Offline‑Medien mit Prüfsummen, getrennte Staging‑Zone, automatisierte Promotion.
- Secrets & Schlüssel: Interner KMS, kurze Lebenszeiten, kein Hardcoding in Pipelines.
- Zugriff: RBAC nach Mandant/Anlage, keine gemeinsamen Service‑Konten für KI/Legacy.
- Telemetrie lokal: Logs/Metriken/Traces im eigenen Monitoring‑Stack; Export nur aggregiert/entpersonalisiert, wenn überhaupt.
8) Ein 90‑Tage‑Plan für die Nachrüstung
Woche 1–3: Aufnahme & Verträge
- Systemkarten: Pfade, Latenzbudgets, Kritikalität, Datenflüsse.
- Data Contracts: Ein-/Ausgänge für die KI, Versionierung, Fehlerverhalten.
- Gold‑Sets definieren: Relevante Fälle, Negativbeispiele, Bewertungsregeln.
- Threat‑Modell: Missbrauchspfade, Injection, Tool‑Risiken, Datenabflüsse.
Woche 4–6: Technische Hülle
- Sidecar‑Inferenzdienst aufsetzen (Container, API, Observability).
- Anti‑Corruption Layer implementieren; Contract‑Tests grün.
- Shadow‑Mode integrieren; vollständiges Logging (Eingang, Ausgang, Latenz, Konfidenz).
- Für LLM‑Use‑Cases: RAG‑Pipeline minimal aufbauen, on‑prem Vektorspeicher, Prompt‑Templates.
Woche 7–9: Qualität & Governance
- Golden‑Runs, Schwellentuning, metamorphe Tests automatisieren.
- Alpi‑M deployen: Prompt/Tool‑Versionierung, Groundedness‑Checks, Policies aktivieren.
- Runbooks und SLOs definieren; Dashboards für Operatoren.
Woche 10–12: Inkrementeller Rollout
- Canary auf 5–10% in unkritischen Pfaden, Monitoring engmaschig.
- Lessons learned einarbeiten, zweite Canary‑Stufe, Operator‑Training.
- Formale Freigabeprozesse finalisieren, Dokumentation/Model Cards vervollständigen.
Konkrete Integrationsbeispiele aus der Praxis
- Visuelle Qualitätsprüfung in einer Montageanlage:
- Kamera‑Streams bleiben am Edge; Inferenzdienst läuft auf einem Industrie‑PC mit GPU.
- Ereignisbus koppelt die Prüfergebnisse an das MES. Safe‑state: Bei Unsicherheit oder Ausfall bleibt die Linie stehen oder fordert manuelle Prüfung an.
- Regel‑zu‑ML‑Migration über Shadow‑Mode und Klassenspezifische Fehlerraten; ML gewinnt schrittweise Autonomie je nach Risikoklasse.
- Wissensassistenz für Wartungsteams:
- RAG auf internen Handbüchern, Ersatzteillisten, Vorfalltickets. LLM liefert strikt JSON mit Teile‑IDs, Arbeitsanweisungen und Quellen.
- Alpi‑M erzwingt Groundedness, limitiert Tools (z. B. Teile‑Lookup) und protokolliert jede Antwort für Audits.
- Offline‑First: Mobile Clients cachen gesicherte Auszüge, Synchronisation im WLAN der Werkshalle.
Typische Stolperfallen – und wie man sie meidet
- Inline‑LLM ohne Guardrails: Freitext im Kernprozess führt zu unvorhersehbaren Kantenfällen. Lösung: Schema‑Outputs, Fail‑fast, Arbiter.
- Datenvertrags‑Drift: “Nur ein zusätzliches Feld” bricht Inferenz. Lösung: Versionierte Schemas, Backward‑Kompatibilität, Contract‑Tests im CI.
- Vermischung von Trainings‑ und Produktionspipelines: Leckagen erzeugen Scheinqualität. Lösung: Trennung, deterministische Feature‑Berechnung, reproduzierbare Läufe.
- Kein Fallback: KI‑Ausfall legt Linie lahm. Lösung: Safe Defaults, Graceful Degradation, Manuelle Gates.
- Observability als Nachgedanke: Ohne Telemetrie keine Kontrolle. Lösung: Metriken/Logs/Traces von Anfang an, Alpi‑M für LLM‑Workflows.
Warum “on‑prem, DSGVO‑konform, ohne US‑Cloud” kein Dogma, sondern Design ist