Europäische Industrieunternehmen brauchen Souveränität. Nicht aus Prinzip, sondern aus Risiko- und Kostenlogik:

  • Rechtliche Risiken: Personenbezug, Betriebsgeheimnisse, Lieferketten- und Exportthemen. Ein ungeprüfter Drittlandtransfer kann Projekte stoppen – oder Jahre später sehr teuer werden.
  • Wirtschaftliche Risiken: Vendor Lock-in und Preisschwankungen. Betriebsmodelle müssen TCO-kalkulierbar bleiben.
  • Operative Risiken: Abhängigkeit von externer Verfügbarkeit und API-„Policy Drift“ (geänderte Nutzungsbedingungen, Rate Limits).

Technisches Zielbild für souveräne KI (on-prem/sovereign cloud):

  • Rechenebene: Kubernetes-Cluster mit separaten Pools für CPU/GPU. Scheduling mit Ressourcenquoten, Fairness, Preemption Policies. Container-Images deterministisch gebaut (SBOM, reproducible builds).
  • Speicher: Objekt-Storage (MinIO) mit Bucket-Policies, Versionierung, WORM sofern nötig. Block-/File für Low-Latency (Ceph).
  • Datenverarbeitung: Spark/Flink for batch/stream, Airflow/Kestra für Orchestrierung. Data Contracts durchgesetzt via CI.
  • Identität & Policy: Keycloak (OIDC), Vault (Secrets), OPA/Gatekeeper (Policies as Code), Netzwerksegmente (Zero Trust, mTLS).
  • ML/MLOps: MLflow (Registry), Feast (Feature Store), Prometheus/Grafana (Monitoring), EFK-Stack (Logs).
  • LLM-spezifisch:
  • Modelle: In-house gehostete LLMs (z. B. Llama, Mixtral) mit quantisierten Inferenzen (INT8/FP16 je nach Latenz/Präzision).
  • RAG: On-prem Vektorindex, striktes Retrieval-Fenster, Document-Access-Policies bis auf Attributebene.
  • Agenten: Tool-Use nur via freigegebene Adapter mit Sidecar-Policy. Jede Aktion ist zweiphasig: Plan -> Review -> Commit. Kein direkter Zugriff auf produktive Systeme ohne Gate.

Observability & Governance für LLM/Agenten ist Pflicht:

  • Telemetrie: Jede Prompt-/Tool-Call-Kette als Event-Log mit Korrelation-ID. Metriken: Halluzinationsrate (über Benchmarks), Retrieval-Hitrate, Policy-Violations, Tool-Success-Rate.
  • Policies als Code: Verbote (z. B. keine PII-Ausgaben), PII-Detektoren, Regex/NLP-basierte DLP, Rate Limits pro Identität, Kontextfensterbegrenzung.
  • Reproduzierbarkeit: Prompt- und Kontextversionierung, deterministische Seeds, Modellhashes. Ohne das ist Root-Cause-Analysis unmöglich.
  • Human-in-the-Loop: Risikobasierte Freigaben; bei Score > Threshold muss ein Mensch bestätigen. Audit-Logs sind exportierbar.

Teil 4: Von POC zu Produktion – warum der Übergang hart ist

Der Bruch verläuft entlang dieser Kanten:

1) Notebook -> Service

  • POC: Jupyter, manuelles Feature-Engineering, ad-hoc Daten.
  • Produktion: Wiederholbare Pipelines, Tests, Container, CI/CD.
  • Umsetzung: Test-Pyramide für ML (Unit-Tests auf Transformationslogik, Data-Contract-Tests, Offline-Evals gegen Holdout, E2E-Tests mit synthetischen Störungen). Packaging mit Poetry/uv, Images mit pinned Dependencies.

2) Offline-Metrik -> Online-Servicequalität

  • POC: ROC-AUC sieht gut aus.
  • Produktion: SLA/SLOs (Latenz p95, Availability, Freshness, Degradation-Strategy). Beispiel: Fällt die Inferenz aus, greift heuristische Fallback-Regel, damit die Linie nicht steht.

3) Statische Daten -> Driftende Realität

  • POC: Snapshot-Daten.
  • Produktion: Rolling-Window-Training, Data-Quality Gates, Canary/Shadow.
  • Umsetzung: Shadow-Inferenz über echte Live-Daten, keine Entscheidungen. Vergleich gegen produktives Modell, Signifikanztests. Bei Stabilität -> Canary mit 5% Traffic -> Ramp-up.

4) Einzelteam -> Betriebsschnittstellen

  • POC: Ein Data-Scientist, ein Domänenexperte.
  • Produktion: Betrieb/IT, Security, Datenschutz, Betriebsrat.
  • Umsetzung: RACI-Klärung, Change-Management, Runbooks, 24/7-Bereitschaft dort, wo der Business-Impact es erfordert.

Eine praxistaugliche Übergangs-Checkliste:

  • Problem: Explizite Kostenfunktion, Decision Boundary, Trust-Kriterien.
  • Daten: Vertraglich fixiert, Qualitätstests automatisiert, Lineage nachvollziehbar.
  • Modell: Versioniert, reproduzierbar, mit Offline-Eval gegen geschäftsrelevante Metriken.
  • Service: Containerisiert, Observability (Logs/Metrics/Traces), Fallbacks.
  • Sicherheit/Compliance: Policies implementiert, Audits bestanden.
  • Rollout: Shadow -> Canary -> General Availability, mit Rollback-Plan.

Teil 5: Entscheidungsrahmen – nicht alles bauen, aber das Richtige besitzen

  • Cloud vs. On-Prem:
  • Wenn Datenhoheit, Latenz, oder rechtliche Klarheit Pflicht sind: On-Prem oder souveräne Cloud. Rechnen Sie TCO inklusive Egress, Langläufer-Inferenz und erwarteter Skalierung. Cloud ist exzellent für variable Forschungslasten; Produktion mit planbaren Lasten ist on-prem oft berechenbarer.
  • Feinabstimmung vs. Retrieval (RAG):
  • Domänensprache und Stil -> Fine-Tuning sinnvoll.
  • Volatile Faktenlage, Dokumentenwissen -> RAG. Oft reicht Instruct-Feintuning plus gutes Retrieval.
  • Edge vs. Zentrale:
  • Safety-kritische kurze Pfade -> Edge.
  • Analyse und Fleet-Learning -> Zentrale.
  • Build vs. Buy:
  • Differenzierende Fähigkeiten (z. B. domänenspezifische Prüfalgorithmen) bauen.
  • Undifferenzierte Capabilities (CI/CD, Observability, Policy-Rahmen) integrieren, aber so, dass Sie die Daten und Policies besitzen.

Teil 6: Minimal Viable AI – ein Blueprint, der hält

Wählen Sie eine einzige Entscheidung mit hohem Hebel:

  • Beispiel Fertigung: „Stoppe Linie automatisch, wenn Defektklasse A mit P(FEHLER) > 0,98 detektiert wird – sonst menschlicher Review in < 30 s.“
  • So schneiden Sie:

1) Daten: 3 repräsentative Linien, 3 Schichten, 4 Wochen – mit Label-Workshop zur einheitlichen Semantik. Data Contract mit Bildauflösung, Licht-Setup, Takt.
2) Metriken: Cost-weighted Precision/Recall, Latenz p95, Review-Zeit, False-Stop-Kosten.
3) Architektur: Kamera -> Edge-Inferenz (INT8-Quantisierung, TensorRT) -> Event an Kafka -> Gate-Service (Rules + Model Score) -> SPS-Adapter (OPC UA Method Call) -> Audit-Log.
4) Governance: Kein Export von Rohbildern aus der Zone; Pseudonymisierung, Retention 30 Tage, Rollenrechte in Keycloak.
5) Betrieb: Shadow für 2 Wochen, dann Canary 10%, wöchentlicher Drift-Report. Kill-Switch definiert.
6) Erfolgskriterium: Reduktion Fehlteile um X, < Y Fehlstopps/Monat, < Z s Reviewzeit. Wenn verfehlt: Ursachenanalyse mit Telemetrie, nicht Bauchgefühl.

LLM-/Agenten-spezifische Ergänzung:

  • Use-Case: Techniker-Support. RAG auf freigegebenen Wartungshandbüchern, Tool-Adapter für Ersatzteil-Suche. Policy: Kein freier Webzugriff, keine PII-Ausgabe. Observability: Jede Tool-Kette geloggt, Halluzinations-Bench regelmäßig, Feedback-Knopf im UI. Human-in-the-Loop für Bestellungen > Schwellenwert.

Teil 7: Was Sie morgen tun können