• Modelle
  • Start pragmatisch: Gradient Boosting/Isolation Forest mit interpretierbaren Features. Deep Learning erst, wenn Latenz/Budget es erlauben.
  • Re-Train: Trigger via Konzeptdrift (KS-Test, PSI) und Ground-Truth-Delays (Wartungs-Tickets).
  • Serving
  • Low-latency Serving über Triton/KServe; Inferenz unter 50 ms P95, inkl. Feature-Berechnung.
  • Alarm-Workflow: Score > Threshold → Ticket in MES/EAM mit erklärenden Features; Feedback-Button für Operatoren (True/False Alarm).
  • Governance
  • SLA: Alarm-Recall > X%, Precision > Y%; SLO-Monitoring im Dashboard.
  • Change-Management: Canary auf 10% der Maschinen, automatischer Rollback bei SLO-Verletzung.

Souveränität ist keine Optionstaste: Architekturentscheidungen unter europäischen Randbedingungen

  • DSGVO/Datensouveränität
  • Datenresidenz: Kein Transfer außerhalb des EWR. Modelle lokal. Logs ohne PII. Zweckbindung und Aufbewahrung technisch erzwungen.
  • Zugriff: RBAC/ABAC via Keycloak, Attributbasiert (Standort, Rolle, Zweck). Alle Entscheidungen auditiert.
  • US CLOUD Act/Vendor-Lock-in
  • Risiko: Verwaltungszugriffe durch außereuropäische Anbieter sind Compliance-Risiken. Minimieren durch EU-Hoster oder On-Prem.
  • Architektonischer Hebel: OSS-First (K8s, MinIO, Iceberg, Feast, MLflow, Qdrant) statt proprietärer Monolithen. Austauschbarkeit ist Teil der Strategie.
  • On-Prem Compute
  • GPU-Planung: Kapazität pro Anwendungsfall (Tokens/s, Batchgrößen, Quantisierung). Für LLM-RAG reichen oft wenige A100/H100/RTX 6000 Ada, wenn Architektur stimmt.
  • Scheduling: K8s mit Node-Labels für GPU/CPU, PodDisruptionBudgets, MIG/NVML Monitoring.
  • Netzwerk: Ost-West-Verschlüsselung, mTLS zwischen Services, Service Mesh nur wenn nötig (Overhead beachten).
  • Air-gapped Betrieb
  • Artefakt-Supply-Chain: Signierte Container, Reproducible Builds, SBOM (Software Bill of Materials).
  • Update-Frequenz: Klare Cadence (z. B. monatlich), Out-of-band Hotfix-Prozess für CVEs.

Von PoC zu Produktion: Die Checkliste, die die meisten überspringen

  • Data SLAs live schalten: Freshness, Completeness, Schema-Drift-Alerts. PagerDuty/On-Call für Daten, nicht nur für Apps.
  • CI/CD für Modelle und Prompts:
  • Unit-Tests für Feature-Code.
  • Offline-Evals mit Golden Sets.
  • Property-based Tests für Prompts (keine PII-Leakage, kein “Make up facts”).
  • Canary Deployment mit Shadow Traffic.
  • Sicherheitsgrundlagen: Secrets in Vault, Rotations-Policy, signierte Modelle, Least Privilege für Pipelines.
  • Dokumentation: Datenkatalog-Einträge verpflichtend, Onboarding-Notebooks, Runbooks für Incidents.
  • Betriebskennzahlen: Kosten pro Anfrage, GPU-Auslastung, Tokens pro Antwort, Speicherkosten pro TB, Embedding-Throughput. Ohne Kostentelemetrie gibt es keinen ROI.

Entscheidungsrahmen: Build vs Buy, zentral vs föderiert

  • Minimal Viable Platform (12–16 Wochen)
  • K8s-Cluster (RKE2/Openshift), MinIO, Kafka/Redpanda, Iceberg/Delta + Trino, MLflow, Feast, Qdrant/pgvector, Airflow/Argo, Keycloak, Vault, OpenTelemetry + Grafana/Prometheus.
  • Zwei Produktpfade: “Docs→RAG” und “Sensor→Prediction”. Alles andere ist Ablenkung.
  • Data Mesh vs Zentral
  • Früh zentral, domänennahes Operating: Zentrales Team stellt Plattform, Domänenteams ownen Data Products. Vollständiges Mesh erst, wenn Reife da ist.
  • Buy wo es repetitiv ist
  • Hardware, MDM, ETL-Connectors, Compliance-Scans. Build wo Differenzierung entsteht: Feature-Engineering, Domain-LLMs, Decisioning-Workflows, Evaluationsharness.
  • EU-Cloud vs On-Prem
  • Wenn Datenklassifizierung “intern”/“öffentlich” und Latenz unkritisch: EU-Cloud ok. Bei “vertraulich/geheim”, Produktionsnähe, Exportkontrollen: On-Prem/Air-gapped.

Wie man in 90 Tagen Substanz schafft (ohne Marketing-Folien)

Woche 1–2: Scoping und Inventur

  • Ein Use Case, eine Kennzahl, ein Prozess. Owner mit Budget.
  • Dateninventur: Quellen, Schemas, Zugriffe, Datenschutzklassifizierung.
  • NFRs festlegen: Latenz, Verfügbarkeit, Audit, Kostenkorridor.

Woche 3–6: Backbone und Thin Slice

  • K8s-Cluster, MinIO, Kafka, Iceberg/Delta, Trino, Keycloak, Vault.
  • Ingestion-Pipeline für genau eine Quelle (CDC oder OPC UA) mit Data Contract.
  • Katalogeintrag, Lineage, Data Quality Checks.
  • Thin-Slice-Produkt:
  • Entweder: RAG mit 500 Dokumenten, Evals + Audit.
  • Oder: Streaming-Score auf 1 Maschine, mit Alarm-Workflow ins EAM/MES.

Woche 7–10: Härtung und Observability

  • CI/CD, Canary, Rollback.
  • Drift-Metriken, Business-Dashboards (SLOs).
  • Sicherheitsreview, Pen-Test-Light, Secrets-Rotation.

Woche 11–12: Go/No-Go und Scale-Plan

  • Abnahmekriterien: SLOs grü n, Audit komplett, Kosten im Korridor.
  • Plan zum Hochskalieren (Nutzer/Maschinen x10), Konsequenzen für Compute/Storage.

Häufige Anti-Pattern (bitte nicht)

  • Prompt-Engineering ohne Datenfundament: führt zu Demo-Effekt, keine Produktion.
  • ETL per Notebook: nicht reproduzierbar, nicht betreibbar.
  • Unversionierte Dokumente im RAG: Antworten ohne Quelle sind Compliance-Risiko.
  • “Wir fine-tunen das Modell, dann wird’s schon”: Meist überflüssig. Erst RAG sauber aufsetzen.
  • Evaluationsverzicht: “Sieht gut aus” ist keine Metrik.

Wann Fine-Tuning, wann RAG?

  • RAG zuerst: Wenn Wissen in Dokumenten/Tabellen steckt und sich ändert. Vorteile: Aktualität, Nachvollziehbarkeit, geringe Compute-Kosten.
  • Fine-Tuning:
  • Für Stil/Policy: Lightweight (LoRA) reicht oft.
  • Für domänenspezifische Terminologie nur, wenn RAG nicht reicht und Datenmenge + Labelqualität hoch sind.
  • Hybrid: RAG für Fakten, kleines Policy-Finetune für Tonalität/Sicherheitsvorgaben.

Sicherheits- und Compliance-Grundlagen für LLM/ML on-prem

  • Datenflussdiagramm und DPIA früh: Welche Daten wohin, wer greift zu, Retention.
  • Output-Filter: PII-Redaktion, DLP-Scanner am Ausgang.
  • Zugriffspfade versiegeln: Kein “Testzugang” mit Adminrechten, keine Outbound-Calls aus Air-Gap.
  • Auditierbarkeit: Jede Antwort muss auf Eingaben und Datenstände zurückführbar sein. WORM-Logging.

Was “messbarer Nutzen” konkret heißt

  • Technische Metriken: Latenz, Verfügbarkeit, Fehlerquoten, Drift-Indikatoren.
  • Produktmetriken: Ersparnis pro Fall, vermiedene Stillstandszeit, Erstlösungsquote, NPS für interne Nutzer.
  • Finanzmetriken: Kosten/1000 Anfragen, GPU-Stunden/Tag, Speicherkosten/TB/Monat.
  • Entscheidungsregeln: Kill-Switch bei SLO-Verletzung, Stage-Gates für Investitionsfreigaben.

Fazit

KI kennt Ihr Business nicht. Ihre Sensorik, Ihre Richtlinien, Ihre Prozesse sind der eigentliche “Moat”—und der liegt in Ihrer Datenarchitektur. Wer zuerst Data Contracts, Transport, Lakehouse-Governance und betreibbare Nutzungswege (Feature-Store, RAG, Serving, Observability) baut, liefert in 90–120 Tagen substanzielle Ergebnisse—souverän, DSGVO-konform, skalierbar. Wer mit Modellen anfängt, liefert Demos.

FAQ