Imported Post 2026-05-07 00:12:14

Modelle
Start pragmatisch: Gradient Boosting/Isolation Forest mit interpretierbaren Features. Deep Learning erst, wenn Latenz/Budget es erlauben.
Re-Train: Trigger via Konzeptdrift (KS-Test, PSI) und Ground-Truth-Delays (Wartungs-Tickets).

Serving
Low-latency Serving über Triton/KServe; Inferenz unter 50 ms P95, inkl. Feature-Berechnung.
Alarm-Workflow: Score > Threshold → Ticket in MES/EAM mit erklärenden Features; Feedback-Button für Operatoren (True/False Alarm).

Governance
SLA: Alarm-Recall > X%, Precision > Y%; SLO-Monitoring im Dashboard.
Change-Management: Canary auf 10% der Maschinen, automatischer Rollback bei SLO-Verletzung.

Souveränität ist keine Optionstaste: Architekturentscheidungen unter europäischen Randbedingungen

DSGVO/Datensouveränität
Datenresidenz: Kein Transfer außerhalb des EWR. Modelle lokal. Logs ohne PII. Zweckbindung und Aufbewahrung technisch erzwungen.
Zugriff: RBAC/ABAC via Keycloak, Attributbasiert (Standort, Rolle, Zweck). Alle Entscheidungen auditiert.

US CLOUD Act/Vendor-Lock-in
Risiko: Verwaltungszugriffe durch außereuropäische Anbieter sind Compliance-Risiken. Minimieren durch EU-Hoster oder On-Prem.
Architektonischer Hebel: OSS-First (K8s, MinIO, Iceberg, Feast, MLflow, Qdrant) statt proprietärer Monolithen. Austauschbarkeit ist Teil der Strategie.

On-Prem Compute
GPU-Planung: Kapazität pro Anwendungsfall (Tokens/s, Batchgrößen, Quantisierung). Für LLM-RAG reichen oft wenige A100/H100/RTX 6000 Ada, wenn Architektur stimmt.
Scheduling: K8s mit Node-Labels für GPU/CPU, PodDisruptionBudgets, MIG/NVML Monitoring.
Netzwerk: Ost-West-Verschlüsselung, mTLS zwischen Services, Service Mesh nur wenn nötig (Overhead beachten).

Air-gapped Betrieb
Artefakt-Supply-Chain: Signierte Container, Reproducible Builds, SBOM (Software Bill of Materials).
Update-Frequenz: Klare Cadence (z. B. monatlich), Out-of-band Hotfix-Prozess für CVEs.

Von PoC zu Produktion: Die Checkliste, die die meisten überspringen

Data SLAs live schalten: Freshness, Completeness, Schema-Drift-Alerts. PagerDuty/On-Call für Daten, nicht nur für Apps.
CI/CD für Modelle und Prompts:
Unit-Tests für Feature-Code.
Offline-Evals mit Golden Sets.
Property-based Tests für Prompts (keine PII-Leakage, kein “Make up facts”).
Canary Deployment mit Shadow Traffic.
Sicherheitsgrundlagen: Secrets in Vault, Rotations-Policy, signierte Modelle, Least Privilege für Pipelines.
Dokumentation: Datenkatalog-Einträge verpflichtend, Onboarding-Notebooks, Runbooks für Incidents.
Betriebskennzahlen: Kosten pro Anfrage, GPU-Auslastung, Tokens pro Antwort, Speicherkosten pro TB, Embedding-Throughput. Ohne Kostentelemetrie gibt es keinen ROI.

Entscheidungsrahmen: Build vs Buy, zentral vs föderiert

Minimal Viable Platform (12–16 Wochen)
K8s-Cluster (RKE2/Openshift), MinIO, Kafka/Redpanda, Iceberg/Delta + Trino, MLflow, Feast, Qdrant/pgvector, Airflow/Argo, Keycloak, Vault, OpenTelemetry + Grafana/Prometheus.
Zwei Produktpfade: “Docs→RAG” und “Sensor→Prediction”. Alles andere ist Ablenkung.
Data Mesh vs Zentral
Früh zentral, domänennahes Operating: Zentrales Team stellt Plattform, Domänenteams ownen Data Products. Vollständiges Mesh erst, wenn Reife da ist.
Buy wo es repetitiv ist
Hardware, MDM, ETL-Connectors, Compliance-Scans. Build wo Differenzierung entsteht: Feature-Engineering, Domain-LLMs, Decisioning-Workflows, Evaluationsharness.
EU-Cloud vs On-Prem
Wenn Datenklassifizierung “intern”/“öffentlich” und Latenz unkritisch: EU-Cloud ok. Bei “vertraulich/geheim”, Produktionsnähe, Exportkontrollen: On-Prem/Air-gapped.

Wie man in 90 Tagen Substanz schafft (ohne Marketing-Folien)

Woche 1–2: Scoping und Inventur

Ein Use Case, eine Kennzahl, ein Prozess. Owner mit Budget.

Dateninventur: Quellen, Schemas, Zugriffe, Datenschutzklassifizierung.

NFRs festlegen: Latenz, Verfügbarkeit, Audit, Kostenkorridor.

Woche 3–6: Backbone und Thin Slice

K8s-Cluster, MinIO, Kafka, Iceberg/Delta, Trino, Keycloak, Vault.

Ingestion-Pipeline für genau eine Quelle (CDC oder OPC UA) mit Data Contract.

Katalogeintrag, Lineage, Data Quality Checks.

Thin-Slice-Produkt:

Entweder: RAG mit 500 Dokumenten, Evals + Audit.

Oder: Streaming-Score auf 1 Maschine, mit Alarm-Workflow ins EAM/MES.

Woche 7–10: Härtung und Observability

CI/CD, Canary, Rollback.

Drift-Metriken, Business-Dashboards (SLOs).

Sicherheitsreview, Pen-Test-Light, Secrets-Rotation.

Woche 11–12: Go/No-Go und Scale-Plan

Abnahmekriterien: SLOs grü n, Audit komplett, Kosten im Korridor.

Plan zum Hochskalieren (Nutzer/Maschinen x10), Konsequenzen für Compute/Storage.

Häufige Anti-Pattern (bitte nicht)

Prompt-Engineering ohne Datenfundament: führt zu Demo-Effekt, keine Produktion.
ETL per Notebook: nicht reproduzierbar, nicht betreibbar.
Unversionierte Dokumente im RAG: Antworten ohne Quelle sind Compliance-Risiko.
“Wir fine-tunen das Modell, dann wird’s schon”: Meist überflüssig. Erst RAG sauber aufsetzen.
Evaluationsverzicht: “Sieht gut aus” ist keine Metrik.

Wann Fine-Tuning, wann RAG?

RAG zuerst: Wenn Wissen in Dokumenten/Tabellen steckt und sich ändert. Vorteile: Aktualität, Nachvollziehbarkeit, geringe Compute-Kosten.
Fine-Tuning:
Für Stil/Policy: Lightweight (LoRA) reicht oft.
Für domänenspezifische Terminologie nur, wenn RAG nicht reicht und Datenmenge + Labelqualität hoch sind.
Hybrid: RAG für Fakten, kleines Policy-Finetune für Tonalität/Sicherheitsvorgaben.

Sicherheits- und Compliance-Grundlagen für LLM/ML on-prem

Datenflussdiagramm und DPIA früh: Welche Daten wohin, wer greift zu, Retention.
Output-Filter: PII-Redaktion, DLP-Scanner am Ausgang.
Zugriffspfade versiegeln: Kein “Testzugang” mit Adminrechten, keine Outbound-Calls aus Air-Gap.
Auditierbarkeit: Jede Antwort muss auf Eingaben und Datenstände zurückführbar sein. WORM-Logging.

Was “messbarer Nutzen” konkret heißt

Technische Metriken: Latenz, Verfügbarkeit, Fehlerquoten, Drift-Indikatoren.
Produktmetriken: Ersparnis pro Fall, vermiedene Stillstandszeit, Erstlösungsquote, NPS für interne Nutzer.
Finanzmetriken: Kosten/1000 Anfragen, GPU-Stunden/Tag, Speicherkosten/TB/Monat.
Entscheidungsregeln: Kill-Switch bei SLO-Verletzung, Stage-Gates für Investitionsfreigaben.

Fazit

KI kennt Ihr Business nicht. Ihre Sensorik, Ihre Richtlinien, Ihre Prozesse sind der eigentliche “Moat”—und der liegt in Ihrer Datenarchitektur. Wer zuerst Data Contracts, Transport, Lakehouse-Governance und betreibbare Nutzungswege (Feature-Store, RAG, Serving, Observability) baut, liefert in 90–120 Tagen substanzielle Ergebnisse—souverän, DSGVO-konform, skalierbar. Wer mit Modellen anfängt, liefert Demos.

FAQ