- On-Prem-Kubernetes als Control Plane:
- Isolierte Cluster (ggf. Air-Gapped) für Ingestion, Training, Inferenz; Netzsegmentierung per Zero-Trust-Prinzip.
- Artifact Registry, Container-Signing, Image-Vetting im eigenen Netz.
- Open-Weight-Modelle und lokale Inferenz:
- Konventionelle ML: Scikit-learn/XGBoost-Servierung via REST/gRPC auf CPU/GPU je nach Latenz/SLA.
- Deep Learning: TensorRT/ONNX Runtime; GPU Scheduling (MIG/Time-Slicing), P99-Latenz im Budget validieren.
- LLM/RAG: vLLM/Text Generation Inference on-prem; Vektorstore lokal (pgvector, Weaviate, Qdrant). Keine Prompt-/Embedding-Daten nach außen.
- Schlüsselmanagement und Audit:
- HSM/KMS on-prem, mandatorische Audit-Logs für Modellaufrufe, Tool-Calls, Prompt/Context-Hash, Entscheidungspfade.
- Unveränderliche Log-Speicherung (WORM), damit Vorfälle gerichtsfest nachvollziehbar sind.
- Datenpfade „privacy by design“:
- Pseudonymisierung an der Quelle, Datenminimierung standardmäßig.
- Zugriff über Rollen, Attribute-Based Access Control, Trennung von Duties (Dev vs. Ops vs. Data Steward).
- Evaluation und Governance im eigenen Netz:
- Offline-Eval-Harness, Red-Teaming, Policy-Checks (z. B. Safety-Regeln, Domain-Guardrails) ohne Drittanbieter.
- Für LLM-Agenten: Tool-Use-Whitelists, kontextbasierte Policies, Kosten- und Zeit-Budgets pro Interaktion, deterministische Replay-Fähigkeit.
Das Ergebnis ist ein Baukasten, der revisionssicher, DSGVO-konform und ohne US-Cloud-„Single Points of Failure“ funktioniert. Ja, das ist mehr Arbeit – aber es ist planbar und beherrschbar.
4) Von PoC zu Produktion: Der schwierige Übergang – Schritt für Schritt
Ein technischer Pfad, wie Sie aus dem PoC-Tal herauskommen.
Reifegradmodell (vereinfacht):
- Stufe 0 – Hypothese: Problemdefinition, Business-KPI, Kostenmatrix, Baseline (Rule-Based/Heuristics), Datenbestandsaufnahme.
- Stufe 1 – Thin-Slice PoC: Ende-zu-Ende-MVP in der Zielumgebung, eng geschnitten, mit echten Nichtfunktionalen Anforderungen (kleines Latency-Budget, minimale Logging-Pflicht, Rollback).
- Stufe 2 – Pilot unter realer Last: Shadow- oder Canary-Deployment; Monitoring für Daten-/Concept-Drift, Latenz, Fehlerraten; definierte Abbruch- und Go-Kriterien.
- Stufe 3 – Produktion: CI/CD für Modelle, Feature-Pipelines, Modellregistry, wiederholbare Retraining-Pfade, Incident-Runbooks, Betreiber-Training.
- Stufe 4 – Skalierung: Cross-Site-Rollout, Feature-Parität online/offline, Kapazitätsplanung, Kostenkontrolle, Audit-Automatisierung.
Technische Leitplanken für Stufe 2–3:
- CI/CD für ML/LLM:
- Dataset-Versionierung (z. B. DVC/LakeFS), reproduzierbare Trainingsjobs (Container + Seeds + Artefakt-Hash).
- Model Registry mit Staging/Prod-Pfaden; Release-Notes pro Modell (Datenänderungen, Metriken, bekannte Limitationen).
- Deployment-Strategien:
- Shadow-Mode (nur beobachten), dann Canary (1–5% Traffic) mit automatischem Rollback.
- Blue/Green für harte SLAs.
- Monitoring jenseits von „Accuracy“:
- Eingabedaten-Qualität (Schema-Drift, Ausreißer), Feature-Drift (PSI/JS-Divergenz), Output-Stabilität, Latenz P50/P95/P99, Auslastung/Backpressure.
- Für Klassifikatoren: Klassenspezifische Recall/Precision, Kostengewichtete Fehlerraten; für Regressoren: MAPE/MAE im Kontext von Prozessfähigkeit (Cp/Cpk).
- Für LLM/RAG: Retrieval-Recall, Kontext-Overlap, Halluzinationsproxies (Antwort-Unsicherheit, Attributionsquote), Tool-Call-Erfolgsraten.
- Betrieb und Sicherheit:
- Least-Privilege-Service-Accounts, Secrets rotieren, signierte Modelle, Supply-Chain-Sicherheit (SBOM).
- Runbooks: „Modell eskaliert“, „Drift erkannt“, „Latenz über Budget“, „Regelverletzung/Policy-Breach“.
- Human-in-the-loop:
- Fail-Open vs. Fail-Closed bewusst wählen. In sicherheitskritischen Flüssen meist Fail-Closed mit manueller Freigabe.
- Feedback-Oberflächen für schnelle Korrekturen, die direkt in Label-Stores fließen.
Akzeptanzkriterien, bevor Sie „Produktion“ sagen:
- Klar definierte Business-KPIs und ein Messplan in der Zielumgebung (vorher/nachher).
- Betriebskonzept mit Ownern (Produkt, Data, MLOps, Security), Bereitschaft, SLAs/SLOs.
- Auditfähige Nachvollziehbarkeit von Trainingsdaten, Modellversion, Konfiguration.
- Rollback in Minuten, nicht in Tagen.
- Budget und Plan für laufendes Monitoring, Feedback, Retraining.
5) Kosten, ROI und wie man den Hebel wirklich misst
KI rechnet sich nicht durch Accuracy, sondern durch vermiedene Kosten und zusätzliche Erlöse – minus Gesamtbetriebskosten.
- Kostenmatrix zuerst:
- Definieren Sie die Kosten von FP/FN, Verzögerungen, falschen Interventionen. Beispiel Produktionsqualität: Ein False Negative (Fehler übersehen) kann 100× teurer sein als ein False Positive (unnötige Nachprüfung).
- Baseline und Gegenfakt:
- Messen Sie die Ausgangslage (Regelbasierte Systeme, manuelle Prüfung). Nur dann kann man signifikante Änderungen robust nachweisen.
- Messhorizont:
- Kurzfristig: Prozessmetriken (Durchlaufzeiten, Fehlerquote).
- Mittelfristig: OEE, Ausfallzeiten, Wartungskosten.
- Langfristig: Garantie-/Claim-Rate, Kundenzufriedenheit, Compliance-Risiken.
- TCO realistisch kalkulieren:
- Hardware (GPU/Edge), Energie, Wartung, Datenanreicherung/Labeling, MLOps-Personal, Audits/Compliance, Softwarepflege, Modellupdates.
- Cloud-Exit-Kosten, falls initial doch externe Dienste verwendet wurden.
- Stage-Gates mit Kill-Kriterien:
- Definieren Sie vorab, was zum Abbruch führt (z. B. schlechter als Baseline bei Kostenmetriken, Monitoring-Aufwand übersteigt Nutzen, Souveränitätsrisiko unlösbar).
- Viele kleine, rückbaubare Wetten schlagen eine große „Moonshot“-Wette.
Konkrete Architektur-Patterns pro Anwendungsfall