Ein minimal belastbarer Produktionspfad:
- Build
- Deterministische Builds mit Containerisierung; Base-Images aus internen Mirrors; SBOM-Erzeugung; Signaturen (cosign/sigstore).
- Trainings- und Evaluationspipelines als Code (Orchestrierung z. B. mit Airflow, Argo Workflows). Keine “Manual Steps” in kritischen Pfaden.
- Evaluate
- Offline-Evaluation mit repräsentativen Edge-Cases; statistische Power berücksichtigen.
- LLM-spezifisch: Halluzinations- und Groundedness-Checks; Retrieval-Evaluierung (z. B. nDCG, Recall@k); Tool-Use-Sicherheitstests (Prompt Injection, Datenabfluss).
- Red-Teaming und Sicherheitsreviews als Pflichtschritt.
- Deploy
- Progressive Rollouts: Shadow, A/B, Canary. Feature-Gates für Nutzersichtbarkeit.
- Ressourcenplanung: GPU/CPU-Sizing, Batch/Streaming-Pfade, Latenzbudgets; vorausschauende Skalierung.
- Disaster-Recovery: Rollback in Minuten, nicht Tagen. Backups von Model Registry, Feature Store, Vector Indexen.
- Operate
- Observability: Metriken (Latenz, Fehlerraten), Daten-/Kontext-Drift, Kosten, Nutzungsmuster. Für LLMs zusätzlich: Prompt-/Response-Logging mit PII-Scrubbing, Tool-Aktionen, Policy-Verletzungen.
- Governance: Genehmigungs-Workflows für neue Modelle/Prompts/Tools; Pflichtfelder für Model Cards und Change-Logs; regelmäßige Audits.
- Lifecycles: Retirements planen, End-of-Life definieren, Archivierung rechtssicher.
Warum viele POCs hier sterben:
- Fehlender Eigentümer im Betrieb (Run) – niemand fühlt sich zuständig.
- Keine Budgetierung für Telemetrie, Sicherheit, GPU-Kapazität – das echte CapEx/OpEx kommt erst nach dem POC.
- Unklare Datenverträge – Input ändert sich, Modell kippt.
- Vendor-Lock-in – der gewünschte souveräne Betrieb ist später technisch oder vertraglich blockiert.
5) Drei Referenzarchitekturen aus der Praxis
A) Visuelle Qualitätsprüfung in der Fertigung (Edge + On-Prem)
- Problem: 2-Sekunden-Latenz, ungeplante Stillstände minimieren, Auditierbarkeit.
- Architektur:
- Edge-Cams -> On-Prem Inferenz-Cluster (Kubernetes) mit GPU-Nodes; Modelle als optimierte Artefakte (TensorRT, OpenVINO).
- Datenpfad zweigeteilt: Online (Inferenz) strikt isoliert; Offline (Training/Drift) mit verzögerter, pseudonymisierter Stichprobe.
- Lineage: Jede Entscheidung referenziert Modell-Hash, Datensatz-ID, Konfig-Commit; lokal signierte Logs.
- Trade-offs: Maximale Souveränität und Latenzfestigkeit vs. begrenzte Elastizität. Lösung: Kapazitätsplanung + Burst nur für nicht sensible Trainingsjobs in souveräner Cloud – nie für Live-Inferenz.
B) On-Prem RAG für Wartung und Instandhaltung (Bahn, Maschinenbau)
- Problem: Zugriff auf vertrauliche Handbücher, Variantenstand, Service-Historien; keine Datenabflüsse; nachvollziehbare Antworten.
- Architektur:
- Dokumenten-Pipeline: Parsing (lokal), semantische Segmentierung, Embeddings on-prem, Vektorindex (z. B. pgvector oder Milvus) in der Sicherheitszone.
- LLM-Inferenz lokal (gguf-quantisierte Modelle oder vLLM/TensorRT-LLM). Prompt- und Tool-Policies enforcebar (OPA).
- Telemetrie: Prompt-/Response-Logs mit PII-Scrubbing; Faithfulness-Scoring offline; Zitierpflicht (Quellen-Attribution).
- Trade-offs: Kleinere Modelle, dafür Datenhoheit; Qualität wird über gutes Retrieval, Domänen-Prompts und Evaluation erreicht – nicht über das “größtmögliche Modell”.
C) Air-gapped LLM-Agenten im sicherheitskritischen Umfeld (Defense/OT)
- Problem: Kein externes Netzwerk, nur whitelisted Tools; strikte Command- und Action-Policies; vollständige Nachvollziehbarkeit.
- Architektur:
- Air-gapped K8s-Cluster; Artefakte via signierten, geprüften Offline-Medien; SBOM-Prüfung am Import-Gateway.
- Agenten-Sandbox (z. B. gVisor/Firecracker); Tools als explizite, signierte Plugins mit deklarativen Rechten; Human-in-the-Loop für irreversible Aktionen.
- Evidenzspeicher: Append-only, signierte Events (WORM-Storage); periodische Reviews.
- Trade-offs: Höchste Sicherheit vs. Entwicklungs- und Wartungsaufwand. Dafür echte Zertifizierbarkeit.
6) Build vs. Buy und die Cloud-Frage – nüchtern betrachtet
- API-first (externe LLM-Services)
- Pro: Geschwindigkeit, Qualität out-of-the-box.
- Contra: Datenabflussrisiko, Jurisdiktionsrisiko, unklare Reproduzierbarkeit, volatile Kosten, eingeschränkte Auditierbarkeit.
- Geeignet: Unkritische Use Cases mit nicht sensiblen Daten und klarer Entkopplung.
- On-Prem/ Sovereign Cloud
- Pro: Kontrolle, Reproduzierbarkeit, klare Kostensteuerung, Auditfähigkeit.
- Contra: Anfangsinvest, eigene Betriebsverantwortung, Talentbedarf.
- Geeignet: Alles mit personenbezogenen, vertraulichen oder sicherheitskritischen Daten – also der Großteil industrieller Kernprozesse.
TCO-Perspektive:
- Hardware: GPU-Verfügbarkeit, Lifecycle (3–5 Jahre), Ersatzteile, Treiber/ROCm/CUDA-Kompatibilität.
- Betrieb: Plattform (K8s), Observability, Security-Tooling, Patch-Management.
- Modelle: Feintuning-Kosten, Evaluierung, Red-Teaming, periodische Re-Trainings.
- Lock-in-Kosten: Späterer Exit aus proprietären APIs ist teurer als frühe Souveränität. Die Frage ist nicht, ob Sie zahlen – sondern wann und wofür.
7) Governance und Observability für LLMs und Agenten
LLM-Systeme sind dynamische, nichtdeterministische Komponenten. Ohne Governance riskieren Sie Kostenexplosion, Datenabfluss und Compliance-Verstöße.
Was verpflichtend ist:
- Telemetrie mit Datenschutz: Prompt-/Response-Logs mit PII-Redaktion; Tool-Use-Events; Kosten und Latenzen; Policy-Verstöße; Sampling für Qualitätsreviews.
- Policies als Code: Welche Tools dürfen auf welche Daten? Wer darf neue Prompts/Tools einführen? Welche Ausgaben sind verboten? Maschinenlesbar und testbar (OPA/Rego).
- Evaluierung im Betrieb: Periodische Benchmarks, Drift-Erkennung; qualitative Review-Schleifen; Regressionstests für Prompts, Retriever und Tools.
- Sicherheit: Secret-Handling zentral (KMS/Vault); Sandboxing von Tools; Network Egress Control; Signierte Artefakte; SBOM für Modelle und Pipelines.
- Human-in-the-Loop: Definierte “Hold”-Zustände für riskante Aktionen; Eskalationspfade; Erklärbarkeit für Business-Owner.
8) Wenn Sie nur 90 Tage hätten: ein realistischer Fahrplan
- Woche 1–2: Problemdefinition schärfen, NFRs dokumentieren, Datenklassifizierung, Verantwortliche benennen. Entscheidung: Souveränitätslevel (on-prem/hybrid).
- Woche 3–4: Datenverträge aufsetzen; minimalen Datenfluss aufbauen; Lineage/Versionierung aktivieren.
- Woche 5–6: Baseline ohne KI (Rule-based/Search). Daran wird KI gemessen. Erst dann Prototyp eines Modells.
- Woche 7–8: Reproduzierbare Pipeline (Build/Eval/Deploy), Modell-Registry, signierte Artefakte, Observability-Grundgerüst.
- Woche 9–10: Offline-Evaluation mit echten Edge-Cases; Red-Teaming; Datenschutzprüfung; Security-Review.
- Woche 11–12: Shadow-Deployment in echter Umgebung; Canary mit klaren Abbruchkriterien; Betriebsdokumentation und Runbooks.