Kritische Aspekte, die man sauber lösen muss:
- Datentransfer: Große Datensätze nicht blind migrieren. Arbeiten Sie mit extrahierten, kuratierten, anonymisierten Trainingsschnappschüssen. Caching-Nodes nahe am Trainings-Cluster sind Pflicht.
- Reproduzierbarkeit: Infrastructure-as-Code (Terraform), Images pinnen, Treiber/CUDA-Versionen deterministisch. Sonst sind “es lief gestern noch”-Effekte vorprogrammiert.
- Kostenkontrolle: Quotas, Budget-Alerting, Egress-Kosten im Blick; dedizierte Projekte/Accounts pro Team.
- Governance: Identity Federation zum Unternehmens-IdP, Logs zentral sichern, Secrets nie in Managed-Notebooks, Policies als Code.
5) Hybrid: das Muster, das in der Industrie am häufigsten trägt
Rein On-Prem oder rein Cloud sind die Extreme. Die robuste Mitte:
- Datenhaltung, Inferenz und regelmäßiges Retraining On-Prem; große seltene Trainingsläufe (z. B. Pretraining, umfangreiche Architektur-Sweeps) als Cloud-Burst.
- Daten fließen nie im Rohformat in die Cloud, sondern als kuratierte, rechtlich geprüfte Extrakte mit Metadaten und Versionierung.
- Gleiche Toolchain beidseits: Container, Pipeline-Orchestrierung, Experiment-Tracking. Ein Wechsel der Ausführungsumgebung darf kein Neuaufsetzen der MLOps bedeuten.
6) Trainings- und Inferenz-Pipeline: ein präzises Zielbild
Ein robustes Zielbild für CV-/LLM-Workloads:
- Datenebene:
- Rohdaten-Ingestion in einen On-Prem-Objektspeicher, mit Eventing (Kafka) und ETL-Jobs (Spark/Flink/Beam) für Kuratierung.
- LakeFS/DVC für Versionslinien (train/dev/test), Data Contracts pro Upstream-System.
- Trainings-Orchestrierung:
- Argo/Airflow triggert containerisierte Trainingsjobs (PyTorch/TensorFlow) auf K8s mit Volcano/Kueue oder auf Slurm.
- Checkpointing in Objektspeicher, Requeue bei Preemption (auch wichtig für Spot-Cloud).
- Experiment-Tracking mit MLflow; Artefakte (Tokenizers, Preprocessing-Code, Scaler) als “First-Class Citizens”.
- Modell-Freigabe:
- Automatisierte Validierung gegen Golden Datasets und Out-of-Distribution-Checks.
- Signierter Promote in die Modell-Registry mit Governance-Metadaten (Datenherkunft, DS/QA-Freigaben, Gültigkeitsbereich).
- Inferenz:
- LLM-Serving über vLLM/TensorRT-LLM/Text Generation Inference, CV-Inferenz über Triton Inference Server.
- Blau/Grün-Deployment, Shadow-Mode, Canary mit Telemetrie.
- End-to-End-Tracing bis auf Datensatz- und Prompt-Ebene; Auditierbarkeit ist kein Nice-to-have.
- Monitoring:
- Drift-, Data-Quality- und Performance-Metriken; Retraining-Trigger als Politik, nicht als Bauchgefühl.
7) LLM-spezifische Aspekte, die oft unterschätzt werden
- Tokenizer und Vorverarbeitung sind CPU- und I/O-lastig. Planen Sie dafür separate, gut ausgestattete CPU-Knoten nahe an den GPUs.
- Speicher ist König: FSDP/ZeRO/DeepSpeed, Page Attention und Host-Offloading entlasten GPU-RAM, verschieben aber Druck auf NVMe und Netzwerk.
- Quantisierung (INT8/FP8/ggml/gguf) für Inferenz ist Standard, aber messen Sie Auswirkungen auf Antwortqualität domänenspezifisch.
- NCCL-Tuning und Topologie: Heterogene GPU-Generationen im gleichen Job sind Rezept für Instabilität. Homogenität gewinnt.
- MIG für Multi-Tenancy funktioniert gut bis mittel. Für latenzharte LLM-Inferenz dedizierte GPUs oder klare SLO-Klassen bereitstellen.
8) Sicherheits- und Compliance-Backbone
- Supply-Chain: Signierte Container, reproduzierbare Builds, SBOM-Prüfung vor Rollout.
- Secret- und Key-Management On-Prem, keine Secrets in Notebooks oder Pipelines.
- Datenklassifizierung und -maskierung in der Pipeline (Ground Truth, Prompts, Logs). Logs sind Daten – sie enthalten oft PII und Betriebsgeheimnisse.
- Air-Gapped-Betrieb: Offline-Repository-Mirrors, Update-Zyklen mit Freigabeprozess, deterministische Artefaktherkunft.
9) TCO: rechnen, nicht schätzen
Eine belastbare TCO-Rechnung trennt Fakten von Bauchgefühl. Vorgehen:
- On-Prem GPU-Stunde:
- CapEx-Anteil: Hardwareinvestition / Amortisationszeit / erwartete GPU-Auslastungsstunden.
- Energie/Kühlung: gemessener oder spezifizierter Verbrauch pro Node, Strom-/Kühlkosten.
- Betrieb: Admin-Personentage, Wartungsverträge, Ersatzteile.
- Auslastung realistisch ansetzen, nicht “theoretisch 100%”. Queue-Daten helfen.
- Cloud GPU-Stunde:
- Listenpreis minus verhandelte Rabatte.
- Spot-Anteil mit Preemption-Overhead und Checkpoint-Kosten einkalkulieren.
- Speicher, Netzwerk, Egress separat bewerten, besonders bei großen Artefakt- und Datensatzbewegungen.
- Szenarien modellieren: kontinuierliche Last vs. sporadische Peaks; Sensitivitätsanalyse auf Auslastung und Energiepreise.
- Entscheidung ist selten binär: Häufig ergibt die Rechnung “On-Prem Basis + Cloud Burst” als Minimum der Kosten bei maximaler Flexibilität.
10) Ein praktikabler Einführungsplan (90–120 Tage)
- Woche 0–2: Workload- und Datenaufnahme
- Welche Jobs? Welche Datenmengen? Welche SLAs? Sicherheits- und Compliance-Anforderungen?
- Baseline-Benchmarks auf Zielhardware (On-Prem-PoC oder Cloud), um I/O vs. Compute zu verstehen.
- Woche 3–6: Architekturentscheid und Grundplattform
- K8s-Cluster oder Slurm auf Pilot-Hardware; GPU Operator, Container-Registry, Objektspeicher aufsetzen.
- Observability und Security von Tag 1: Prometheus/Grafana, EFK, Vault, Policies.
- Woche 7–10: MLOps-Backbone und erste Pipeline
- MLflow, LakeFS/DVC, Argo/Airflow integrieren. Eine End-to-End-Pipeline von Daten bis Inferenzproduktivversion live bringen.
- Reproduzierbares Build- und Release-Verfahren mit signierten Artefakten.
- Woche 11–16: Härtung und Skalierung
- Performance-Tuning (NCCL, Storage, Caches), Failover-Tests, Preemption- und Checkpoint-Strategien.
- Betriebsdokumentation, Runbooks, SLOs, Kapazitätsplanung.
- Entscheidung Cloud-Burst: Ja/Nein. Falls ja, portable Workflows sicherstellen (gleiche Container, gleiche Pipelines).
Wann ist Cloud besser, wann On-Prem?
- Cloud ist überlegen, wenn:
- Sie hohe Volatilität im Bedarf und geringe Grundlast haben.
- Sie schnelle Hardware-Evaluierung und Experimentiergeschwindigkeit priorisieren.
- Ihre Datenvolumina überschaubar sind oder Sie mit kuratierten Extrakten arbeiten können.
- On-Prem ist überlegen, wenn:
- Daten das Netz nicht verlassen dürfen oder sollen.
- Sie stetige Trainings-/Inferenzlast mit planbarer Auslastung haben.
- Latenz und deterministisches Verhalten wichtiger sind als maximale Elastizität.
Technische Anti-Pattern, die Sie vermeiden sollten
- Ein NFS-Share als “Trainingsdatenquelle für alles”. Das skaliert nicht in IOPS, Konsistenz und Ausfallsicherheit.
- “GPU-Cloud-Experiment heute, morgen On-Prem-Prod” ohne gemeinsame Toolchain. Das erzeugt doppelte Arbeit und Inkompatibilitäten.
- Keine Checkpoints und dann Spot-Instanzen nutzen. Das endet teuer.
- Logs als Nebensache betrachten. Ohne Daten- und Prompt-Logs sind LLM-Systeme operativ blind – und rechtlich angreifbar.
- Mixed-GPU-Jobs zur “besseren Auslastung”. Kurzfristig clever, langfristig instabil.
Fazit