Compute und Scheduling

  • GPU-Knoten: Ausgewogenes Verhältnis von GPU-Speicher, HBM-Bandbreite, PCIe/NVLink-Topologie. Mischen Sie nicht wild unterschiedliche GPU-Generationen in einem Trainingsjob.
  • Partitionierung: Multi-Instance GPU (MIG) oder zeitliche Partitionierung, um kleine Jobs effizient zu packen und Fairness durchzusetzen.
  • Scheduler-Varianten:
  • Kubernetes + GPU-Scheduler (z. B. mit Device Plugins, Namespace-Quotas, Pod Priority/Preemption) für Services, Pipelines, leichte/mittlere Trainingsjobs.
  • Slurm für HPC-lastige Trainings mit eng gekoppelter Kommunikation. Alternativ Kubernetes mit Batch-Scheduler (Volcano) – aber HPC-Kompetenz entscheidet.
  • Container-Baselines: Kuratierte Base-Images pro Framework/Compiler. Keine Internet-Builds im Produktionscluster; nutzen Sie interne Registry-Spiegel und SBOM-Scans.
  • Kommunikationen: NCCL-Tuning (Topology-Aware), richtige MTU/Jumbo Frames, P2P-Enablement. Netzwerktests (iperf, NCCL-tests) in CI einbetten.

MLOps und Reproduzierbarkeit

  • CI/CD und GitOps: Infrastruktur als Code, Pipelines als Code. Jede Trainingspipeline versioniert, deterministische Seeds, festgenagelte Container-Hashes.
  • Experiment-Tracking: Metriken, Artefakte, Konfigurationen zentral erfassen. Modelle nur mit vollständigem Kontext in die Registry.
  • Model Registry: Promotion-Regeln (staging→prod) mit Freigabeworkflow, Rollback-Fähigkeit, Signierung von Artefakten.
  • Feature-/Dataset-Store: Für Zeitreihen und tabellarische Use-Cases; für CV vor allem Dataset-Manifestierung (Shards, Augmentierungsrezepte).
  • Observability: Node- und Job-Level-Metriken (GPU-Utilization, VRAM, I/O), Pipeline-Latenzen, Daten- und Modell-Drift.
  • LLM-spezifische Governance: Prompt/Response-Logging, Halluzinations-Metriken, Policy-Checks, Red-Teaming. Für agentische Workflows On-Prem-Observability und Policy-Enforcement (z. B. mit einem dedizierten Agent-Governance-Layer wie Alpi-M, der Anfragen, Tools, Datenzugriffe und Outputs auditierbar macht).

Sicherheit und Compliance

  • Identität und Zugriffe: OIDC/SAML, fein granular via RBAC. Kein Shared-Account für Trainingsjobs.
  • Geheimnisse: Vault-ähnliche Secret-Stores, kurzlebige Tokens, niemals Klartext in Pipelines.
  • Verschlüsselung: Daten im Transit (mTLS), im Ruhezustand (LUKS/SED). Schlüsselverwaltung On-Prem, nicht im Cloud-HSM eines Drittlands.
  • Lieferkette: Signierte Container, SBOM, Vulnerability Scans in CI. Estrich gegen Supply-Chain-Angriffe wichtiger als eine weitere GPU.
  • Audit: Lückenlose Protokollierung der Datenentstehung, -transformation und -nutzung. Wer hat welches Modell womit trainiert und deployed? Das muss rückrechenbar bleiben.

Betrieb und Lebenszyklus

  • Patchfenster: Planbare Wartung, Rolling Upgrades, Canary-Jobs. Air-gapped? Dann Offline-Repository-Spiegel und signierte Update-Bundles pflegen.
  • Kapazitätsplanung: Belegen Sie GPU-Zeit in Schedulern; messen Sie Auslastung über Quartale. Reinvestitionspunkte an Kennzahlen knüpfen, nicht an Bauchgefühl.
  • DR/Backup: Snapshots von Registern, Metadaten, Objektspeichern. Wiederherstellungsübungen, sonst sind Backups nur Deko.
  • Support/SLA: Klare Eskalationspfade, 24/7-Bedarf? Dann Staffen oder Vertrag. Produktionslinien warten nicht auf einen Slack-Reply.

Cloud-Training pragmatisch nutzen – ohne Souveränität zu verlieren
Wenn Cloud, dann bewusst und minimal-invasiv:

  • Datenminimierung: Nur das Nötige exportieren. Vorher Pseudonymisierung, Sampling, Downscaling. Keine Rohbilder mit Personen, wenn Ziele mit anonymisierten Patches erreichbar sind.
  • Einbahnstraße: Kein schreibender Zugriff der Cloud-Jobs auf On-Prem-Quellen. Pull von whitelisted Buckets, Push nur der Modelle/Artefakte zurück.
  • Verschlüsselung und Schlüsselhoheit: Client-seitige Verschlüsselung; Schlüssel On-Prem. Kein Key Escrow.
  • Kostenkontrollen: Quoten, Budget-Alerts, Preemptibles/Spot nur für nicht-kritische Jobs. Reproduzierbarkeit sichern trotz Preemption.
  • Region und Anbieterwahl: Bevorzugen Sie Anbieter mit klarer EU-Rechtsbindung und ohne US-Rechtsdurchgriff. Prüfen Sie vertraglich Audit-Rechte, Datenlokation und Unterauftragsverhältnisse.
  • Exit-Strategie: Images, Artefakte, Pipelines portieren können. Vermeiden Sie proprietäre Managed-Dienste in kritischen Pfaden, die Re-Hosting erschweren.

TCO: Wie man rechnet, nicht welche Zahl herauskommt
Eine brauchbare TCO-Betrachtung ist eine Funktion der Lastprofile, nicht nur Hardwarepreise. Komponenten:

  • CAPEX: GPUs, Server, Netzwerk, Storage, Racks, Kühlung. Amortisation über 3–5 Jahre, je nach Lifecycle.
  • OPEX: Strom (IT + Kühlung), Fläche, Serviceverträge, Ersatzteile, Personal.
  • Opportunitätskosten: Wartezeiten (Beschaffung, Scheduling), Umschulung/Training des Teams, Ausfälle durch Instabilitäten.
  • Cloud-Kosten: Compute- und Storage-Zeit, Datenbewegung, Reservierungen, Management-Overhead.
  • Risiko- und Compliance-Kosten: Audit, Vertragsprüfungen, Datenschutz-Folgenabschätzungen, mögliche Produktionsstillstände.

Rechnen Sie Szenarien:

  • Stetig mittlere Last → On-Prem tendiert günstiger und kontrollierbarer.
  • Sporadisch extreme Spitzen → Cloud-Bursting kann sich lohnen, wenn Daten minimiert sind.
  • Hochsensitiv + hohe Datenrate → On-Prem nahezu gesetzt; Cloud nur randständig.

Fallstricke aus Projekten – und wie man sie vermeidet

  • Heterogene GPU-Generationen im selben Cluster: Führt zu instabilen verteilten Trainings. Partitionieren Sie nach Generation oder pinnen Sie Jobs.
  • „Wir fangen mal mit NFS an“: Einzelnes NFS als Engpass bricht CV-Pipelines das Genick. Früh in verteilte, bandbreitenstarke Storage-Patterns investieren.
  • Kein Seed/Aufzeichnungsdisziplin: Ohne feste Seeds und Artefakt-Logging sind Ergebnisse nicht reproduzierbar – Audits scheitern.
  • Schatten-Clouds von Data-Science-Teams: Wenn Governance zu schwerfällig ist, bauen Teams heimlich Workloads extern – Compliance-Risiko. Besser: einen schnellen, sicheren On-Prem-Sandbox-Pfad anbieten.
  • Overfitting auf Benchmarks statt Linienrealität: Domain-Shift wird unterschätzt. Planen Sie aktives Lernen und kontinuierliches Daten-Curation-Budget ein.

Migrationspfad: Vom PoC-Cluster zur Produktionsplattform

  • Phase 1 – Minimal lebensfähige Plattform: 2–4 GPU-Knoten, S3-kompatibler Objektspeicher, Kubernetes für Services, Slurm oder K8s-Batch für Training, interne Registry, Grundschutz (RBAC/Secrets), Experiment-Tracking.
  • Phase 2 – Produktionsreife: Dataset-Versionierung, Model Registry mit Promotions, Observability, DLP-Gates vor Lake, Policy-Enforcement für LLM/Agents, DR-Backups, signierte Supply Chain.
  • Phase 3 – Skalierung/Feintuning: Scheduler-Tuning, MIG für Packdichte, Topology-aware NCCL, NVMe-over-Fabrics, feingranulare Quotas, Chargeback/Showback zur Kostentransparenz.