On-Premise GPU-Cluster vs. Cloud-Training: Ein Architekturleitfaden für industrielle KI unter DSGVO und Datensouveränität
Ausgangslage: Das eigentliche Problem ist nicht „KI“, sondern Datenbewegung und Kontrolle
In der Industrie scheitern KI-Initiativen selten an Modellen. Sie scheitern an Datenwegen, an Compliance und an Betrieb. Sie sammeln Terabytes an Bilddaten aus der Fertigung, Zeitreihen aus Flotten, Dokumente mit Personenbezug – und stehen dann vor drei harten Zwängen:
- DSGVO und Betriebsräte: Personen- und Ereignisdaten dürfen nicht unkontrolliert in externe Rechenzentren wandern.
- IP-Schutz und Exportkontrolle: Prozessparameter, CAD, Sensorik und Fehlermuster sind geistiges Eigentum. Datenabfluss killt Wettbewerbsvorteile.
- Deterministischer Betrieb: KI muss sich in OT-Umgebungen beweisen. Keine „best effort“-SaaS, sondern reproduzierbare Pipelines, definierte SLAs und auditierbare Entscheidungen.
Vor diesem Hintergrund ist die Frage „On-Premise GPU-Cluster oder Cloud-Training?“ keine Kostenfrage allein. Es ist eine Frage der Souveränität, der technischen Passung zum Workload und der Beherrschbarkeit des Gesamtsystems.
Workload-Profile zuerst, Technologie danach
Bevor Sie Hardware kaufen oder Cloud-Budgets freigeben, klassifizieren Sie Ihre Trainings- und Inferenzlasten. Vier typische Klassen in der Industrie:
- Computer Vision (CV) für visuelle Prüfung: Hohe Datenmengen (Bilder/Videos), moderates bis hohes GPU-Bedürfnis, hoher I/O-Durchsatz, häufiges Retraining bei Linien- oder Lieferantenwechsel.
- Zeitreihen/Anomalieerkennung: Hohe Datenrate, oft CPU- oder Speicherbandbreitendominiert, moderate GPU-Nutzung, starker Fokus auf Feature-Engineering und Drift-Überwachung.
- Dokumenten- und Textverarbeitung inkl. LLM-Finetuning: Hoher Speicherbedarf pro GPU, meist geringere I/O-Last als CV, sensible personenbezogene Daten, Governance und Prompt/Output-Logging kritisch.
- Multimodale oder Simulations-unterstützte Verfahren (z. B. digitale Zwillinge): Mischlasten, teils HPC-typische Kommunikation (NCCL, MPI), Netzwerk-Latenz und -Durchsatz werden limitierend.
Diese Profile steuern Architekturentscheidungen:
- Daten-Gewicht: Wenn Daten täglich im zweistelligen TB-Bereich entstehen (z. B. Kameras an mehreren Linien), sind „Daten zur Compute bringen“ On-Prem oft günstiger als „Compute zur Cloud bringen“. Egress/Ingress, Latenz und Compliance entscheiden gegen Cloud-First.
- Parallelisierung und Skalierung: CV-Retraining auf 4–8 GPUs On-Prem ist pragmatisch. Massive Vortrainings von Foundation-Modellen sind eher HPC-Disziplin und wirtschaftlich/energetisch selten sinnvoll In-House. Finetuning oder Adapter-Training hingegen schon.
- Geheimhaltungsstufe: Verteidigungsnahe Projekte, Bahnnetze, kritische Infrastrukturen – On-Prem mit strikter Segmentierung. Cloud allenfalls für anonymisierte, synthetische oder öffentliche Daten.
Entscheidungsmatrix: Wann On-Prem, wann Cloud, wann Hybrid?
On-Premise ist vorteilhaft, wenn:
- Daten nicht oder nur schwer das Werksgelände verlassen dürfen (DSGVO, IP, Exportkontrolle).
- Datenvolumen hoch und kontinuierlich ist (Bild/Video, Edge-Sensorik), sodass Datenbewegung dominiert.
- Langfristige, planbare Rechenlasten bestehen (monatliche Retrains, kontinuierliche Experimente).
- Sie deterministische Latenzen, kontrollierte Abhängigkeiten und Auditierbarkeit über Jahre benötigen.
Cloud ist vorteilhaft, wenn:
- Lasten stark volatil sind (kurze, intensive Sprints; danach Leerlauf).
- Daten bereits rechtskonform außerhalb liegen oder synthetisch/öffentlich sind.
- Sie kurzfristig große Cluster brauchen, die On-Prem nicht wirtschaftlich vorhaltbar sind.
- Sie organisatorisch OPEX bevorzugen und Governance sicher im Griff haben (inkl. Datenminimierung und Verschlüsselung).
Hybrid-Patterns funktionieren gut, wenn:
- Vortrainings oder experimentelle Exploration in der Cloud mit nicht-sensitiven Daten erfolgt, während produktionsnahe Finetunes, Validierung und Inferenz On-Prem laufen.
- Nur Modellgewichte (ohne Rohdaten) herausbewegt werden. Prüfen Sie dabei Lizenz- und IP-Regeln der Basis-Modelle.
- Eine dedizierte Datenfreigabestufe existiert (Pseudonymisierung, DLP-Scans), bevor etwas die sichere Zone verlässt.
On-Prem Referenzarchitektur für industrielle ML-Workloads
Ein On-Prem-Cluster ist kein „ein großer Serverraum“. Er ist ein System aus Zonen, Datenpfaden und Betriebsprozessen. Ein erprobtes Muster:
Physische Basis
- Racks und Strom: Redundante PDUs, A/B-Strom, USV, definierte Rackdichte (kW/Rack), Hot/Cold-Aisle. GPU-Knoten ziehen signifikant – planen Sie elektrische Reserven und Kühlung.
- Kühlung: Luftgekühlt reicht bis mittlere Dichten; bei hoher Dichte Direktflüssigkühlung erwägen. Temperaturdrift beeinflusst GPU-Drosselung – Monitoring ist Pflicht.
- Ersatzteile: Spares für Lüfter, Netzteile, NVMe, einzelne GPUs. RMA-Zeiten sind real.
Netzwerk und Segmentierung
- Leaf-Spine mit 25/100/200 GbE, optional Infiniband für HPC/Jumbo-Frames und RDMA. Für viele CV-Workloads reicht 100 GbE, für verteile LLM-Finetunes eher mehr.
- Netzwerkzonen:
- Data Ingestion (OT/DMZ)
- Compute (Train/Infer)
- Storage (Objekt/Block)
- Management/CI/CD
- Bastion/Jump-Host
East/West-Verkehr strikt kontrollieren. Kein direktes OT→Compute ohne Pufferzonen.
- Security Appliances: Layer-7-Firewalls nur da, wo sinnvoll. Für Cluster-internen Traffic zählt Latenz; Microsegmentation via CNI/NetworkPolicy in Kubernetes oder Slurm-Partitionen.
Storage-Architektur
- Heiße Daten: NVMe-Lokaldisks auf GPU-Workern für Scratch/Shard-Daten. Vermeidet Engpässe bei Random-Read/Write (z. B. Bildaugmentierung).
- Warme Daten: NVMe-over-Fabrics oder verteiltes Dateisystem für Shared Datasets (CephFS, BeeGFS, Lustre je nach Skill/Use-Case).
- Objekt-Storage: S3-kompatibel On-Prem (MinIO, Ceph RGW) als zentrales Data Lake-Bucket. Versionierung einschalten; Parquet/Arrow bevorzugen; kleine Dateien bündeln.
- Kalte Daten/Archiv: Tape oder günstige HDD-Tiers, WORM je nach Compliance.
- Datenkatalog & Governance: Katalogisieren, was wo liegt, mit Provenance-Metadaten. Dataset-Versionierung (z. B. mittels LakeFS oder DVC-ähnlicher Logik).
- DLP/PII-Kontrollen: Vor Eintritt ins Lake-Bucket Pseudonymisierung, Hashing, Maskierung – nicht als nachträglicher „Cleanup“.