8) ML/LLM-Betrieb on-prem

  • GPU-Scheduling und Isolierung: Workloads sprechen explizit Ressourcen an; Partitionierung nutzen, wo verfügbar. Monitoring von thermalen/elektrischen Limits.
  • Modelllebenszyklus: Versionierte Modelle in lokalem Registry/Artefakt-Store. Automatisierte Verträglichkeits-Checks (z. B. Feature-Schema, Onnx/TensorRT-Kompatibilität).
  • Governance für LLM-Agenten: Keine externen API-Calls. Prompt/Context-Logging mit Redaktionen für PII. Policy-Engines erzwingen Retrieval nur aus freigegebenen Indizes. Offline-Evaluationssuites, um Drifts und Regressionen zu erkennen.

Was in der Praxis besser funktioniert als „Lift & Shift“

  • Modularer Monolith für Kern-Workloads, Microservices nur für klar abgegrenzte, unabhängig skalierbare Komponenten. On-Prem verringert die Vorteile fein ziselierter Services, erhöht aber deren Betriebsaufwand. Ein modularer Monolith mit klaren Modulgrenzen, internen Events und hartem API-Vertrag reduziert Komplexität ohne Agilität zu opfern.
  • Stateful Services bewusst zentralisieren: Ein robuster, gut gesicherter Postgres-Cluster on-prem schlägt fünf exotische Datenbanken mit jeweils eigenem Operationsmodell. State verteilt man über Replikation und Events, nicht über zehn unterschiedliche Stateful Stacks.
  • Embedded Edge-Pattern: An der Produktionslinie oder im Fahrzeug läuft ein schlanker Agent: Datenaufnahme, Vorverarbeitung, lokale Inferenz, kurzzeitige Pufferung. Eine regionale Zentrale übernimmt Aggregation, Training/Feinjustierung und Auditing. Die Public Cloud ist optional für synthetische Lasttests oder nicht-sensible Offline-Analysen – niemals als kritischer Pfad.

Anti-Patterns, die regelmäßig Projekte bremsen

  • Versteckte Cloud-Kopplungen: Telemetrie-Exporte, Lizenz-Server, externe Zeitdienste, CDN-Only-Installer. Alles, was im Audit auffällt, fliegt spätestens in der Abnahme.
  • SaaS-UX in Air-Gap denken: „Wir shippen jeden Tag 20 kleine Features“ – in Air-Gap-Umgebungen heißt das 20 mal mehr Paketierung und Test. Besser gebündelte Releases mit klaren Migrationspfaden.
  • „Wir machen das wie in der Cloud, nur ohne Cloud“: Viele Managed Services (z. B. Secrets-as-a-Service, Observability-as-a-Service) müssen plattformseitig ersetzt werden. Einfach zu tun, schwer zu betreiben – ohne Runbooks und SLOs kippt das System in Tribal Knowledge.
  • Multi-Region-HA über unzuverlässige Links: Ein etcd-Quorum oder synchrones Replizieren über WAN-Leitungen ist ein Garant für Split-Brain oder Stillstand. Besser: Lokale Verfügbarkeit maximieren, asynchrone Replikation und klar definierte Recovery-Prozeduren.

Konkrete Architekturen aus Projekterfahrung

Beispiel 1: Fleet Intelligence für Bahnnetze

  • Problem: Events aus Fahrzeugen (Zug/Triebwagen), sporadische Konnektivität, harte Vorgaben zu Datenlokalität.
  • Architektur:
  • Edge: Schlanke Agenten sammeln Telemetrie, Vorverarbeitung (Zustandsverdichtung, Ausreißererkennung), lokale Persistenz als Append-Only-Log.
  • Regional-Cluster on-prem: Kubernetes-Cluster mit Event-Broker, Timeseries-DB, Feature-Store, Batch- und Stream-Analysen. GitOps steuert Deployments. Observability lokal.
  • Datenfluss: Edge→Regional asynchron, mit Re-Transmit und Deduplizierung. Kein direkter Remote-Write ins Zentrum.
  • Analytics: Modelle werden regional trainiert/justiert, Inferenzmodelle als versionierte Artefakte zurück zum Edge gepusht (signierte Bundles).
  • Trade-off: Höhere Betriebskomplexität in der Zentrale vs. robuste Resilienz bei Feldverbindungen. Entscheidender Vorteil: Kein sensibler Fluss verlässt das Netz.

Beispiel 2: Visuelle Qualitätsprüfung in der Fertigung

  • Problem: Sub-100ms Latenz, kameranahe Auswertung, regelmäßige Modell-Updates, auditsichere Nachvollziehbarkeit.
  • Architektur:
  • Linie: Industrierechner mit GPU, Containerisierte Inferenzdienste, lokaler Bildpuffer (z. B. Minutenbereich) für forensische Zwecke, Event-Ausgabe an SPS/PLC.
  • Werk-Cluster: Kubernetes on-prem, Artefakt-Registry, Modell-Registry, CI/CD mit Offline-Signing. Observability und Traceability werk-intern.
  • Governance: Jedes Modell-Deployment erfordert signierte Freigabe, Validierungsbericht, Rückroll-Plan. Ein zentrales Policieset verhindert das Laden unfreigegebener Modelle.
  • Trade-off: Weniger „Always-Latest“-Features, dafür deterministische Deployments und rechtssichere Audits.

Praktische Checkliste für die ersten 90 Tage

  • Datenklassifizierung und Segmentierung:
  • Welche Daten sind PII, welche sind betriebskritisch, welche sind unkritisch?
  • Netzsegmente und Namespaces entsprechend planen, Zugriffspfade hart definieren.
  • Plattform-Baseline:
  • Kubernetes-Distro mit HA, interne Container-Registry, Git on-prem, Artefakt-Store, IdP, Secrets-Manager, Observability-Stack.
  • Standard-Node-Images und Härtung (CIS-Benchmarks, Minimal-Footprint).
  • Supply-Chain-Sicherheit:
  • SBOM-Pflicht für alle Artefakte, Signatur-Pflicht vor Deploy.
  • Mirror-Strategie für Upstream-Abhängigkeiten, Scan-Prozess in Staging.
  • GitOps und Release-Management:
  • Pull-basiert, Air-Gap-Bundles, Promotion-Stufen (Dev→Staging→Prod).
  • Release-Kadenz festlegen (z. B. 4–6 Wochen) mit Bugfix-Out-of-Band-Prozessen.
  • Betriebs-SLOs und Runbooks:
  • SLOs für Verfügbarkeit, Latenz, Recovery Time/Point Objectives (RTO/RPO).
  • Alarme, On-Call, Eskalationspfade dokumentieren und testen.
  • Backup/DR:
  • Regelmäßige Backups von Control-Plane, State und Artefakt-Registry. Restore-Tests früh und wiederholt.
  • Security-Reviews:
  • Netzwerk-Policies, mTLS, Secrets-Scans, Image-Härtung – automatisiert in der Pipeline.

Cloud-native vs. On-Prem: Die echten Trade-offs

  • Kontrolle vs. Bequemlichkeit: On-Prem gibt Ihnen volle Kontrolle, kostet aber mehr in Day-2-Operation. Sie brauchen Platform Engineering Fähigkeiten: IaC, GitOps, Observability, Security.
  • Kostenwahrheit: On-Prem investiert vorab, aber Daten-Egress, Storage und GPU-Zeiten in der Cloud summieren sich schnell. Für kontinuierliche, datenintensive Workloads ist On-Prem häufig planbarer und günstiger – vorausgesetzt, die Auslastung ist da.
  • Geschwindigkeit: Cloud beschleunigt Prototypen. Serienreife in regulierten Umgebungen verlangt jedoch reproduzierbare, auditierbare Deployments – hier ist ein durchdachter On-Prem-Stack mit GitOps meist schneller über die Ziellinie als ad-hoc Cloud-Bastelei, die später umgebaut werden muss.
  • Vendor Lock-in: Cloud-Managed-Services verkürzen Time-to-Value, aber binden an proprietäre APIs. On-Prem diszipliniert bei API-Design, Datenmodellen und offenen Standards – was der Langlebigkeit hilft.

LLM- und Agentensysteme on-prem: Governance first