Imported Post 2026-04-08 00:15:10

8) ML/LLM-Betrieb on-prem

GPU-Scheduling und Isolierung: Workloads sprechen explizit Ressourcen an; Partitionierung nutzen, wo verfügbar. Monitoring von thermalen/elektrischen Limits.

Modelllebenszyklus: Versionierte Modelle in lokalem Registry/Artefakt-Store. Automatisierte Verträglichkeits-Checks (z. B. Feature-Schema, Onnx/TensorRT-Kompatibilität).

Governance für LLM-Agenten: Keine externen API-Calls. Prompt/Context-Logging mit Redaktionen für PII. Policy-Engines erzwingen Retrieval nur aus freigegebenen Indizes. Offline-Evaluationssuites, um Drifts und Regressionen zu erkennen.

Was in der Praxis besser funktioniert als „Lift & Shift“

Modularer Monolith für Kern-Workloads, Microservices nur für klar abgegrenzte, unabhängig skalierbare Komponenten. On-Prem verringert die Vorteile fein ziselierter Services, erhöht aber deren Betriebsaufwand. Ein modularer Monolith mit klaren Modulgrenzen, internen Events und hartem API-Vertrag reduziert Komplexität ohne Agilität zu opfern.
Stateful Services bewusst zentralisieren: Ein robuster, gut gesicherter Postgres-Cluster on-prem schlägt fünf exotische Datenbanken mit jeweils eigenem Operationsmodell. State verteilt man über Replikation und Events, nicht über zehn unterschiedliche Stateful Stacks.
Embedded Edge-Pattern: An der Produktionslinie oder im Fahrzeug läuft ein schlanker Agent: Datenaufnahme, Vorverarbeitung, lokale Inferenz, kurzzeitige Pufferung. Eine regionale Zentrale übernimmt Aggregation, Training/Feinjustierung und Auditing. Die Public Cloud ist optional für synthetische Lasttests oder nicht-sensible Offline-Analysen – niemals als kritischer Pfad.

Anti-Patterns, die regelmäßig Projekte bremsen

Versteckte Cloud-Kopplungen: Telemetrie-Exporte, Lizenz-Server, externe Zeitdienste, CDN-Only-Installer. Alles, was im Audit auffällt, fliegt spätestens in der Abnahme.
SaaS-UX in Air-Gap denken: „Wir shippen jeden Tag 20 kleine Features“ – in Air-Gap-Umgebungen heißt das 20 mal mehr Paketierung und Test. Besser gebündelte Releases mit klaren Migrationspfaden.
„Wir machen das wie in der Cloud, nur ohne Cloud“: Viele Managed Services (z. B. Secrets-as-a-Service, Observability-as-a-Service) müssen plattformseitig ersetzt werden. Einfach zu tun, schwer zu betreiben – ohne Runbooks und SLOs kippt das System in Tribal Knowledge.
Multi-Region-HA über unzuverlässige Links: Ein etcd-Quorum oder synchrones Replizieren über WAN-Leitungen ist ein Garant für Split-Brain oder Stillstand. Besser: Lokale Verfügbarkeit maximieren, asynchrone Replikation und klar definierte Recovery-Prozeduren.

Konkrete Architekturen aus Projekterfahrung

Beispiel 1: Fleet Intelligence für Bahnnetze

Problem: Events aus Fahrzeugen (Zug/Triebwagen), sporadische Konnektivität, harte Vorgaben zu Datenlokalität.

Edge: Schlanke Agenten sammeln Telemetrie, Vorverarbeitung (Zustandsverdichtung, Ausreißererkennung), lokale Persistenz als Append-Only-Log.

Regional-Cluster on-prem: Kubernetes-Cluster mit Event-Broker, Timeseries-DB, Feature-Store, Batch- und Stream-Analysen. GitOps steuert Deployments. Observability lokal.

Datenfluss: Edge→Regional asynchron, mit Re-Transmit und Deduplizierung. Kein direkter Remote-Write ins Zentrum.

Analytics: Modelle werden regional trainiert/justiert, Inferenzmodelle als versionierte Artefakte zurück zum Edge gepusht (signierte Bundles).

Trade-off: Höhere Betriebskomplexität in der Zentrale vs. robuste Resilienz bei Feldverbindungen. Entscheidender Vorteil: Kein sensibler Fluss verlässt das Netz.

Beispiel 2: Visuelle Qualitätsprüfung in der Fertigung

Problem: Sub-100ms Latenz, kameranahe Auswertung, regelmäßige Modell-Updates, auditsichere Nachvollziehbarkeit.

Linie: Industrierechner mit GPU, Containerisierte Inferenzdienste, lokaler Bildpuffer (z. B. Minutenbereich) für forensische Zwecke, Event-Ausgabe an SPS/PLC.

Werk-Cluster: Kubernetes on-prem, Artefakt-Registry, Modell-Registry, CI/CD mit Offline-Signing. Observability und Traceability werk-intern.

Governance: Jedes Modell-Deployment erfordert signierte Freigabe, Validierungsbericht, Rückroll-Plan. Ein zentrales Policieset verhindert das Laden unfreigegebener Modelle.

Trade-off: Weniger „Always-Latest“-Features, dafür deterministische Deployments und rechtssichere Audits.

Praktische Checkliste für die ersten 90 Tage

Datenklassifizierung und Segmentierung:
Welche Daten sind PII, welche sind betriebskritisch, welche sind unkritisch?
Netzsegmente und Namespaces entsprechend planen, Zugriffspfade hart definieren.
Plattform-Baseline:
Kubernetes-Distro mit HA, interne Container-Registry, Git on-prem, Artefakt-Store, IdP, Secrets-Manager, Observability-Stack.
Standard-Node-Images und Härtung (CIS-Benchmarks, Minimal-Footprint).
Supply-Chain-Sicherheit:
SBOM-Pflicht für alle Artefakte, Signatur-Pflicht vor Deploy.
Mirror-Strategie für Upstream-Abhängigkeiten, Scan-Prozess in Staging.
GitOps und Release-Management:
Pull-basiert, Air-Gap-Bundles, Promotion-Stufen (Dev→Staging→Prod).
Release-Kadenz festlegen (z. B. 4–6 Wochen) mit Bugfix-Out-of-Band-Prozessen.
Betriebs-SLOs und Runbooks:
SLOs für Verfügbarkeit, Latenz, Recovery Time/Point Objectives (RTO/RPO).
Alarme, On-Call, Eskalationspfade dokumentieren und testen.
Backup/DR:
Regelmäßige Backups von Control-Plane, State und Artefakt-Registry. Restore-Tests früh und wiederholt.
Security-Reviews:
Netzwerk-Policies, mTLS, Secrets-Scans, Image-Härtung – automatisiert in der Pipeline.

Cloud-native vs. On-Prem: Die echten Trade-offs

Kontrolle vs. Bequemlichkeit: On-Prem gibt Ihnen volle Kontrolle, kostet aber mehr in Day-2-Operation. Sie brauchen Platform Engineering Fähigkeiten: IaC, GitOps, Observability, Security.
Kostenwahrheit: On-Prem investiert vorab, aber Daten-Egress, Storage und GPU-Zeiten in der Cloud summieren sich schnell. Für kontinuierliche, datenintensive Workloads ist On-Prem häufig planbarer und günstiger – vorausgesetzt, die Auslastung ist da.
Geschwindigkeit: Cloud beschleunigt Prototypen. Serienreife in regulierten Umgebungen verlangt jedoch reproduzierbare, auditierbare Deployments – hier ist ein durchdachter On-Prem-Stack mit GitOps meist schneller über die Ziellinie als ad-hoc Cloud-Bastelei, die später umgebaut werden muss.
Vendor Lock-in: Cloud-Managed-Services verkürzen Time-to-Value, aber binden an proprietäre APIs. On-Prem diszipliniert bei API-Design, Datenmodellen und offenen Standards – was der Langlebigkeit hilft.

LLM- und Agentensysteme on-prem: Governance first