• On-Prem-Modellbetrieb:
  • GPU-Zuordnung und Prozessisolation pro Workload; Treiber und Runtimes als signierte Artefakte in der Lieferkette.
  • Update-Muster: Shadow-Deployments mit rekonstruierter Produktionslast (Aufzeichnungen), anschließend kontrollierte Promotion mit Rollback-Pfad.

Hinweis aus eigener Produktpraxis: Genau für diese Einsehbarkeit und Policy-Durchsetzung bauen wir mit Alpi-M eine LLM-Agent-Observability- und Governance-Schicht, die on-prem läuft, Prompt-/Output-Flüsse nachvollziehbar macht und technische Policies erzwingt, ohne Daten außer Haus zu geben.

6) Netzwerk und Segmentierung: Zero Egress als Default

  • Egress-Policy: Perimeter-Default-Deny. Ausnahmen explizit, meist nur zu Registry/Git/Update-Spiegeln. Alle Outbound-Verbindungen über einen prüfbaren Proxy.
  • Mikrosegmentierung: Sicherheitszonen und Workload-Identität statt VLAN-Spaghetti. Service-Mesh nur dort, wo es echten Mehrwert bietet (mTLS/Traffic-Policy), nicht als Selbstzweck.
  • Remote-Support: Kein dauerhaftes VPN. Stattdessen zeitbegrenzte, genehmigte Sessions über bastionisierte Sprungpunkte mit vollständigem Audit.

7) Zustand und Datenbanken: Konflikte in die Domäne, nicht in die Replikation

  • Lokale Transaktionen, globale Auswertung: Vor-Ort-DBs für Steuerung und Workflows; zentrale Warehouses/Data Lakes für Fleet-Analysen.
  • Replikationsmuster:
  • Append-Only-Events als Quelle der Wahrheit, fachliche Projizierer bauen Materialized Views.
  • Bei Zwei-Wege-Sync: Explizite Domänenregeln zur Konfliktlösung (z. B. Last-Write-Wins nur, wenn IDs kollisionsfrei; sonst Merge-Strategien).

  • Backups: Unveränderliche Snapshots mit Offline-Export. Restore-Tests sind Pflicht, nicht Kür.

8) Testen und Qualitätssicherung: Parität, Chaos und Latenz

  • Umgebungsparität: Dieselbe Orchestrierungs- und Paketierungsebene in Dev/Staging/Prod, auch on-prem. Keine Sonderwege im Werk.
  • Repräsentative Daten: Anonymisierung/Maskierung, die Verteilungen erhält. Keine Mickey-Mouse-Datensätze.
  • Realitätsnahe Tests:
  • WAN-Emulation: Latenz, Jitter, Packet Loss, limitiertes Bandbreite-Budget.
  • Chaos im „Perimeter“: Link-Ausfälle, Registry/Git nicht verfügbar, Zertifikat-Expiry, Clock-Drift.

9) Upgrade- und Rollback-Strategien: Release-Züge statt Dauerfeuer

  • Release-Trains: Quartalsweise gebündelte, geprüfte Releases schlagen Einzel-Hotfixe als Dauerzustand. Sicherheitsupdates als Out-of-Band, aber via selben Lieferweg.
  • Mehrstufige Freigabe: Site-Canaries, manuelle Gates, Telemetrie-basierte Freigaben. Rollbacks sind geübt, nicht nur theoretisch möglich.

Antipatterns, die regelmäßig teuer werden

  • „Managed Service“-Denke on-prem: Eine Architektur, die Dutzende Cloud-Managed-Services voraussetzt, bricht on-prem entweder in Eigenbau-Chaos aus oder verliert ihre Vorteile. Wählen Sie bewusst wenige, robuste Kernbausteine.
  • Chatty-Microservices über Zonen: 20 Services, die synchron über eine unzuverlässige Leitung sprechen, sind Produktionsausfälle mit Ansage. Zusammenschneiden oder fachlich neu schneiden (Domänenentkopplung).
  • Auto-Update überall: Produktionsumgebungen sind keine Smartphone-Apps. Automatisieren ja, automatisches Updaten nein.
  • „Security später“: Supply-Chain-Signaturen, SBOMs, PKI – das nachzurüsten ist teurer, als es von Anfang an vorzusehen.

Eine minimale Referenzarchitektur für regulierte On-Prem-Umgebungen

Kernkomponenten pro Zentrale/Site:

  • Container-Orchestrator mit definiertem Ingress/Egress.
  • Internes Container-Registry mit Content-Trust und Quotas.
  • Git-Server für Manifeste und Applikationen; Pull-basierte Deployment-Controller je Site.
  • CI-Pipeline mit hermetischen Workern und reproduzierbaren Builds.
  • Interne PKI/CA, Zertifikatsausgabe für Maschinen, Dienste und Menschen.
  • Secret-Management mit Audit, Rotationsprozessen und Offline-Support.
  • Message- und Event-Bus für lose Kopplung; Site-lokale Queues mit Replikationspfad zur Zentrale.
  • Telemetrie-Stack: Metriken, Logs, Traces, Alarme, WORM-Audit.
  • Zeit- und NTP-Härtung; konsistente Zeitbasis ist für Audits und Traces nicht verhandelbar.
  • Policy-Engine für Admission/Runtime (z. B. Signaturpflicht, Ressourcengrenzen, Egress-Block).
  • API-Gateway/Edge mit AuthN/AuthZ, Rate Limits und Request-Filter.
  • Identity-Provider für SSO, kurzlebige Rollen, Delegation.

Bootstrapping unter Air-Gap:

  • Vertrauensanker in Hardware (z. B. offline Root CA). Erstinbetriebnahme über signierte Install-Medien.
  • Vorbereitete Release-Bundles mit Artefakten, Manifeste, Policies, SBOMs, Trust-Store. Import über geprüfte Transfermechanismen.
  • Dokumentierte, geübte Prozedur für „Nuklear-Restore“: Rebuild der gesamten Plattform aus Bundles und Seed-Secrets.

Betriebsrhythmus:

  • Quartalsweise Release-Züge; monatliche Security-Bundle-Imports.
  • Dedizierte „Triage“-Phase für CVEs: Bewertung, Patch-Erstellung, Backport in Release-Train.
  • Regelmäßige DR- und Restore-Drills; Zertifikats-Expiry-Drills.

Entscheidungsrahmen statt Checkliste aus dem Bauch

Vor einer Technologieentscheidung sollten Sie folgende Fragen beantwortet haben:

  • Datenklassen und -standorte: Welche Daten dürfen wohin? Welche Zonen sind tabu für welche Klassen?
  • Latenz und Offline-Toleranz: Welche Workflows müssen bei Link-Ausfall weiterlaufen, welche können warten?
  • Änderungs- und Freigabemodell: Wer darf wann was promoten? Wie sieht Rollback real aus?
  • Lieferkettenvertrauen: Woher kommen Base-Images und Bibliotheken? Wie werden sie geprüft und signiert?
  • Ressourcenprofile: CPU/GPU/Storage pro Site? Drosselungs- und Priorisierungsregeln?
  • Observability-Ziele: Aufbewahrungsfristen, Audit-Anforderungen, Alarmierungswege ohne SaaS.

Ein konkretes Szenario: Fleet Intelligence im Bahn-Bereich

Edge: Jeder Zug verfügt über Sensorik und ML-Modelle für Anomalieerkennung. Inferenz läuft lokal, Ergebnisse werden als Events in eine persistente Queue geschrieben. Bei fehlender Verbindung wird lokal gepuffert.

Werk/Depots: Beim Einfahren in ein Depot synchronisiert der Zug seine Event- und ausgewählte Rohdatenpakete mit dem Standort-Broker. Wartungsplanung, Teileverfügbarkeit und Disposition laufen auf Standortsystemen, die ohne Zentrale arbeitsfähig sind.

Zentrale: Über Nacht replizieren Standort-Broker Ereignis- und Statusdaten in das zentrale Data Warehouse. Flottenweite Modelle werden offline gegen echte Lastaufzeichnungen bewertet. Neue Modellversionen gehen als signierte Bundles zurück in die Standorte, werden zuerst im Shadow-Modus gefahren und nach Telemetrie-Freigabe produktiv geschaltet.

Sicherheit: Kein direkter Zug-zu-Internet-Verkehr. Egress ist strikt auf Depot-Gateway beschränkt. Artefakt-Bundles durchlaufen Prüfpfade, Modellartefakte sind signiert und referenzieren geprüfte Runtimes.

Operativ: Telemetrie bleibt lokal detailliert für die tägliche Arbeit, während zentrale Trends und KPIs über aggregierte, anonymisierte Sichten laufen. Fällt die Zentrale aus, sind Depot-Workflows weiterhin funktionsfähig.

Fazit