Cloud-native vs. On-Premise in regulierten Branchen: Muster, die in der Praxis tragen
Das eigentliche Problem liegt selten in „Cloud oder nicht Cloud“, sondern in einer widersprüchlichen Anforderungslage: Entwicklungsgeschwindigkeit und Betriebseffizienz wie in der Cloud, gleichzeitig Datensouveränität, Auditierbarkeit und oft vollständige Internetabkopplung. Wer Bahnfahrzeuge, Produktionslinien, Vermessungssysteme oder Trainingsplattformen in regulierten Umgebungen betreibt, kennt die Randbedingungen: kein US-Cloud-Anbieter, strenge Netztrennungen, Lebenszyklus > 10 Jahre, und Änderungen nur in geplanten Wartungsfenstern. In diesem Spannungsfeld entscheidet Architektur über Machbarkeit.
Dieser Text beschreibt Architekturmuster, die sich in der Praxis bewährt haben, um „cloud-native“ Arbeitsweisen on-premise umzusetzen, ohne Governance und Souveränität zu opfern. Er ist bewusst tool-agnostisch: Es geht um Prinzipien, Trade-offs und klare Entscheidungsfragen – nicht um Produktlisten.
Problemraum präzisieren, bevor Technologie gewählt wird
Bevor Sie über Orchestrierung, Service-Meshes oder GitOps diskutieren, modellieren Sie Ihren Problemraum entlang von sechs Achsen:
1) Konnektivität
- Air-gapped (kein Internet, nur interne Netze, ggf. Datentransport per Wechseldatenträger)
- Restriktiv (ausgehende Verbindungen über Proxy erlaubt, eingehend gesperrt)
- Hybrid (standortübergreifende VPNs/Leitungen, definierte Management- und Datenkanäle)
2) Latenz-/Verfügbarkeitsziele
- Harte Echtzeit (z. B. Steuerung): lokale Prozesse, minimaler Overhead
- Nahe-Echtzeit (z. B. visuelle Qualitätskontrolle): Edge-Inferenz + lokale Dienste
- Batch/Backoffice (z. B. Reporting): asynchron, tolerant ggü. Verzögerungen
3) Datenklassifizierung und -flüsse
- Streng vertraulich (Fertigungsrezepte, Verteidigungsdaten)
- Personenbezogen (DSGVO-relevant, Pseudonymisierung/Anonymisierung erforderlich)
- Betriebsdaten (Maschinentelemetrie, Logdaten, Modelle)
4) Lebenszyklus und Änderungsfrequenz
- Hohes Änderungsaufkommen (ML-Modelle, Geschäftslogik)
- Niedriges Änderungsaufkommen (Schnittstellen zu Anlagen, Feldbus, Treiber)
5) Auditierbarkeit und Nachvollziehbarkeit
- Vollständige Nachvollziehbarkeit von Software- und Modellständen
- Reproduzierbare Deployments, signierte Artefakte, manipulationssichere Logs
6) Betriebsorganisation und Fähigkeiten
- Gibt es SRE-/Plattformkompetenz?
- Wer trägt Betrieb und Verantwortung am Standort (IT vs. OT)?
Diese Achsen bestimmen die Architektur. „Cloud-native on-prem“ ist erreichbar – aber nur, wenn die Komplexität zur Organisation und zum Risiko passt.
Drei Basis-Deploymentmodelle und ihre Trade-offs
Modell A: Air-gapped On-Premise
- Beschreibung: Vollständige Plattform innerhalb des Standortnetzes, keine externen Verbindungen.
- Vorteile: Maximale Souveränität, klare Sicherheitsgrenzen.
- Nachteile: Hoher Aufwand für Artefakt-Transfer, Patching, Vulnerability-Scanning, CRL/OCSP-Handling; jede Integration muss offline-fähig sein.
- Wann sinnvoll: Verteidigung, kritische Produktion mit strikter Netztrennung, strenge Lieferantenvorgaben.
Modell B: Restriktiv angebundenes On-Premise
- Beschreibung: Egress via Proxy erlaubt, kein eingehender Traffic; eventuell dedizierter Managementkanal durch DMZ.
- Vorteile: Aktualisierungen, Telemetrie-Export, Lizenzprüfung, Signatur-/Zeitstempeldienste werden handhabbar; weiterhin hohe Souveränität.
- Nachteile: Externe Abhängigkeiten müssen whitelisted werden; strikte Egress-Policies; Ausfall externer Endpunkte darf die Produktion nicht stören.
- Wann sinnvoll: Industrieanlagen mit sporadischer Verbindung, zentraler Governance und dezentraler Autonomie.
Modell C: Hybride Steuerung, lokale Datenebene
- Beschreibung: Zentrales Management (Policies, Git-Repos, Artefaktkataloge) in einem souveränen Rechenzentrum, lokale Datenverarbeitung am Edge/Standort.
- Vorteile: Einheitliche Governance, konsistente Releasesteuerung, horizontale Skalierung auf viele Standorte.
- Nachteile: Komplexeres Betriebsmodell (Policy-Verteilung, Konsistenz); klare Isolationsmechanismen nötig, damit zentrale Störung lokale Produktion nicht blockiert.
- Wann sinnvoll: Flottenbetrieb (Bahn/IoT), verteilte Werke, mehrstufige Organisation.
Bausteine einer „cloud-nativen“ On-Prem-Plattform
Orchestrierung – so leicht wie möglich, so mächtig wie nötig
- Kleine bis mittlere Systeme mit klaren Latenzanforderungen profitieren oft von einem schlanken Ansatz: ein Prozess-Supervisor, saubere Service-Isolation, minimaler Netzwerk-Overhead. Ein ausgewachsener Orchestrator lohnt sich erst, wenn Sie echte Elastizität, Rolling-Updates, Self-Healing und Workload-Isolation brauchen.
- Wenn Orchestrierung: Planen Sie deterministische Cluster-Versionen, Air-Gap-Bootstrap (lokaler Artefakt-Cache, lokaler Paketmirror), Device-Plugins für GPUs/Beschleuniger und klare Zuweisungen (kein Overcommit, wenn harte Latenzen).
- Vermeiden Sie „Service Mesh by Default“. mTLS und Autorisierung können oft am Ingress/Egress und über eine solide PKI gelöst werden. Ein Mesh ergibt Sinn, wenn Sie viele teamübergreifende Services, Traffic-Shaping und feingranulare Policies brauchen – nicht, um „modern“ zu sein.
Storage und Snapshots
- Objekt-Storage on-prem erleichtert Versionierung großer Artefakte (Modelle, Datensätze, Logs). Stellen Sie unveränderliche Buckets für Audit-Artefakte bereit (WORM).
- Für Produktionsdaten: Snapshots first. Konsistente Snapshots + testbare Restore-Pfade sind wichtiger als exotische Replikationsmodi.
- Trennen Sie kurzlebige Telemetrie (schnelle SSDs, kurze Retention) von langlebigen Artefakten (günstiger, replizierter Storage).
Private Registry und Artefaktkette
- Eigene Container-Registry, Helm-/OCI-Chart-Store und Paketmirror sind Pflicht. Kein „docker pull“ aus dem Internet in Produktion.
- Signieren Sie Images und Charts. Bewahren Sie SBOMs auf und scannen Sie Artefakte vor der Standortverteilung. In Air-Gap-Umgebungen erfolgt das Scanning zentral; an Standorten nur Verifikation und Policy-Enforcement.
- Klare Promotionspfade (Dev → Staging → Preprod → Prod) mit Freigabeschritten, die auditierbar sind.
Netzwerk, PKI, mTLS
- Interne PKI mit kurzlebigen Service-Zertifikaten, automatische Rotation, CRL-/OCSP-Handling, das auch offline funktioniert (z. B. vorverteilte CRLs; Revocation im lokalen Trust-Store).
- East-West-Firewalling ist nicht „nice-to-have“: Mikrosegmentierung verhindert, dass ein kompromittierter Service den Standort lahmlegt.
- Egress-Kontrolle per expliziten Allow-Listen; DNS-Firewalling gegen exfiltration via DNS.
Identity und Autorisierung
- Ein OIDC-/SAML-fähiger IdP on-prem ist Kernbestandteil. Rollen modellieren entlang Domänen (IT/OT, Engineering, Qualitätssicherung), nicht entlang Org-Charts.
- Maschinenidentitäten sind gleichwertige Bürger. Signierte Service-Accounts, kein „shared secret“.
- Policy-as-Code für Autorisierungen, die auch offline evaluiert werden können.