Imported Post 2026-04-30 00:21:27

Cloud-native vs. On-Premise in regulierten Branchen: Muster, die in der Praxis tragen

Das eigentliche Problem liegt selten in „Cloud oder nicht Cloud“, sondern in einer widersprüchlichen Anforderungslage: Entwicklungsgeschwindigkeit und Betriebseffizienz wie in der Cloud, gleichzeitig Datensouveränität, Auditierbarkeit und oft vollständige Internetabkopplung. Wer Bahnfahrzeuge, Produktionslinien, Vermessungssysteme oder Trainingsplattformen in regulierten Umgebungen betreibt, kennt die Randbedingungen: kein US-Cloud-Anbieter, strenge Netztrennungen, Lebenszyklus > 10 Jahre, und Änderungen nur in geplanten Wartungsfenstern. In diesem Spannungsfeld entscheidet Architektur über Machbarkeit.

Dieser Text beschreibt Architekturmuster, die sich in der Praxis bewährt haben, um „cloud-native“ Arbeitsweisen on-premise umzusetzen, ohne Governance und Souveränität zu opfern. Er ist bewusst tool-agnostisch: Es geht um Prinzipien, Trade-offs und klare Entscheidungsfragen – nicht um Produktlisten.

Problemraum präzisieren, bevor Technologie gewählt wird

Bevor Sie über Orchestrierung, Service-Meshes oder GitOps diskutieren, modellieren Sie Ihren Problemraum entlang von sechs Achsen:

1) Konnektivität

Air-gapped (kein Internet, nur interne Netze, ggf. Datentransport per Wechseldatenträger)

Restriktiv (ausgehende Verbindungen über Proxy erlaubt, eingehend gesperrt)

Hybrid (standortübergreifende VPNs/Leitungen, definierte Management- und Datenkanäle)

2) Latenz-/Verfügbarkeitsziele

Harte Echtzeit (z. B. Steuerung): lokale Prozesse, minimaler Overhead

Nahe-Echtzeit (z. B. visuelle Qualitätskontrolle): Edge-Inferenz + lokale Dienste

Batch/Backoffice (z. B. Reporting): asynchron, tolerant ggü. Verzögerungen

3) Datenklassifizierung und -flüsse

Streng vertraulich (Fertigungsrezepte, Verteidigungsdaten)

Personenbezogen (DSGVO-relevant, Pseudonymisierung/Anonymisierung erforderlich)

Betriebsdaten (Maschinentelemetrie, Logdaten, Modelle)

4) Lebenszyklus und Änderungsfrequenz

Hohes Änderungsaufkommen (ML-Modelle, Geschäftslogik)

Niedriges Änderungsaufkommen (Schnittstellen zu Anlagen, Feldbus, Treiber)

5) Auditierbarkeit und Nachvollziehbarkeit

Vollständige Nachvollziehbarkeit von Software- und Modellständen

Reproduzierbare Deployments, signierte Artefakte, manipulationssichere Logs

6) Betriebsorganisation und Fähigkeiten

Gibt es SRE-/Plattformkompetenz?

Wer trägt Betrieb und Verantwortung am Standort (IT vs. OT)?

Diese Achsen bestimmen die Architektur. „Cloud-native on-prem“ ist erreichbar – aber nur, wenn die Komplexität zur Organisation und zum Risiko passt.

Drei Basis-Deploymentmodelle und ihre Trade-offs

Modell A: Air-gapped On-Premise

Beschreibung: Vollständige Plattform innerhalb des Standortnetzes, keine externen Verbindungen.

Vorteile: Maximale Souveränität, klare Sicherheitsgrenzen.

Nachteile: Hoher Aufwand für Artefakt-Transfer, Patching, Vulnerability-Scanning, CRL/OCSP-Handling; jede Integration muss offline-fähig sein.

Wann sinnvoll: Verteidigung, kritische Produktion mit strikter Netztrennung, strenge Lieferantenvorgaben.

Modell B: Restriktiv angebundenes On-Premise

Beschreibung: Egress via Proxy erlaubt, kein eingehender Traffic; eventuell dedizierter Managementkanal durch DMZ.

Vorteile: Aktualisierungen, Telemetrie-Export, Lizenzprüfung, Signatur-/Zeitstempeldienste werden handhabbar; weiterhin hohe Souveränität.

Nachteile: Externe Abhängigkeiten müssen whitelisted werden; strikte Egress-Policies; Ausfall externer Endpunkte darf die Produktion nicht stören.

Wann sinnvoll: Industrieanlagen mit sporadischer Verbindung, zentraler Governance und dezentraler Autonomie.

Modell C: Hybride Steuerung, lokale Datenebene

Beschreibung: Zentrales Management (Policies, Git-Repos, Artefaktkataloge) in einem souveränen Rechenzentrum, lokale Datenverarbeitung am Edge/Standort.

Vorteile: Einheitliche Governance, konsistente Releasesteuerung, horizontale Skalierung auf viele Standorte.

Nachteile: Komplexeres Betriebsmodell (Policy-Verteilung, Konsistenz); klare Isolationsmechanismen nötig, damit zentrale Störung lokale Produktion nicht blockiert.

Wann sinnvoll: Flottenbetrieb (Bahn/IoT), verteilte Werke, mehrstufige Organisation.

Bausteine einer „cloud-nativen“ On-Prem-Plattform

Orchestrierung – so leicht wie möglich, so mächtig wie nötig

Kleine bis mittlere Systeme mit klaren Latenzanforderungen profitieren oft von einem schlanken Ansatz: ein Prozess-Supervisor, saubere Service-Isolation, minimaler Netzwerk-Overhead. Ein ausgewachsener Orchestrator lohnt sich erst, wenn Sie echte Elastizität, Rolling-Updates, Self-Healing und Workload-Isolation brauchen.

Wenn Orchestrierung: Planen Sie deterministische Cluster-Versionen, Air-Gap-Bootstrap (lokaler Artefakt-Cache, lokaler Paketmirror), Device-Plugins für GPUs/Beschleuniger und klare Zuweisungen (kein Overcommit, wenn harte Latenzen).

Vermeiden Sie „Service Mesh by Default“. mTLS und Autorisierung können oft am Ingress/Egress und über eine solide PKI gelöst werden. Ein Mesh ergibt Sinn, wenn Sie viele teamübergreifende Services, Traffic-Shaping und feingranulare Policies brauchen – nicht, um „modern“ zu sein.

Storage und Snapshots

Objekt-Storage on-prem erleichtert Versionierung großer Artefakte (Modelle, Datensätze, Logs). Stellen Sie unveränderliche Buckets für Audit-Artefakte bereit (WORM).

Für Produktionsdaten: Snapshots first. Konsistente Snapshots + testbare Restore-Pfade sind wichtiger als exotische Replikationsmodi.

Trennen Sie kurzlebige Telemetrie (schnelle SSDs, kurze Retention) von langlebigen Artefakten (günstiger, replizierter Storage).

Private Registry und Artefaktkette

Eigene Container-Registry, Helm-/OCI-Chart-Store und Paketmirror sind Pflicht. Kein „docker pull“ aus dem Internet in Produktion.

Signieren Sie Images und Charts. Bewahren Sie SBOMs auf und scannen Sie Artefakte vor der Standortverteilung. In Air-Gap-Umgebungen erfolgt das Scanning zentral; an Standorten nur Verifikation und Policy-Enforcement.

Klare Promotionspfade (Dev → Staging → Preprod → Prod) mit Freigabeschritten, die auditierbar sind.

Netzwerk, PKI, mTLS

Interne PKI mit kurzlebigen Service-Zertifikaten, automatische Rotation, CRL-/OCSP-Handling, das auch offline funktioniert (z. B. vorverteilte CRLs; Revocation im lokalen Trust-Store).

East-West-Firewalling ist nicht „nice-to-have“: Mikrosegmentierung verhindert, dass ein kompromittierter Service den Standort lahmlegt.

Egress-Kontrolle per expliziten Allow-Listen; DNS-Firewalling gegen exfiltration via DNS.

Identity und Autorisierung

Ein OIDC-/SAML-fähiger IdP on-prem ist Kernbestandteil. Rollen modellieren entlang Domänen (IT/OT, Engineering, Qualitätssicherung), nicht entlang Org-Charts.

Maschinenidentitäten sind gleichwertige Bürger. Signierte Service-Accounts, kein „shared secret“.

Policy-as-Code für Autorisierungen, die auch offline evaluiert werden können.