Cloud-native vs On-Premise in regulierten Branchen: Architekturmuster für echte Souveränität

Problem zuerst: In vielen Industrien ist der Datenabfluss in eine US‑Cloud nicht verhandelbar. Gleichzeitig erwarten Fachbereiche eine Entwicklungs- und Liefergeschwindigkeit, die sich an Cloud‑Maßstäben misst: kurze Release‑Zyklen, Observability, reproduzierbare Deployments, automatisierte Qualitätssicherung. Der scheinbare Zielkonflikt “Cloud‑native vs On‑Premise” löst sich erst auf, wenn man die tatsächlichen Randbedingungen adressiert: strikte Netzsegmente, teils wochenlange Offline‑Phasen, Audit‑ und Nachvollziehbarkeitspflichten, zehn Jahre+ Lebensdauer, begrenzte Betriebs- und SRE‑Ressourcen beim Kunden.

In Plattformen für Vermessungssysteme, Flotten‑Intelligenz und Trainingsumgebungen haben wir ein wiederkehrendes Muster gesehen: Man will die Entwicklungs‑ und Betriebsmuster der Cloud (Deklarativität, GitOps, Observability, Automatisierung) in ein on‑prem, häufig air‑gapped Umfeld übersetzen. Wer versucht, Public‑Cloud‑Blueprints 1:1 zu “lift‑and‑shift‑en”, scheitert an der Lieferkette (Container‑Images, Abhängigkeiten), der Netzwerkrealität (kein Egress oder nur über strikte Diode) und am Betriebsmodell (kleine Teams, starre Wartungsfenster).

Das Ziel dieses Beitrags: konkrete, erprobte Architekturmuster für regulierte Umgebungen, die echte Souveränität sicherstellen, ohne bei Engineering‑Produktivität kapitulieren zu müssen.

Designprinzipien für souveräne On‑Prem‑Plattformen

  • Souveränität zuerst: Kontrolle über Datenflüsse, Build‑ und Lieferkette, Identität, Kryptographie. Keine externe Abhängigkeit, die im Audit nicht erklärt oder ersetzt werden kann.
  • Reversibilität: Komponenten so wählen und integrieren, dass Austausch möglich bleibt. Datenformate und Protokolle bevorzugen, die nicht proprietär einsperren.
  • Operationale Einfachheit: Minimale bewegliche Teile. Was nicht notwendig ist, fliegt raus. “Fancy” verteilt schlägt “robust lokal” nur mit klar belegtem Mehrwert.
  • Offline‑first: Alles – CI/CD, Observability, Lizenzierung, Secrets, Zeit‑ und Zertifikatsmanagement – muss ohne Internet verlässlich funktionieren.
  • Governance by design: Audit‑fähige Protokollierung, Policies als Code, reproduzierbare Builds, SBOM/Signaturen – nicht als später Aufsatz, sondern im Pfad.
  • Grenzflächen bewusst gestalten: Harte Trennung zwischen Domänen, klare Datenverträge, wohldefinierte asynchrone Kopplung über Ereignisse oder Replikation.

Drei Referenz-Deploymentmodelle

1) Verbunden, aber souverän (kontrollierter Egress, keine US‑Cloud)

Typischer Kontext: Produktionsnetz hat einen streng kontrollierten Ausgang in ein EU‑Netz (z. B. Unternehmens‑Rechenzentrum), direkte US‑SaaS ist ausgeschlossen. Ziel: Moderne Delivery‑Pipelines und Telemetrie, ohne Datenhoheit zu verlieren.

Kernmuster:

  • On‑Prem‑Kubernetes oder eine schlanke Orchestrierung, die Air‑Gap unterstützt. Nicht das Feature‑feuerwerk zählt, sondern: stabile Upgrades, Offline‑Registries, reproduzierbare Control‑Plane.
  • GitOps mit internem Mirror: Es gibt ein “inneres” Git, das der einzige Autoritäts‑Punkt für die Runtime ist. Synchronisation aus dem “äußeren” Git erfolgt über Pull in einen Staging‑Mirror, mit Kontrollpunkten (Signaturprüfung, Policy Gate).
  • Artefakt‑Kette im Haus: Interner Container‑Registry‑Mirror, internes Paket‑Repository (C/C++, Python, OS‑Pakete). Outbound geht nur über Artefakt‑Fähren mit Whitelisting und Content‑Scanning.
  • Zwei‑stufige Perimeter‑Topologie:
  • Externe DMZ mit API‑Gateway/Reverse‑Proxy, der ausschließlich wohldefinierte, versionierte Schnittstellen publiziert.
  • Interne Servicezone mit Ost‑West‑Kontrollen (NetworkPolicies, mTLS). Keine Service‑zu‑Service‑Kommunikation über die DMZ.
  • Identität:
  • Menschliche Identität über das vorhandene IAM (AD/LDAP), föderiert in die Plattform.
  • Workload‑Identität separat gemanagt (kurzlebige Zertifikate/Tokens), keine statischen, langlebigen Secrets in Deployments.
  • Datenpfade: Ausleitung nur für Telemetrie‑Metadaten und nicht‑sensible Artefakte; Nutzdaten verbleiben im Segment. Wenn Training/Analytics zentral erfolgen sollen: dedizierter Anonymisierungs‑/Synthetik‑Pfad mit expliziten Verträgen.
  • Observability on‑prem: Logs, Metriken, Traces im eigenen TSDB/Log‑Store mit Retentions‑ und Redaktions‑Policies. Optional export in der EU, aber niemals personenbezogene Rohdaten.

Praxis‑Hinweise:

  • Trenne klar “Build‑Welt” und “Run‑Welt”. CI kann in einer verbundenen, aber separaten Zone laufen; der Weg ins Produktionsnetz ist ein einseitiger, signaturgeprüfter Promote‑Schritt.
  • Definiere SLOs, die zur Netzrealität passen. Wenn Egress nur stundenweise möglich ist, plant Pipelines für diese Fenster (Batches, Delta‑Synchronisation).

2) Intermittente Konnektivität (wochenweise Offline)

Kontext: Vermessungsteams im Feld, Züge in Regionen mit geringer Abdeckung, Werke mit geplanten Netzabschaltungen. Cluster laufen wochenlang autonom, Synchronisation erfolgt in “Kontaktfenstern”.

Kernmuster:

  • Staging‑Harbor: Eine dedizierte Zwischenzone, in der Updates, Policies und Modelle gesammelt, validiert und in ein Offline‑Paket geschnitten werden.
  • Store‑and‑Forward:
  • Ereignisse werden lokal in einer robusten Warteschlange/Log gehalten.
  • Bei Konnektivität erfolgt ein kontrollierter, idempotenter Abgleich.
  • Konfliktmanagement:
  • Für Metadaten und Konfiguration CRDT‑ oder versionsbasierte Merges (last‑writer‑wins reicht selten).
  • Für Domänendaten domänenspezifische Reconciliation‑Strategien (z. B. Sensor‑Messreihen: append‑only mit Kompression).
  • Zeit und Vertrauensanker:
  • Verlasse dich nicht auf externes NTP. Interne Zeitquellen mit präzisem Drift‑Management.
  • PKI‑Kette und Zertifikatsrotation so planen, dass sie keine Internetabhängigkeit hat.
  • Telemetrie‑Retention:
  • Lange lokale Retention, rollierende Kompaktion.
  • “Black‑box”-Modus für forensische Sicherung nach Vorfällen.

Praxis‑Hinweise:

  • Updates als immutable Bundles mit Manifest, Prüfsummen und Signaturen. Kein “pip install im Feld”.
  • Benutzerführung: Sichtbare “Sync‑Fenster” und Konfliktresolution dem Betriebsteam erklären, nicht verstecken.

3) Vollständige Air‑Gap (keine eingehenden/ausgehenden Verbindungen)

Kontext: Verteidigung, sicherheitskritische Produktionslinien. Kein Egress, keine Fernwartung, Artefakt‑Transfers nur über bewachte Kanäle.