Cloud-native ohne Cloud: Architekturmuster für regulierte Branchen
Problemstellung zuerst: In vielen Industrien ist die Cloud nicht nur „schwierig“, sie ist schlicht keine Option. Ob Bahn, Verteidigung, Fertigung oder kritische Infrastruktur – Daten dürfen das Werk, die Flotte oder das Rechenzentrum nicht verlassen. Gleichzeitig erwarten Entwicklungsteams und Fachbereiche die Geschwindigkeit, Elastizität und Betriebszuverlässigkeit moderner Plattformen. Genau hier scheitern viele Initiativen: Sie kopieren Cloud-Blueprints 1:1, laufen dann an Air-Gap, DSGVO, Change-Control und Offline-Betrieb zerschellt auf. Das Ergebnis ist entweder ein „Cloud in der Fabrik“-Spielzeug ohne Compliance oder ein monolithischer Maschinenpark ohne jede Automatisierung.
Aus unserer Praxis mit Vermessungsplattformen, Fleet-Intelligence und Trainingssystemen lautet die nüchterne Erkenntnis: Cloud-native ist kein Ort, sondern eine Arbeitsweise. Container, Immutability, deklarative Zustände, saubere Telemetrie und automatisierte Deployments funktionieren exzellent On-Premise – wenn man sie an die Randbedingungen regulierter Umgebungen anpasst. Dieser Artikel beschreibt die Muster, die sich bewährt haben, die Anti-Pattern, die wir konsequent vermeiden, und eine Referenzarchitektur, die sich in Air-Gap-, Werk- und Rechenzentrumsumgebungen wiederverwenden lässt.
Was „cloud-native“ on-premise bedeutet – und was nicht
Cloud-native bedeutet aus unserer Sicht:
- Deploybare Einheiten sind unveränderliche Artefakte (Container/Images), die reproduzierbar gebaut und signiert werden.
- Zustände und Konfigurationen sind deklarativ beschrieben, versioniert und überprüfbar ausgerollt (Pull statt Push).
- Telemetrie ist standardisiert, aggregierbar und ohne Seiteneffekte nutzbar.
- Isolation und Identität sind standardisiert (mTLS, kurzlebige Credentials), nicht IP- oder VLAN-gebunden.
- Updates sind inkrementell, rückrollbar und auditierbar.
Worauf Sie explizit verzichten müssen:
- Permanente Outbound-Verbindungen zu SaaS-Diensten in der heißen Produktionspfad.
- Spontanes „Nachladen“ von Abhängigkeiten zur Laufzeit.
- Service-Split in dutzende Chatty-Microservices, die WAN-Latenz und Packet Loss ignorieren.
- Automatische, unkontrollierte Updates von Basisimages, Treibern oder Operatoren.
Randbedingungen als Architektur-Input, nicht als Hindernis
Planen Sie mit den realen Zwängen:
- Datenhoheit und Verbleib: Klare Domänen, klare Zonen. Persönliche Daten, Betriebsgeheimnisse und sicherheitskritische Telemetrie verlassen die Site nicht.
- Änderungsmanagement: Jede Änderung ist nachvollziehbar, testbar und rückrollbar. Nightly-Updates sind keine Errungenschaft, sondern ein Produktionsrisiko.
- Offline-/Intermittent-Betrieb: Verbindungen zwischen Edge, Werk und Zentrale sind stoßweise, nicht garantiert. Store-and-Forward statt Request/Response über WAN.
- Lieferkette: Artefakte, Base-Images, Bibliotheken – alles potenzielle Einfallstore. Reproduzierbarkeit, Signaturen, SBOMs, geprüfte Upstream-Spiegel.
Architekturmuster, die on-prem funktionieren
1) Topologie und Datenpfade: Zonen, Events, Store-and-Forward
- Dreiteilung der Welt:
- Field/Edge: Geräte, Sensorik, Kameras, Inferenz nahe an der Maschine. Starke lokale Konsistenz, harte Echtzeit nur lokal.
- Werk/Standort: Aggregation, Visualisierung, Workflows, lokale Datenhaltung, Operator-Interaktion.
- Zentrale/Datacenter: Flottenweite Auswertung, Trainingspipelines, Modellvalidierung, regulatorische Berichte.
- Datenfluss-Muster:
- Ereignisgetriebene Kopplung statt synchroner RPC über Zonen hinweg. Idempotente Events mit stabilen Schlüsseln und Replays.
- Dauerhafte Queues/Logs als Puffer (Append-Only). Zwischen Zonen wird repliziert, nicht „nachgefragt“.
- Starke Konsistenz nur dort, wo physikalisch nötig (z. B. Safety-Schaltkreise). Ansonsten Eventual Consistency mit fachlicher Konfliktauflösung.
- Beispiel Vision-Inspektion:
- Frame-Inferenz am Edge mit Sofortentscheidungen. Nur erkannte Defekte und stichprobenartige Frames wandern als Events ins Werk, Bilder batchweise über einen freigegebenen Kanal. Keine Live-Streams über die WAN-Grenze.
2) GitOps in air-gapped Netzen: Pull, Signaturen, Bundles
- Pull statt Push: Jede Site betreibt einen Agenten, der deklarative Zustände (Manifeste) aus einem internen Git zieht. Ingress aus dem Internet ist nie Voraussetzung.
- Lieferkette:
- Build in hermetischen Pipelines mit gepinnten Abhängigkeiten; deterministische Builds, reproduzierbare Container.
- Für jedes Artefakt: SBOM erzeugen, Scans mit offline-spiegelten CVE-Datenbanken, Artefakt signieren.
- Veröffentlichung in ein internes Registry; Promotion in Stages via Git-Merge mit Vier-Augen-Prinzip.
- Air-Gap-Variante:
- „Release-Bundles“ als signierte, versionierte Tarballs: Container-Images, Helm/Manifeste, Policies, Trust-Roots, Migrationsskripte. Einweg-Import in die Site über kontrollierte Medien. Verifizierung von Signaturen ist Teil des Import-Prozesses.
3) Identität, Geheimnisse, Verschlüsselung: mTLS by default
- Interne PKI/CA: Service-Identitäten über kurzlebige Zertifikate; kein Shared Secret in Konfig-Files. Rotation automatisiert, Offline-Rotation möglich.
- Mandantenschlüssel und Datenverschlüsselung: Envelope-Encryption, Schlüsselschutz in HSM oder zumindest mit gesichertem Key-Material, Trennung von Daten- und Metadatenzugriffen.
- Menschliche Zugriffe: Ephemere Accounts, Just-in-Time, Session-Recording über Bastion; keine statischen Admin-Konten auf Dauer.
4) Observability ohne SaaS: Sammler an den Rändern, Retention zentral
- Telemetrie-Pipeline:
- An jedem Knoten lokale Collector/Agenten, die Metriken, Logs und Traces bündeln, drosseln und weiterleiten. Keine direkte App-zu-Backend-Telemetrie über Zonen hinweg.
- Site-lokale Time-Series- und Log-Speicher für operative Analysen; zentrale, konsolidierte Instanzen für Flotten-Trends.
- Sampling-Budgets: Trace-Sampling adaptiv, High-Cardinality-Labels begrenzen. Audit-Logs getrennt und manipulationssicher (WORM-Storage, Write-Once-Strategien).
5) Daten-Governance und LLM on-prem: Audit vor Magie
- RAG und Wissensgrundlagen:
- Indizes und Vektorspeicher je Site; domänenbasiertes Sharding. Replikation als genehmigter Exportprozess, nicht als stilles Sync.
- PII-Redaktion als dedizierter Preprozessor vor Indizierung; explizite Opt-Out-Regeln für sensible Dokumente.
- Agenten-Governance:
- Werkzeug-Whitelisting: Welche externen Tools ein Agent nutzen darf, ist deklarativ festgelegt und auditiert.
- Prompt-/Output-Filter mit PII- und Geschäftsgeheimnis-Checks; Policy-Verstöße führen zu Block oder Human-in-the-Loop.
- Versionierbare Prompt-/Kontextbausteine; jede Inferenz wird mit Modellversion, Datenbasis-Hash und Policy-Kontext protokolliert.