Cloud-native vs. On-Premise in regulierten Branchen: Architektur-Patterns, die in der Praxis tragen
Die eigentliche Frage ist nicht „Cloud oder On-Premise?“, sondern: Wie liefern wir ein System, das in einer regulierten Umgebung zuverlässig, auditierbar und betreibbar ist – ohne Souveränität an Dritte abzugeben? In Defense, Bahn, Fertigung oder Energie sind Datenklassifizierung, Betriebsverantwortung und Lieferkettenkontrolle keine optionalen Anforderungen. Gleichzeitig erwarten Fachbereiche die Agilität moderner Plattformen: Continuous Delivery, horizontale Skalierung, GPU-Workloads, Observability, Self-Service für Teams. Genau diese Spannungsfläche entscheidet über die Architektur.
Dieser Beitrag beschreibt, wann und wie cloud-native Muster auf On-Premise- oder Edge-Infrastruktur sinnvoll sind. Fokus sind konkrete Patterns, Trade-offs und Anti-Patterns aus realen Projekten, keine Hype-Versprechen. Es geht um reproduzierbare Deployments, Air-Gap-Fähigkeit, Supply-Chain-Sicherheit, LLM/ML-Betrieb on-prem und realistische Betriebsmodelle.
Problemrahmen: Randbedingungen in regulierten Umgebungen
- Daten- und Betriebs-Souveränität: Keine Abhängigkeit von US-Clouds oder extern betriebenen Control-Planes. Betreiber dürfen den Betrieb nicht verlieren, nur weil ein externer Service nicht verfügbar ist.
- Klassifizierung und Segmentierung: Unterschiedliche Schutzbedarfe (z. B. personenbezogene Daten vs. Maschinen-Telemetrie) verlangen technische und organisatorische Trennung.
- Netzrestriktionen: Häufig gibt es nur intermittierende oder stark limitierte Verbindungen zwischen Standorten (Edge) und Zentrale, teils Air-Gap.
- Auditierbarkeit: Jede Änderung muss rekonstruierbar sein: Artefakte, Signaturen, SBOM, Change-Logs, Zugriffspfade.
- Lebenszyklus: Systeme leben 7–15 Jahre. Technologie-Entscheidungen müssen Update-Pfade, Migrationsoptionen und EOL-Strategien berücksichtigen.
Entscheidungskriterien: Cloud-native, On-Premise oder Hybrid
Folgende Kriterien strukturieren die Entscheidung:
- Datenlokalität: Müssen Daten das Rechenzentrum/den Standort verlassen? Wenn nein, sind reine Public-Cloud-Ansätze raus. Hybrid ist nur tragfähig, wenn klare Datenflüsse und Whitelists existieren.
- Latenz & Verfügbarkeit: Steuerungsnahe Systeme (z. B. Qualitätsprüfung an der Linie) benötigen lokale Inferenz und Pufferung. Cloud-only ist dafür ein Risiko.
- Betriebsmodell & Skills: Wer betreibt Day-2 (Upgrades, Backups, Incident-Response)? On-Prem-Cloud-Native reduziert „Managed Service“-Komfort, erhöht interne Verantwortung.
- Kostenstruktur: Cloud verlockt mit CapEx→OpEx, On-Prem mit fixen Kosten und Vorhersagbarkeit. Daten-Egress, Langzeitaufbewahrung und GPU-Skalierung kippen die Waage schnell zugunsten On-Prem, wenn kontinuierlich große Datenmengen anfallen.
- Lieferketten- und Compliance-Risiko: Können Abhängigkeiten rechtlich und technisch sauber kontrolliert werden (Artefakte, Signaturen, Herkunft, Exportkontrollen)?
- Update-Frequenz: Produkte mit selteneren Releases und stabilen Schnittstellen sind On-Prem einfacher. Hochfrequente SaaS-Funktionalität lässt sich in air-gapped Milieus schwer replizieren.
Empfehlung in einer Zeile: Baue cloud-native, betreibe on-prem – aber wie eine Cloud, nicht wie eine Sammlung einzelner Pets.
Kernpatterns für On-Prem Cloud-Native
1) Kubernetes, aber bewusst gewählt
- Distribution: Wählen Sie eine Distro, die Air-Gap, Offline-Upgrades und HA im Rechenzentrum ernst nimmt. Wichtig ist nicht der Name, sondern: reproduzierbare Cluster-Bereitstellung, Upgrades ohne Internetzugang, vernünftige Lifecycle-Docs.
- Control-Plane-HA: Drei Control-Plane-Knoten auf getrennten Racks. Kein Cross-Site etcd-Quorum über unzuverlässige Links.
- Node-Profile: Dedizierte GPU-Knoten, Storage-Knoten mit lokaler Redundanz, Edge-Knoten mit kleinerem Footprint.
- Netzwerk-Policies: Default-Deny, klar definierte Ost-West-Pfade. mTLS zwischen Services. Service Mesh ist optional, aber ab 20+ Services hilfreich, solange es betrieblich gemeistert wird.
2) Artefakt- und Registry-Strategie
- Lokale Container-Registry mit Signaturprüfung. Spiegeln externer Upstream-Repositories in einen internen „Golden Repo“-Stand – mit Freigabeprozess. Keine direkten Pulls ins Produktionsnetz.
- SBOM und Provenance: Für jedes Container-Image eine SBOM (z. B. CycloneDX) und eine signierte Herkunfts-Attestation. Build-Pipeline im eigenen CI/CD (z. B. GitLab on-prem).
- Distroless/Minimal-Images, um Angriffsfläche zu reduzieren. Klare Baseline-Images, seltene Wechsel.
3) GitOps im Air-Gap
- Pull-basiert: Ein GitOps-Operator (z. B. Argo CD-ähnliches Pattern) zieht deklarative Manifeste aus einem internen Git. Keine Push-Pipelines ins Prod-Netz.
- Air-Gap-Bundles: Freigaben geschehen als versionierte, signierte Bundles: Helm-Charts, Manifeste, Images, SBOMs. Ein „Promotion“-Schritt importiert diese in das Produktionsnetz über geprüfte Transferpfade.
- Release-Trains: Kein permanentes „rolling latest“, sondern feste Releases, die in Staging-Umgebungen exakt wie Prod getestet werden.
4) Identität, Secrets, Schlüsseldrehs
- Interner IdP (z. B. mit LDAP/OIDC) ohne Cloud-Abhängigkeit. Kurzlebige Token, regelmäßige Rotation.
- PKI on-prem, idealerweise Hardware-gestützt (HSM/TPM). Service-zu-Service-Auth mTLS-first.
- Secrets-Management mit auditierbaren Zugriffen und Break-Glass-Verfahren.
5) Observability ohne Telemetrie-Leaks
- Metriken/Logs/Traces lokal sammeln und vorhalten. Nur aggregierte, freigegebene Reports verlassen das Segment, wenn überhaupt.
- „Daten-Diode“-Prinzipien: Falls ein Export nötig ist, dann nur unidirektional aus sicheren Segmenten heraus, über geprüfte Gateways.
- Retentions-Strategie und Speicherplanung früh festlegen. Timeseries können schnell explodieren.
6) Datenarchitektur für Edge + Zentrale
- Event-Driven für entkoppelte Flüsse: Telemetrie, Qualitätsdaten, Sensor-Streams als Events. Lokale Queues/Broker puffern Paketverluste und Leitungsabrisse.
- CDC und Append-Only: Statt „Remote-Writes“ in zentrale DBs lokale Commit-Logs und periodische Replikation. Konfliktlösungen deterministisch, kein ad-hoc Merge-Chaos.
- PII-Trennung by design: Sensible Daten in gesonderten Stores/Namensräumen/Namespaces, mit strikteren Schlüssel-Policies.
7) Sicherheitsbaseline der Plattform
- Supply-Chain: Signierte Commits, reproduzierbare Builds dort wo praktikabel, Image-Signing, Policy Enforcement vor Deploy.
- Minimale Angriffsfläche: Netzwerk-Policies, Read-Only RootFS, Seccomp/Capabilities reduzieren, Non-Root-Container als Standard.
- Offline-Patching-Pipeline: Regelmäßige Synchronisierung von Security-Patches in ein internes Mirror, definierte Update-Zeitfenster.