Cloud-native vs On-Premise in regulierten Branchen: Muster statt Dogmen
Problem zuerst: In sicherheitskritischen und regulierten Umgebungen zählen Datenhoheit, Auditierbarkeit und kontrollierte Betriebsbedingungen mehr als bunte Cloud-Diagramme. Der Effekt in der Praxis: Viele moderne Architektur- und Betriebsprinzipien sind hochrelevant (deklarativ, automatisiert, beobachtbar), aber die klassische Interpretation „läuft in einer US‑Hyperscaler‑Region, skaliert unendlich und bezieht zehn externe SaaS‑Dienste“ ist schlicht nicht zulässig. Wer hier Cloud-native ernst nimmt, übersetzt Prinzipien in on-premise-fähige Muster – inklusive Air-Gap, Härtung, reproduzierbaren Builds, stabilem Lifecycle über 10+ Jahre und dem Verzicht auf intransparente Abhängigkeiten.
Dieser Beitrag beschreibt erprobte Architektur- und Betriebs-Patterns, konkrete Technologie-Entscheidungen, Trade-offs und Anti-Patterns aus Projekten in Defense, Railway, Manufacturing und Aviation. Kein Hype, kein „one-size-fits-all“ – sondern ein Baukasten, der unter DSGVO, (teilweiser) Air-Gap und strengen Qualitätssicherungs-Anforderungen funktioniert.
Was „Cloud-native“ on-prem wirklich bedeutet
Cloud-native ist kein Ort, sondern ein Arbeitsmodus:
- Deklarativ statt klickbunt: Infrastruktur, Plattform und Anwendungen werden als Code versioniert und ausgerollt.
- Immutable und reproduzierbar: Artefakte sind deterministisch baubar; Laufzeitumgebungen werden nicht manuell verbogen.
- Beobachtbar und testbar: Telemetrie, Traces, Metriken und Policies sind erste Bürger.
- Lose gekoppelt, aber nicht zwangsläufig 50 Microservices: Entkopplung entlang klarer Domänen, erst dann Service-Schnitt.
Übertragen auf on-prem heißt das: Wir bauen eine Plattform, die diese Eigenschaften ohne externe Cloud-Abhängigkeit liefert – inklusive GPU‑Support, Netzwerksegmentierung, Identitäten, Artefakt- und Policy-Management, Telemetrie und ML/LLM‑Betrieb.
Anforderungsprofil in regulierten Branchen
Typische harte Randbedingungen:
- Datenhoheit und Zweckbindung: Keine Abflüsse in Drittstaaten, nachvollziehbare Datenflüsse, Datenminimierung.
- Latenz und Verfügbarkeit: Realtime‑Teile mit deterministischer Latenz; Offline‑Fähigkeit bei WAN‑Ausfall.
- Auditierbarkeit: Vollständige Revisionsspur, reproduzierbare Builds, attestierbare Artefakte, SBOM.
- Air-Gap-Varianten: Vom „tight control outbound only“ bis „physisch getrennt, nur signierte Offline‑Updates“.
- Lebenszyklus >10 Jahre: Austauschbare Komponenten, wartbare Toolchains, konservative Upgrades.
- Sicherheit by default: Verschlüsselung in Ruhe und Transit, mTLS intern, minimale Angriffsflächen.
- Keine US‑Cloud‑Abhängigkeit: Keine Kontroll- und Zugriffsmöglichkeiten Dritter außerhalb EU‑Rechtsrahmen.
Architekturprinzipien: Muster statt Dogmen
1) „Cloud-native on-prem“-Plattform
- Container-Orchestrierung: Kubernetes on-prem als Standard, aber bewusst dimensioniert. Für Edge‑Nodes K3s/MicroK8s; im Rechenzentrum Upstream K8s mit Distribution (z. B. RKE2, OpenShift) je nach Governance- und FIPS‑Bedarf.
- GitOps statt ClickOps: Argo CD oder Flux. Für Air‑Gap werden Repos gespiegelt; Deployments aus signierten, geprüften Artefakten.
- Artefakt- und Registry-Management: Private OCI‑Registry (Harbor, Quay) inkl. vulnerabilitäts-scans, policy enforcement und Notary/cosign‑Signaturen. Für Air‑Gap: Offline‑Mirror und kuratierte Base‑Images.
- Identitäten und Zugriffe: Keycloak/AD on‑prem, SCIM‑Provisionierung, OIDC für Services, RBAC bis auf Namespace‑Ebene. Notfallpläne bei IdP‑Ausfall.
- Netzwerk und Isolierung: eBPF‑CNI (z. B. Cilium) mit NetworkPolicies; mTLS zwischen Services (SPIFFE/SPIRE) statt „Flat VLAN“. Service Mesh nur, wenn nötig – Linkerd mit FIPS-Builds ist oft leichter als Istio.
- Observability: OpenTelemetry Collector, Prometheus, Tempo/Jaeger, Loki, Grafana – alles on‑prem. Mandantenfähigkeit und Datenklassifikation für PII/PIA beachten.
2) Daten- und Sicherheits-Governance
- Verschlüsselung: At-rest via dm-crypt/LUKS/SEDs, In-Transit via TLS 1.3/mTLS, Secret‑Management via Vault (HSM‑gestützt, wenn verfügbar).
- SBOM und Supply Chain: Jede Komponente mit SBOM (Syft), Scans offline (Trivy/Grype Mirror), Signaturen (cosign) und attestierte Builds (SLSA‑Prinzipien mit on‑prem CA).
- Policy Enforcement: Admission Controller (OPA Gatekeeper/Kyverno) erzwingen Labels, Ressourcenlimits, Rootless‑Container, Non‑latest Tags, approved Registries.
3) Event- und Datenflüsse
- Messaging: NATS/Kafka je nach Latenz/Throughput; für Edge Sites NATS Leafnodes. Backpressure und Offline‑Puffer sind Pflicht.
- Datenhaltung: Postgres (replikationsfähig, Patroni), Timeseries (VictoriaMetrics/Influx), Objektspeicher (MinIO) für Modelle und Artefakte. Klare Regeln für PII‑Isolation.
4) Betriebsprozesse
- Change windows und progressive delivery: Blue/Green oder Canaries (Argo Rollouts/Flagger), auch on‑prem. Minimaler Blast Radius.
- Runbooks und Drills: Etcd‑Backups, Registry‑Restore, Air‑Gap‑Update-Prozeduren regelmäßig testen.
- Monitoring SLOs: Greifbare SLOs statt Wunschdenken: z. B. P99‑Latenz für Inferenz, Rebuild‑Zeit für Node, MTTR für IdP.
Kubernetes on-prem: Varianten und Trade-offs
- Upstream K8s + RKE2/kubeadm:
Vorteile: Nah am Standard, flexibel, gute Air‑Gap‑Stories.
Nachteile: Mehr Betriebsverantwortung, Security‑Härtung in eigener Hand.
- OpenShift:
Vorteile: Integrierte Security/Quotas/Operator‑Ökosystem, FIPS‑Optionen.
Nachteile: Lizenzkosten, Komplexität, eingeschränktere Freiheit.
- K3s/MicroK8s:
Vorteile: Leichtgewichtig, Edge‑tauglich, kleiner Footprint.
Nachteile: Grenzen bei Multi‑Tenancy/Komplexität, weniger Enterprise‑Plugins.
- Ohne Kubernetes?
Für klar abgegrenzte Workloads kann systemd‑nspawn/Podman mit Nomad ausreichend sein. Faustregel: Wenn Sie mehr als 5‑8 Services, Liveness-/Readiness‑Checks, Secrets‑Rotation und Rolling‑Updates brauchen, zahlt sich K8s meist aus.
Air-Gap-fähige Software-Lieferkette
- Quellspiegel: Interne Mirrors für Git, Container‑Images, PyPI, apt/yum, Helm Charts. Nur kuratierte Upstream‑Fenster.
- Reproduzierbare Builds: Pinned Versions, Lockfiles, hermetische Builder (Bazel/Nix optional), deterministische Build‑Container.
- Signaturen und Policies: cosign‑Signaturen aus HSM‑Keys; Admission Policies blocken unsignierte Artefakte.
- Vulnerability-Scans offline: Spiegel der CVE‑Datenbanken, tägliche Aktualisierung über offline‑Sync, Reports in CI gatekeepen Releases.
- SBOM first: Syft/Anchore generieren SBOM pro Image; Abgleich gegen erlaubte Lizenzen und CVEs als Pipeline‑Gate.
Identität und Zugriffskontrolle ohne SaaS
- IdP: Keycloak on‑prem mit FIPS‑Krypto und Offline‑Backup. Integration mit Active Directory. MFA über lokale Token‑Server.
- Service‑Identität: SPIFFE/SPIRE, automatische Zertifikatsrotation, Workload‑Identity ohne statische Secrets.
- Autorisierung: RBAC für Cluster, OPA Policies für Anwendungsrollen, Audit‑Logs zentral gesammelt und unveränderlich abgelegt (WORM‑Storage).