Cloud-native vs On-Premise: Praktische Patterns für regulierte Branchen
Das Problem zuerst: In regulierten Industrien (Rail, Defense, Fertigung, Aviation) sollen neue datengetriebene Funktionen live gehen – visuelle Qualitätskontrolle, Flottenintelligenz, LLM-basierte Assistenzsysteme für Instandhaltung oder Dokumentation. Gleichzeitig ist Datenabfluss in Public Clouds für geschützte Daten schlicht nicht verhandelbar. DSGVO, Exportkontrolle, interne Werkschutzauflagen, Geheimhaltungsstufen – all das führt dazu, dass “einfach ein Managed Service klicken” kein valider Pfad ist. Auf der anderen Seite sind klassische, VM-zentrierte Monolithen zu träge, um moderne Anforderungen wie Observability, reproduzierbare Deployments, beschleunigtes Rollout und GPU-Intensiv-Workloads sauber zu tragen.
Die einzige belastbare Antwort ist: Cloud-native Prinzipien ohne Public Cloud. Heißt konkret: Wir nehmen die technischen Muster aus dem Cloud-Engineering mit – Container, deklarative Konfiguration, GitOps, Observability, Zero Trust – und bauen damit eine souveräne On-Premise-Plattform, die auch unter Air-Gap- oder Semi-Connected-Bedingungen funktioniert. In diesem Beitrag skizziere ich erprobte Architektur-Patterns, die wir in Projekten in Bahn, Defense, Fertigung und Aviation genutzt haben, inklusive der harten Trade-offs.
Was “cloud-native ohne Cloud” wirklich bedeutet
Cloud-native beschreibt Architektur- und Betriebsprinzipien, nicht einen Hyperscaler. Entscheidend sind:
- Container-Orchestrierung mit klaren Zuordnungen von Zuständigkeiten (Workload, Netzwerk, Storage, Identität).
- Deklarativer Zustand als Quelle der Wahrheit (Infrastructure as Code, GitOps).
- Automatisierte Software-Lieferkette mit Transparenz (SBOMs, Signaturen, Policies).
- Dichte Observability und nachweisbare Governance (Metriken, Logs, Traces, Audit).
Die Übersetzung in On-Premise:
- Bare-Metal- oder Virtualisierungs-Cluster als Ressourcen-Pool, häufig mit dedizierten GPU-Nodes.
- Private Artifact-Registries und Chart-Repositories im eigenen Netz.
- GitOps-Controller, die aus signierten Repositories desired state auf die Cluster bringen.
- Integrierte Sicherheits- und Compliance-Kontrollen, die offline funktionieren.
Topologie-Patterns für regulierte Umgebungen
1) Air-Gapped Cluster
- Vollständiger Netzabschluss nach außen.
- Software-Updates kommen als signierte Bundles physisch oder via kontrollierte Einbahnstrecken.
- Eignet sich für Defense, Prüffeldumgebungen, Werkshallen ohne Internetfreigabe.
- Trade-off: Höchste Souveränität, aber aufwändige Update-Logistik und eingeschränkter Zugang zu Upstream-Ökosystem.
2) Semi-Connected Cluster
- Zeitweilige oder bandbreitenbegrenzte Verbindung zu einer Staging-Zone (nicht direkt ins Internet).
- Pull-basiertes Sync-Fenster für Artifacts und Konfigurationen, strikte Egress-Kontrollen.
- Gut für Standorte mit definierten Wartungsfenstern oder Leitstellen-Anbindung.
- Trade-off: Besserer Update-Durchsatz, aber Governance muss Egress-Risiken minimieren.
3) Edge-zu-Core
- Edge-Cluster nahe an Maschinen, Zügen, Fluggeräten; zentrales Core-Cluster On-Premise im Rechenzentrum.
- Asynchrone Replikation von Events/Telemetry (Edge -> Core), Konfigurationen und Modelle (Core -> Edge).
- Trade-off: Lokale Latenz und Resilienz an der Edge, plus zentrale Analyse – aber Komplexität in Replikation und Konfliktauflösung.
4) Multi-Site GitOps statt k8s-Federation
- Jede Site ist ein eigenständiger, definiert verantworteter Cluster.
- Re-Use durch gemeinsame, versionierte Konfigurationen und Artifacts; Sites konsumieren freigegebene “Ringe” (dev, staging, prod).
- Trade-off: Kein zentrales Global-Control-Plane-Monster, aber stärkerer Fokus auf Konfigurationsdisziplin.
Souveräne Software-Lieferkette (Supply Chain) ohne Internetabhängigkeit
- Private Registry mit Signaturen: Container-Images, Helm-Charts und sonstige OCI-Artefakte liegen in einer internen Registry. Inhalte sind signiert; Ingress in die sichere Zone ist nur mit gültigen Signaturen möglich.
- Vulnerability Scans und SBOM: Artefakte werden beim Eintritt gescannt; SBOMs (z. B. CycloneDX) werden mitgeliefert. Policy-Gates verbieten unbekannte/unsignierte Komponenten. Wichtig: Scans offline fähig betreiben; Datenbanken zyklisch synchronisieren.
- Promotion-Ringe: Artifacts wandern von Integration zu Staging zu Produktion, jeweils über definierte Gates (Tests, Security-Checks, Kompatibilität).
- Deterministische Builds: Reproduzierbare Build-Umgebungen, BuildKit oder vergleichbar, um Drift zu vermeiden; Build-Container sind selbst signiert und versioniert.
- IaC und GitOps: Infrastruktur- und Applikationszustand sind deklarativ. Ein Merge in den freigegebenen Branch triggert eine Lieferkette, die signierte Bundles erzeugt; Deployments geschehen Pull-basiert am Ziel.
Daten-Governance und Egress-Kontrolle
- Default-Deny fürs Netzwerk: Network Policies standardmäßig restriktiv; Egress nur über dedizierte Gateways mit Layer-7-Inspektion, falls freigegeben.
- Datenklassifikation an der Quelle: Klare Stufen (öffentlich, intern, vertraulich, geheim). Pipelines für Pseudonymisierung/Maskierung bereits vor Persistenz sensibler Felder.
- Verschlüsselung überall: At rest via verschlüsselte Volumes (CSI), in transit via mTLS. Schlüsselverwaltung On-Premise (HSM/KMS), Trennung von Schlüssel- und Datendomänen.
- Event-Streaming mit Schemata: Ereignisse gehen in einen Bus (z. B. Kafka oder NATS JetStream) mit ACLs, Schema-Validierung und Retention-Strategie. Das entkoppelt Produzenten/Verbraucher und erlaubt offline Pufferung.
- Datenabflüsse dokumentieren: Jeder exportierte Datensatz hat einen genehmigten Verwendungszweck, Zeitstempel, Verantwortliche. Auditierbarkeit ist integraler Teil, nicht Add-on.
Observability und Auditierbarkeit ohne externe Abhängigkeiten
- Telemetrie-Standardisierung: OpenTelemetry Collector als Kante, die Metriken/Logs/Traces einsammelt, lokal persistiert und optional zeitversetzt an eine Core-Instanz repliziert.
- Metriken und Logs lokal: Prometheus mit langlebigerem Storage (ggf. Thanos Sidecar, wenn Multi-Site gewünscht) und ein zentrales Logsystem (z. B. Loki). Traces lokal mit definierter Retention.
- Audit-Stream neben Business-Telemetrie: Administrative Aktionen, Policy-Entscheidungen, Modellwechsel, Datenexporte – alles in getrennten, write-once-orientierten Streams mit restriktiver Zugriffskontrolle.
- LLM-spezifische Governance: Für agentische Systeme braucht es Prompt/Output-Telemetrie, Modell- und Policy-Versionierung, sowie Reproduzierbarkeit von Entscheidungen. Eine Plattform wie Alpi-M erfüllt genau das: On-Premise integrierbar, zeichnet Interaktionen versionssicher auf, erzwingt Policies (z. B. erlaubte Tools/Datenräume) und liefert nachvollziehbare Reports für Audits. Entscheidend ist die on-prem und DSGVO-kompatible Bereitstellung ohne US-Cloud-Abhängigkeit.
Updates und Changes im Air-Gap