Imported Post 2026-04-29 00:14:03

Cloud-native vs On-Premise in regulierten Branchen: Muster statt Meinungen

Die Diskussion „Cloud-native oder On-Premise?“ ist im öffentlichen Web schnell beendet: alles in die Cloud, DevEx maximieren, elastisch skalieren. In regulierten Industrien ist die Frage anders gestellt. Dort geht es nicht um Bequemlichkeit, sondern um Souveränität: Wer kontrolliert Daten, Modelle, Lieferketten und Betriebsprozesse? Wie halten wir Systeme auditierbar, upgradefähig und deterministisch – auch ohne Internetverbindung?

Aus unseren Projekten (Vermessungssysteme, Fleet Intelligence im Bahnsektor, cloudbasierte Trainingsplattformen, visuelle Qualitätskontrolle in der Fertigung) ist die nüchterne Erkenntnis: Es gibt keine binäre Entscheidung. Erfolgreiche Architekturen kombinieren Cloud-Prinzipien (Deklarativität, Automatisierung, Isolierung, Observability) mit souveränen Infrastrukturen (Rechenzentrum des Kunden, Edge, Air-Gap). In diesem Beitrag geht es nicht um Hype, sondern um Muster und Trade-offs, die in sicherheitskritischen und datensouveränen Umgebungen funktionieren.

Problemraum sauber aufspannen

Bevor Technologien ausgewählt werden, lohnt ein Constraint-Matrix. Typische Dimensionen in regulierten Branchen:

Latenz und Determinismus: Entscheidungen im Millisekundenbereich (z. B. Inferenz am Band) vs. Batch-Verarbeitung über Nacht (z. B. Flottenauswertung).
Konnektivität: Volle Offline-Fähigkeit, sporadische Synchronisation, Air-Gap mit manueller Freigabe. Internet oft nicht verfügbar oder nicht erlaubt.
Rechtliche Vorgaben: DSGVO, Exportkontrollen, Geheimhaltungsstufen, Datenlokalisierung. Audit-Pflichten und Aufbewahrungsfristen.
Lieferkettensicherheit: Keine US-Cloud-Abhängigkeit, überprüfbare Artefakte, signierte Deployments, Reproduzierbarkeit.
Operator-Modell: Betrieb durch interne IT/OT, restriktive Change-Fenster, Schichtbetrieb, begrenzte personelle Kapazitäten.
Lebensdauer: 10+ Jahre; Ersatzteile wechseln, Software muss evolvierbar bleiben.

Antipatterns, die wir vermeiden

Cloud-SaaS „lift-and-shift“ ins Rechenzentrum kopieren: gleiche Komplexität, aber ohne die SRE-Teams, die es täglich betreiben. Ergebnis: fragiles System.
Air-Gap ignorieren, bis kurz vor Go-Live: Dann fehlen Artifaktkette, Signierung und Offline-Update-Prozess – und es gibt Delay um Monate.
Monolith reflexhaft in Dutzende Microservices zerschneiden: Für kleine Teams führt das schneller zu Betriebsrisiko als zu Flexibilität.
Sicherheit als „Perimeter“ definieren: In modernen Netzen sind Identitäten und Workload-Isolation robuster als Firewallschichten.

Stattdessen: Architekturmuster, die sich bewähren

Muster 1: Deklarativer Steuerungspfad mit Git als Herz

Ziel: Gewünschter Zustand des Systems (Infrastruktur, Applikationen, Policies) ist deklarativ versioniert und auditierbar. Keine „ClickOps“ in der Produktion.
Umsetzung:
Ein zentrales Repository pro Domäne (z. B. Infrastruktur, Plattform, Geschäftslogik).
Build-Pipeline erzeugt signierte Artefakte (Container-Images, Pakete), inklusive SBOM und Provenienznachweis.
Ein „GitOps“-Kontrollprozess im Zielnetz (ohne Internet) reconciliert gewünschten und aktuellen Zustand. Pull statt Push ist im Air-Gap robuster.
Changes gehen durch Freigabe-Workflows mit Vier-Augen-Prinzip; für Notfälle gibt es „Break-Glass“-Prozeduren mit vollständigem Audit-Log.
Trade-off:
Vorteile: Reproduzierbarkeit, Nachvollziehbarkeit, Trennung von Build- und Run-Umgebung.
Kosten: Initiale Einrichtung (Signierung, Artefakt-Registry, Policies) ist nicht trivial. Diese Kosten zahlen sich über die Lebensdauer aus.

Muster 2: Identitäten vor Geheimnissen

Ziel: Kurzlebige, überprüfbare Workload-Identitäten ersetzen langlebige statische Secrets. Maschinenauthentifizierung ist Kern statt Beigabe.
Umsetzung:
Private PKI/CA im Kundennetz; alle Services, Nutzer, Maschinen haben X.509- oder vergleichbare Identitäten.
Service-zu-Service-Authentifizierung basiert auf mTLS mit rollenbasierten Policies.
Token sind kurzlebig; Rotation automatisiert. Secrets liegen nicht in Images, nicht in Git.
HSM-Integration für Root-Keys; CA-Rollovers sind geprobt und dokumentiert.
Trade-off:
Vorteile: Minimiert Blast-Radius, vereinfacht Audit.
Kosten: Betrieb einer PKI, Schulung des Teams. Aber ohne das wird On-Premise schnell zu einem Zoo aus statischen Passwörtern.

Muster 3: Datenflüsse als erste Bürger, Netze als unzuverlässig behandeln

Ziel: Auch bei Paketverlust, intermittierender Konnektivität und Reboots bleiben Datenkonsistenz und Prozessfortschritt gewährleistet.
Umsetzung:
Ereignisorientierte Architektur mit klaren Domänen-Events. Persistente Queues vor langsameren Downstream-Systemen (Outbox-Pattern).
At-least-once-Delivery mit Idempotenz-Strategien auf Konsumentenseite. Exactly-once wird schnell zur Falle.
Replikation zwischen Standorten als asynchroner Strom; Konfliktlösung und Merge-Strategien sind explizit definiert.
Große Binärdaten (z. B. Bilder) aus Event-Payloads auslagern; referenzieren über Content-Addressing (Checksummen).
Trade-off:
Vorteile: Robust unter realen Netzbedingungen, klare Backpressure-Punkte.
Kosten: Höhere Designdisziplin (Event-Schemata, Idempotenz, Reprocessing).

Muster 4: Observability ohne Datenabfluss

Ziel: Vollständige Nachvollziehbarkeit von Verhalten und Leistungsdaten, ohne Telemetrie unkontrolliert nach außen zu senden.
Umsetzung:
Zentrale Telemetrie-Speicherung im Kundennetz: Logs, Metriken, Traces, plus Audit-Events. Retentions- und Redaktionsregeln sind Teil der Policies.
Sampling-Strategien für Traces; Event-Korrelation über Request- und Domain-IDs.
Für KI/LLM-Komponenten: Prompt-, Kontext- und Output-Logging mit PII-Redaktion; Evaluationsmetriken lokal. Agentenaktionen werden als Events modelliert und mit Ein- und Ausgaben verknüpft. So entsteht Governance, ohne die Souveränität aufzugeben.
Trade-off:
Vorteile: Audits werden möglich, Fehleranalyse beschleunigt.
Kosten: Mehr Storage und striktes Schema-Management; dafür keine Diskussionen über Datenabfluss.

Muster 5: Update- und Lieferkette zuerst bauen, nicht zuletzt

Ziel: Kein Artefakt betritt die Produktionsdomäne ohne Herkunftsnachweis und Signatur; Upgrades sind plan- und reversierbar – auch offline.
Umsetzung:
Build in einer isolierten CI-Umgebung. Ergebnisse: Image, SBOM, Provenienzdokument, Signatur.
Transfer in die Zielumgebung über einen kontrollierten Pfad (z. B. Wechseldatenträger, DMZ-Proxy), inklusive Anti-Malware-Scan.
Lokale Registry/Repository spiegelt freigegebene Artefakte. Der GitOps-Controller holt nur signierte Artefakte.
Rollouts: gestaffelt (Canary, Stages), mit Health-Gates; Rollbacks sind erster Klasse Bürger.
Trade-off:
Vorteile: Verteidigt gegen Supply-Chain-Angriffe, minimiert „Snowflakes“.
Kosten: Anfangsinvest in Werkzeuge und Prozesse; dafür weniger nächtliche Feuerwehreinsätze.