Imported Post 2026-04-29 00:14:04

Edge vs. Cloud im IIoT: Souveränität als Architekturanforderung, nicht als Compliance-Checkliste

Wenn wir über industrielle IoT-Systeme sprechen, beginnt die Architektur nicht bei Protokollen oder Modellen, sondern bei der Frage: Wer kontrolliert in jedem Betriebszustand, was mit den Daten passiert? In Projekten für Pilotenausbildung (Cloud) und Fleet-Intelligence im Bahnsektor (Hybrid) hat sich gezeigt: Souveränität ist kein „nice to have“, sondern ein technischer Zwang, der Latenzbudgets, Deployment-Modelle, Update-Strategien, Protokollwahl und sogar die Form der ML-Pipelines prägt. Cloud ist dort stark, wo Elastizität, Kollaboration und globale Verfügbarkeit im Vordergrund stehen. Edge/On-Premise ist dort alternativlos, wo Bandbreite knapp, Latenz kritisch, Isolation erforderlich oder der Kontrollpfad nicht an Dritte delegiert werden darf. Zwischen beiden Welten liegt ein schmaler, aber definierbarer Hybrid-Korridor.

Was Souveränität in IIoT-Architekturen konkret bedeutet

Viele Diskussionen verwechseln Datenresidenz (wo liegen Bits) mit Souveränität (wer entscheidet technisch durchsetzbar, wer was wann tun kann). Für Systemarchitekturen ist Souveränität die Summe aus:

Kontrolle über den Control-Plane: Identitäten, Zertifikate, Schlüsselmaterial, Richtlinien, Softwarereleases. Wer hält Root of Trust? Wer darf Geräte „claimen“, Policies ändern, Software signieren?
Kontrolle über den Data-Plane: Welche Daten dürfen den Standort verlassen? In welcher Granularität, mit welcher Latenz, in welchem Format? Wer kann darauf zugreifen – auch in Störfällen und Notmodi?
Durchsetzungsfähigkeit: Policies sind keine Dokumente, sondern maschinell erzwingbare Regeln auf Gateways, Edge-Knoten und in der Datenverarbeitung. „Default Deny“ nach außen, explizite Freigaben nach innen.
Auditierbarkeit: Jede Konfigurationsänderung, jede Software-Freigabe und jeder Datenexport sind nachvollziehbar, signiert und rückverfolgbar – auch offline, mit späterer Synchronisation.

Erst wenn diese Fragen technisch beantwortet sind, lohnt die Diskussion über Cloud vs. Edge.

Nichtfunktionale Anforderungen, die On-Premise erzwingen

In der Praxis kristallisieren sich vier harte Treiber heraus, die Edge/On-Premise zur Pflicht machen:

1) Latenz und Determinismus

Geschlossene Regelkreise, sicherheitskritische Abschaltungen, hochfrequente Sensorik: Hier sprechen wir über Millisekunden bis wenige Dutzend Millisekunden als Budget. Jitter ist oft gefährlicher als Mittelwertlatenz.

Mensch-in-der-Schleife (HMI, Assistenzsysteme): Reaktionszeiten unter etwa 100–200 ms sind eine sinnvolle Zielgröße, damit Interaktionen „sofortig“ wirken.

Netzwerkpfade über das öffentliche Netz sind für solche Budgets inhärent unzuverlässig. Selbst „schnelle“ Verbindungen liefern keine garantierte Worst-Case-Latenz.

2) Bandbreite und Kosten

Hochauflösende Bild-/Videodaten, Vibrationsspektren, Ereignisströme aus dutzenden Maschinen: Das Rohdatenvolumen ist zu groß, um dauerhaft in die Cloud zu exfiltrieren. Edge-Vorverarbeitung und Verdichtung sind Pflicht.

3) Betriebsunabhängigkeit und Offline-Fähigkeit

Bahntunnel, Werksgelände mit Funklöchern, maritime oder militärische Einsatzszenarien: Netzpartitionen sind Norm, nicht Ausnahme. Systeme müssen autonom, sicher und nachvollziehbar weiterlaufen.

4) Kontrollierbarer Control-Plane

Wenn ein externer Identitäts- oder Update-Dienst ausfällt oder gesperrt wird, darf nicht die gesamte Flotte stehen. Root of Trust, CA, Paket- und Container-Registry müssen On-Premise beherrschbar sein.

Eine Edge-Referenzarchitektur, die in der Praxis trägt

„Edge“ ist kein einzelnes Gerät, sondern ein verteiltes Subsystem mit klaren Schichten. Bewährt hat sich folgender Aufbau:

Hardware
Industrielle Gateways/Server mit x86/ARM, optional GPU/TPU. Redundante NICs, HW-Root-of-Trust (TPM/SE), out-of-band Management.
Betriebssystem und Laufzeit
Härtbare Distros (z. B. Yocto-basiert, Ubuntu Core), unveränderliche Basissysteme mit atomaren Upgrades (z. B. OSTree).
Containerisierung mit Podman oder Kubernetes-Varianten (k3s/microk8s) für deklaratives Deployment und Isolierung.
Messaging und Datenerfassung
Feldprotokolle/PLCs: OPC UA (Client/Server oder PubSub), Feldbus-Adapter.
Gerät-zu-Gateway: MQTT mit TLS, mutual auth, QoS 1/2 bei Bedarf. Lokale Retained Messages und Backpressure-Handling.
Gateway-zu-Zentrale: Streaming-Brücke Richtung Kafka (Protobuf/Avro, Schema-Registry), optional Pufferung (lokale Zeitreihen-DB oder Append-Only-Log in Parquet/Segmentdateien).
Verarbeitung am Rand
Regel- und Alarm-Engines, Feature-Extraktion, Kompression/Filtering, Inferenz mit ONNX Runtime/TensorRT/OpenVINO.
A/B-/Shadow-Inferenz: Neue Modelle laufen schattiert mit, vergleichen Ausgaben, bevor sie live schalten.
Policy- und Governance-Schicht
Outbound-Filter: Nur geprüfte, aggregierte Daten verlassen den Standort. PII-/Betriebsgeheimnisse werden an der Quelle entfernt/aggregiert.
OPA (Open Policy Agent)-artige Richtlinien am Gateway, signiert, versioniert, offline auswertbar.
Sicherheit und Identitäten
Gerätezertifikate aus eigener PKI, Enrollment via EST/ACME/SCEP-ähnlichen Flows, erneuerbar ohne Internet.
Signierte Container-Images (Cosign), Verified Boot, Secure Update mit Rollback.
Updates und Flottensteuerung
Delta-Updates, gestaffelte Rollouts (Canary), Fensterplanung, erzwungene Pausen bei Anomalien.
Desired-State-Ansatz: Zentrale deklariert Ziel, Edge reconciliert autonom, meldet Status/Ereignisse asynchron.

Worauf die Cloud (oder das On-Prem-Cluster) wirklich gut ist

Selbst wenn Inferenz und Steuerung am Rand passieren, braucht es einen starken „Hub“:

Speicher/Compute
Objektspeicher (S3-kompatibel) für Roh- und abgeleitete Daten, Ceph/MinIO-Cluster On-Prem oder europäische Cloud.
Streaming-Layer (Kafka/Pulsar) mit Schema-Registry. Trennung von Topics für Betriebsdaten, Telemetrie, Events, Modelle.
ML-Ops
Trainingsumgebung auf Kubernetes/Slurm mit GPU-Nodes, reproduzierbare Pipelines (Feature Store, Datenversionierung), Model Registry, signierter Release-Prozess.
Observability
Metriken, Logs, Traces für Edge- und Hub-Komponenten, End-to-End-Korrelation von Ereignissen bis Modellversionen.
Governance
Freigabe-Workflows: Jedes Modell/ jede Policy ist nachvollziehbar, signiert, mit Audit-Trail bis zum Commit/Datensatz.
Datenveredelung
Aggregierte Analysen, Dashboards, Flottenzustand, Predictive-Model-Training mit Daten, die bewusst freigegeben wurden.

Protokollwahl in der Praxis: MQTT, OPC UA PubSub oder Kafka?

Die richtige Wahl ergibt sich aus Kommunikationsrichtung, Gerätetyp und Zuverlässigkeitsanforderungen. Aus der Praxis: