Edge vs. Cloud im IIoT: Souveränität als Architekturanforderung, nicht als Compliance-Checkliste

Wenn wir über industrielle IoT-Systeme sprechen, beginnt die Architektur nicht bei Protokollen oder Modellen, sondern bei der Frage: Wer kontrolliert in jedem Betriebszustand, was mit den Daten passiert? In Projekten für Pilotenausbildung (Cloud) und Fleet-Intelligence im Bahnsektor (Hybrid) hat sich gezeigt: Souveränität ist kein „nice to have“, sondern ein technischer Zwang, der Latenzbudgets, Deployment-Modelle, Update-Strategien, Protokollwahl und sogar die Form der ML-Pipelines prägt. Cloud ist dort stark, wo Elastizität, Kollaboration und globale Verfügbarkeit im Vordergrund stehen. Edge/On-Premise ist dort alternativlos, wo Bandbreite knapp, Latenz kritisch, Isolation erforderlich oder der Kontrollpfad nicht an Dritte delegiert werden darf. Zwischen beiden Welten liegt ein schmaler, aber definierbarer Hybrid-Korridor.

Was Souveränität in IIoT-Architekturen konkret bedeutet

Viele Diskussionen verwechseln Datenresidenz (wo liegen Bits) mit Souveränität (wer entscheidet technisch durchsetzbar, wer was wann tun kann). Für Systemarchitekturen ist Souveränität die Summe aus:

  • Kontrolle über den Control-Plane: Identitäten, Zertifikate, Schlüsselmaterial, Richtlinien, Softwarereleases. Wer hält Root of Trust? Wer darf Geräte „claimen“, Policies ändern, Software signieren?
  • Kontrolle über den Data-Plane: Welche Daten dürfen den Standort verlassen? In welcher Granularität, mit welcher Latenz, in welchem Format? Wer kann darauf zugreifen – auch in Störfällen und Notmodi?
  • Durchsetzungsfähigkeit: Policies sind keine Dokumente, sondern maschinell erzwingbare Regeln auf Gateways, Edge-Knoten und in der Datenverarbeitung. „Default Deny“ nach außen, explizite Freigaben nach innen.
  • Auditierbarkeit: Jede Konfigurationsänderung, jede Software-Freigabe und jeder Datenexport sind nachvollziehbar, signiert und rückverfolgbar – auch offline, mit späterer Synchronisation.

Erst wenn diese Fragen technisch beantwortet sind, lohnt die Diskussion über Cloud vs. Edge.

Nichtfunktionale Anforderungen, die On-Premise erzwingen

In der Praxis kristallisieren sich vier harte Treiber heraus, die Edge/On-Premise zur Pflicht machen:

1) Latenz und Determinismus

  • Geschlossene Regelkreise, sicherheitskritische Abschaltungen, hochfrequente Sensorik: Hier sprechen wir über Millisekunden bis wenige Dutzend Millisekunden als Budget. Jitter ist oft gefährlicher als Mittelwertlatenz.
  • Mensch-in-der-Schleife (HMI, Assistenzsysteme): Reaktionszeiten unter etwa 100–200 ms sind eine sinnvolle Zielgröße, damit Interaktionen „sofortig“ wirken.
  • Netzwerkpfade über das öffentliche Netz sind für solche Budgets inhärent unzuverlässig. Selbst „schnelle“ Verbindungen liefern keine garantierte Worst-Case-Latenz.

2) Bandbreite und Kosten

  • Hochauflösende Bild-/Videodaten, Vibrationsspektren, Ereignisströme aus dutzenden Maschinen: Das Rohdatenvolumen ist zu groß, um dauerhaft in die Cloud zu exfiltrieren. Edge-Vorverarbeitung und Verdichtung sind Pflicht.

3) Betriebsunabhängigkeit und Offline-Fähigkeit

  • Bahntunnel, Werksgelände mit Funklöchern, maritime oder militärische Einsatzszenarien: Netzpartitionen sind Norm, nicht Ausnahme. Systeme müssen autonom, sicher und nachvollziehbar weiterlaufen.

4) Kontrollierbarer Control-Plane

  • Wenn ein externer Identitäts- oder Update-Dienst ausfällt oder gesperrt wird, darf nicht die gesamte Flotte stehen. Root of Trust, CA, Paket- und Container-Registry müssen On-Premise beherrschbar sein.

Eine Edge-Referenzarchitektur, die in der Praxis trägt

„Edge“ ist kein einzelnes Gerät, sondern ein verteiltes Subsystem mit klaren Schichten. Bewährt hat sich folgender Aufbau:

  • Hardware
  • Industrielle Gateways/Server mit x86/ARM, optional GPU/TPU. Redundante NICs, HW-Root-of-Trust (TPM/SE), out-of-band Management.
  • Betriebssystem und Laufzeit
  • Härtbare Distros (z. B. Yocto-basiert, Ubuntu Core), unveränderliche Basissysteme mit atomaren Upgrades (z. B. OSTree).
  • Containerisierung mit Podman oder Kubernetes-Varianten (k3s/microk8s) für deklaratives Deployment und Isolierung.
  • Messaging und Datenerfassung
  • Feldprotokolle/PLCs: OPC UA (Client/Server oder PubSub), Feldbus-Adapter.
  • Gerät-zu-Gateway: MQTT mit TLS, mutual auth, QoS 1/2 bei Bedarf. Lokale Retained Messages und Backpressure-Handling.
  • Gateway-zu-Zentrale: Streaming-Brücke Richtung Kafka (Protobuf/Avro, Schema-Registry), optional Pufferung (lokale Zeitreihen-DB oder Append-Only-Log in Parquet/Segmentdateien).
  • Verarbeitung am Rand
  • Regel- und Alarm-Engines, Feature-Extraktion, Kompression/Filtering, Inferenz mit ONNX Runtime/TensorRT/OpenVINO.
  • A/B-/Shadow-Inferenz: Neue Modelle laufen schattiert mit, vergleichen Ausgaben, bevor sie live schalten.
  • Policy- und Governance-Schicht
  • Outbound-Filter: Nur geprüfte, aggregierte Daten verlassen den Standort. PII-/Betriebsgeheimnisse werden an der Quelle entfernt/aggregiert.
  • OPA (Open Policy Agent)-artige Richtlinien am Gateway, signiert, versioniert, offline auswertbar.
  • Sicherheit und Identitäten
  • Gerätezertifikate aus eigener PKI, Enrollment via EST/ACME/SCEP-ähnlichen Flows, erneuerbar ohne Internet.
  • Signierte Container-Images (Cosign), Verified Boot, Secure Update mit Rollback.
  • Updates und Flottensteuerung
  • Delta-Updates, gestaffelte Rollouts (Canary), Fensterplanung, erzwungene Pausen bei Anomalien.
  • Desired-State-Ansatz: Zentrale deklariert Ziel, Edge reconciliert autonom, meldet Status/Ereignisse asynchron.

Worauf die Cloud (oder das On-Prem-Cluster) wirklich gut ist

Selbst wenn Inferenz und Steuerung am Rand passieren, braucht es einen starken „Hub“:

  • Speicher/Compute
  • Objektspeicher (S3-kompatibel) für Roh- und abgeleitete Daten, Ceph/MinIO-Cluster On-Prem oder europäische Cloud.
  • Streaming-Layer (Kafka/Pulsar) mit Schema-Registry. Trennung von Topics für Betriebsdaten, Telemetrie, Events, Modelle.
  • ML-Ops
  • Trainingsumgebung auf Kubernetes/Slurm mit GPU-Nodes, reproduzierbare Pipelines (Feature Store, Datenversionierung), Model Registry, signierter Release-Prozess.
  • Observability
  • Metriken, Logs, Traces für Edge- und Hub-Komponenten, End-to-End-Korrelation von Ereignissen bis Modellversionen.
  • Governance
  • Freigabe-Workflows: Jedes Modell/ jede Policy ist nachvollziehbar, signiert, mit Audit-Trail bis zum Commit/Datensatz.
  • Datenveredelung
  • Aggregierte Analysen, Dashboards, Flottenzustand, Predictive-Model-Training mit Daten, die bewusst freigegeben wurden.

Protokollwahl in der Praxis: MQTT, OPC UA PubSub oder Kafka?

Die richtige Wahl ergibt sich aus Kommunikationsrichtung, Gerätetyp und Zuverlässigkeitsanforderungen. Aus der Praxis: