Souveräne IIoT-Architekturen: Wann On-Premise alternativlos ist – und wie Edge/Cloud-Hybride wirklich stabil laufen

Problem vor Technologie: In industriellen IIoT-Systemen kollidieren drei harte Zwänge genau dort, wo viele “Cloud-first”-Konzepte weich werden: strikte Latenzbudgets im Millisekundenbereich, unterbrochene oder teure Konnektivität am Rand des Netzes und nicht verhandelbare Datensouveränität über Betriebs- und Personendaten. In unseren Projekten – von cloudbasierten Trainingsplattformen in der Luftfahrt bis hin zu Fleet-Intelligence-Systemen im Bahnumfeld – zeigt sich immer wieder: Die Cloud ist ein hervorragendes Werkzeug, aber nur dann, wenn sie nicht zum Lock-in für Betriebsentscheidungen, Datenklassifikation und Sicherheitsarchitektur wird. Souveränität ermöglicht Intelligenz, nicht umgekehrt.

Dieser Beitrag adressiert, wann On-Premise die einzige sinnvolle Option ist, wie souveräne Hybridarchitekturen aufgebaut werden, welche Protokolle in welcher Schicht funktionieren und wie man tausende Edge-Geräte deterministisch koordiniert. Latenzbudgets und Governance ziehen sich als roter Faden durch.

1) Entscheidungsrahmen: Edge, On-Prem oder Cloud?

Anstelle religiöser Architekturdebatten lohnt ein Prüfraster, das sich in der Praxis bewährt hat:

  • Latenz und Determinismus: Braucht der Regelkreis vom Ereignis (z. B. Sensoranomalie) bis zur Aktion (z. B. Anlagenstopp) konsistent <100 ms, ist Cloud-Inferenz faktisch ausgeschlossen. Nicht wegen Rechenzeit, sondern wegen Netzwerkjitter, WAN-Hops und fehlender Deterministik. Hier gehört die Inferenz an die Maschine oder zumindest ins lokale Werksnetz.
  • Konnektivität und Ausfallmodi: Wenn Feldstandorte Intervall-Konnektivität haben (Tunnel, ländliche Gebiete, maritime/ferne Standorte), muss der Default-Betriebsmodus offline-stabil sein. Store-and-forward, lokale Buffer und idempotente Wiederholung sind Pflicht. Cloud wird zur Optimierungsschicht, nicht zur Betriebsvoraussetzung.
  • Datenklassifikation: Produktionsrezepte, Qualitätsbilder, Bewegungsdaten von Mitarbeitern – sobald diese Daten besonders schützenswert sind, gilt “Daten verlassen das Werk nur, wenn es einen guten Grund gibt”. Der Default ist On-Premise-Verarbeitung mit expliziten, protokollierten Exportpfaden.
  • Prozesskopplung: Wenn ML-Entscheidungen unmittelbar in Safety- oder Business-kritische Prozesse greifen (z. B. Bremssystemtest, Notabschaltungen, sicherheitsrelevante Montageprüfung), muss die Abhängigkeit von externen Diensten minimal sein. Auch organisatorisch: Wer trägt Verantwortung bei Störung?
  • Rechtsraum und Lieferkette: Unterschiedliche Rechtsräume und Drittlandzugriffe sind ein Risiko, das man nicht mit Technik “wegarchitekturiert”. On-Premise bzw. europäisch souveräne Infrastrukturen sind nicht Ideologie, sondern Risikosteuerung.
  • Betriebskosten real rechnen: Daten billig reinschieben, teuer wieder rausbekommen – diese Kostendynamik ist real. Wer Terabytes an Video-/Sensorikdaten in eine Cloud hebt, zahlt für Egress, Abfragen, Langzeitarchiv. On-Prem-Objektspeicher und lokale Lakehouse-Ansätze sind ökonomisch oft überlegen, wenn Datenvolumen und Verweilzeiten hoch sind.

Kurz: Cloud ist ein Werkzeug, kein Ort. Edge/On-Prem ist alternativlos, wenn Latenz, Souveränität und Offline-Fähigkeit harte Anforderungen sind. Hybrid wird interessant, wenn wir Trainings-Workloads entkoppeln können.

2) Referenzarchitektur für souveräne IIoT-Systeme

Aus Projekterfahrung ergibt sich ein Setup mit klaren Zonen und harten Übergängen:

  • Feld-/OT-Zone: SPS/PLC, Kameras, Steuergeräte, TSN-Netzwerke. Kommunikation über industrielle Protokolle (OPC UA für Semantik/PLC-Integration, ggf. TSN für harte Echtzeit). Sensorfusion und Vorverarbeitung so nah wie möglich an der Quelle. Zeitbasis über PTP, wo deterministisch notwendig.
  • Edge-Schicht (Zelle/Linie/Vehicle): Industrielle Gateways oder IPCs mit Hardware-Root-of-Trust (TPM), TPM-gebundene Geräteidentität, signierte Container/Images. Aufgaben:
  • Inferenz und lokale Regelung
  • Pufferung (Store-and-forward) für Telemetrie und Rohdaten
  • Datenminimierung/Anonymisierung vor jeglichem Verlassen der Zelle
  • Lokaler MQTT-Broker für lose gekoppelte Sensor-/Aktoren-Kommunikation
  • Vor-Ort-Visualisierung und Operator-HMI
  • On-Prem-Core (Werksrechenzentrum/Leitstelle):
  • Nachrichtenzwischenlage: MQTT für Edge-Pub/Sub, Kafka als Backbone für Hochvolumenstrom, Bridge mit sorgfältiger Schema-Übersetzung
  • Schema-Governance: klare, versionierte Schemas (z. B. Avro/Protobuf) für Datenstandards ab der Factory-Grenze. In der OT-Zone kann OPC UA-Semantik verbleiben; Übersetzung in generische Ereignisse erfolgt an der Edge-Brücke
  • Persistenz: Timeseries-Datenbank für Telemetrie, S3-kompatibler Objektspeicher für Rohbilder/Signale, relationales System für Stammdaten und Konfiguration
  • Stream Processing: On-Prem-Streaming-Jobs für Alarmierung, Aggregationen, Qualitätskennzahlen
  • MLOps on-prem: Model Registry, Feature-Kataloge (Edge-kompatibel), Trainingsdaten-Lake mit kuratierten Exportpfaden
  • PKI, Secrets, kurzlebige Zertifikate, mTLS überall, wo Geräte/Services sprechen
  • Optionale Cloud-Schicht:
  • Nur für Workloads ohne harte Latenz/Souveränitätsbindung: Simulationen, nicht-sensible Dashboards über aggregierte/anononymisierte Daten, optionales Scalout für Trainingsjobs
  • Sovereignty Gate: Ausgehende Datenflüsse sind explizit, genehmigt, protokolliert und technisch erzwungen (z. B. nur vordefinierte, transformierte Datensätze)

Sicherheitsgrundsätze:

  • Zero-Trust zwischen Zonen, minimal erforderliche Ports/Pfade
  • Einwegmuster, wo sinnvoll (z. B. Daten-Dioden-Design vom Feld in Richtung Core)
  • Geräteidentität über TPM-gestützte Zertifikate, Remote Attestation vor dem Zulassen von Workloads
  • Software Bill of Materials (SBOM) pro Edge-Build, signierte Updates, reproduzierbare Builds

3) Warum 100 ms den Unterschied machen

“Echtzeit” wird häufig missverstanden. Für ML-basierte Inline-Entscheidungen ist nicht nur die mittlere Latenz relevant, sondern die Varianz (Jitter) im End-to-End-Pfad:

  • Latenzbudget-Beispiel visuelle Qualitätskontrolle:
  • Kamera-Exposure + Sensor-Readout: 8–12 ms
  • Vorverarbeitung (Resize, Normalize): 2–5 ms
  • Inferenz (optimiertes, quantisiertes Modell): 5–20 ms je nach Hardware
  • Entscheidung/PLC-Handshake: 5–15 ms
  • Sicherheitsmarge (Jitter): 20–40 ms

Summe liegt schnell bei 60–90 ms. Jeder zusätzliche Hop (Edge -> Cloud -> Edge) frisst das Budget auf.