Imported Post 2026-04-22 00:15:14

Edge vs. Cloud im industriellen IoT: Wann On-Premise die einzige Option ist

Souveränität ermöglicht Intelligenz. Wer in Defense, kritischer Infrastruktur oder der vernetzten Produktion ernsthaft KI und IIoT skaliert, landet sehr schnell bei einer unbequemen Wahrheit: Die Cloud ist nicht das Default. Es gibt genügend Szenarien, in denen On-Premise die einzige Option ist – nicht aus Nostalgie, sondern aus harten technischen, regulatorischen und betrieblichen Gründen.

Dieser Beitrag betrachtet das Thema problemorientiert. Ich skizziere die Engineering-Entscheidungen, die wir in Projekten für Bahnen (Fleet Intelligence), die Luftfahrt (Pilotentrainingsplattform) und Defense-Umfelder wiederholt treffen mussten. Der rote Faden ist Datensouveränität: Architekturentscheidungen, die Unabhängigkeit und Kontrolle sichern, sind die Grundlage für zuverlässige, sichere und letztlich intelligente Systeme.

1. Vier harte Constraints, die die Cloud ausschließen

Es gibt vier technische Randbedingungen, die – jede für sich – Cloud-only-Architekturen disqualifizieren. In Kombination sind sie eindeutig.

Latenz und Determinismus:
Steuerkreise und Inspektionspipelines benötigen feste Latenzbudgets, oft im Bereich von 10–100 ms End-to-End. Es geht nicht nur um Mittelwerte, sondern um Jitter und deterministisches Verhalten.
WAN- und Internetpfade sind best-effort. Selbst bei nominal 20–40 ms RTT erzeugen Jitter, Congestion und Paketverluste unvorhersehbare Schwankungen, die geschlossene Regelkreise oder Sicherheitslogik destabilisieren.

Verfügbarkeit und Inselbetrieb:
Anlagen müssen auch bei WAN-Ausfall sicher und produktiv weiterlaufen. „Site Autonomy“ heißt: alle kritischen Pfade lokal, inklusive Persistenz, Identität, Caches, Modelle und Entscheidungslogik.
Cloud kann optional sein – niemals kritisch.

Datensouveränität und Regulatorik:
In Defense und kritischer Infrastruktur sind Datenräume, Schlüsselmaterial, Identitäten und Policies unter eigener Kontrolle zu halten. DSGVO ist Basis, aber die operative Souveränität geht darüber hinaus: Keine Exfiltration, nicht nur „wo liegt es“, sondern „wer kontrolliert den Stack“.
Datenminimierung ist nicht optional: Nur Features oder abgeleitete Artefakte verlassen die Anlage – wenn überhaupt.

Netzwerktopologie und Daten-Gravity:
Kamerastreams, Vibrationssensorik, Telemetrie aus tausenden Knoten: Die Rohdatenvolumina sind hoch, Bandbreiten kostbar. Sinnvolle Verdichtung, Feature-Extraktion und Filtering gehören an den Rand des Netzes.

Wenn Ihr System eines dieser Kriterien hart erfüllt, gibt es keine Diskussion: On-Premise/Edge zuerst. Cloud kann später Mehrwert liefern – Analytics, Flottenvergleich, Simulation, Retraining – aber nicht den Kernbetrieb dominieren.

2. Latenzbudget und deterministische Pfade: warum 100 ms den Unterschied machen

Es ist verführerisch, „schnelles Internet“ mit „schneller Steuerung“ gleichzusetzen. In der Praxis zählt jedoch deterministische End-to-End-Latenz inklusive Jitter-Budget. Beispiele:

Visuelle Fehlererkennung am Band:
Pipeline: Frame Capture → Preprocessing → Inferenz → Entscheidung → Aktorik/Abwurf.
Jedes Hop (Bilderfassung, Pre-/Postprocessing, Scheduler, IO) hat feste Budgets. Spikes von 30–50 ms ruinieren F1-Scores oder führen zu Fehlgriffen.

Remote-Assistance mit Sicherheitsfreigaben:
Mensch-in-der-Schleife mit HMI. 80–120 ms zusätzliche Latenz verändern Bedienbarkeit und Sicherheitsschwellen.

Edge-Pattern für deterministische Pfade:

Zeit-Synchronisation per PTP auf der Anlage; Zeitsensitive Netze (TSN) für deterministische Layer-2-Pfade.

Lokale Message-Broker und Shared-Memory-Plug-ins statt weite Netzwerk-Hops.

Inferenz auf GPU/TPU am Edge-Knoten, Postprocessing lokal; nur Entscheidungen oder komprimierte Features verlassen die Anlage.

Keine harten Abhängigkeiten zu Remote-Diensten im kritischen Pfad.

3. Site Autonomy: Inselbetrieb als Designziel

„Funktioniert auch offline“ ist kein nice-to-have. Es ist eine Architekturanforderung.

State-Management:
Ereignisorientierte Persistenz lokal (z. B. Event-Sourcing), Append-Only-Logs pro Anlage, idempotente Replay-Fähigkeit.
Lokale Stores wie RocksDB/SQLite pro Service, Snapshots als Recovery-Punkte.

Datenübertragung bei Wiederanbindung:
Store-and-forward mit Wasserzeichen; Konfliktlösung per Versionsvektoren, deterministische Merge-Strategien.
QoS-Levels für Telemetrie (kritisch, wichtig, best-effort) und gestaffelter Upload.

Identität und Secrets:
Lokaler Root-of-Trust: TPM-gestützte Schlüssel, Offline-CRL/OCSP-Spiegel.
Rollen- und Policy-Engine on-prem, mit eventual Consistency zur Zentrale.

Observability vor Ort:
Logs, Metriken, Traces lokal aggregiert; SLO-Monitoring auf Edge-Niveau.
Remote-Export, wenn Verbindung steht; keine Korrelation im WAN voraussetzen.

4. Datensouveränität praktisch: Minimieren, lokalisieren, kontrollieren

Souveränität ist kein PDF im Governance-Ordner, sondern Laufzeitverhalten.

Datenminimierung als Pipeline-Schritt:
Feature-Engineering am Edge. Aus Rohbildern werden Feature-Vektoren; aus Vibrationssignalen werden Spektralmerkmale. Rohdaten verbleiben lokal, Features sind einstellbar und auditierbar.
Herausgabe nur nach Policy: Freigabewege sind technische Gates, nicht Prozesse auf Zuruf.

„Feature export, not data export“:
Zentrale Analytik arbeitet auf abstrahierten, schematisierten Ereignissen.
Digital Twins im Backend referenzieren lokale IDs; Pseudonymisierung/Tokenisierung vor jedem Export.

Schlüssel- und Policy-Hoheit:
On-Prem KMS/HSM, alle Artefakte (Container, Modelle, Konfiguration) signiert; Verifikation am Edge.
Update-Policies und Rollbacks ohne externe Abhängigkeiten.

5. Protokolle richtig kombinieren: OPC UA, MQTT, Kafka – kein Entweder-oder

Wer in Brownfield-Umgebungen unterwegs ist, benötigt Brücken und klar getrennte Verantwortungsebenen.

Ebene Feld/PLC:
OPC UA für semantischen Zugriff auf Steuerungen, Browsing des Address Space, Typensysteme. Sinnvoll, wenn Engpass Steuerungsintegration ist.
OPC UA PubSub/TSN, wenn deterministische Kommunikation auf Layer 2 gebraucht wird.

Ebene Edge-Knoten:
MQTT für leichtgewichtige Pub/Sub zwischen Geräten und Edge-Services, QoS 1/2 bei sensibler Telemetrie, Retain für Zustände.
Topics klar namespacen: site/{id}/line/{id}/device/{id}/signal/{name}.

Ebene Linien-/Werksaggregation:
Kafka (oder kompatibel) als Hochdurchsatz-Backbone für normalisierte Ereignisse.
Schema-Registry (Avro/Protobuf) erzwingt Vertragstreue, Versionsierung und Abwärtskompatibilität.
Connectors/Bridges: OPC UA → MQTT Mapper; MQTT → Kafka Bridge mit Schematransformation.

Dieses Muster macht Systeme evolvierbar: Feldintegration bleibt stabil, Edge bleibt leichtgewichtig, und die Aggregation kann skalieren, ohne Geräte zu beeinflussen.

6. Flottensteuerung: Tausende Edge-Geräte, aber kein Kontrollverlust