Imported Post 2026-04-08 00:15:11

Edge vs. Cloud im IIoT: Wenn On-Premise die einzige sinnvolle Architektur ist

Problemstellung
In industriellen Systemen scheitert ein KI/IIoT-Projekt selten an der Frage, ob ein Modell 2% mehr F1-Score erreicht. Es scheitert daran, dass Daten dort bleiben müssen, wo sie entstehen, auch wenn Entwickler, Auditoren und Lieferanten gerne alles in eine bequeme Public Cloud kippen würden. Latenzvorgaben, intermittente Konnektivität, Safety- und Security-Zonen, Exportkontrolle, Geheimschutz und schlicht IP-Schutz machen viele Architekturen, die im Webumfeld „normal“ sind, im industriellen Umfeld unbrauchbar.

Ich habe in den letzten Jahren zwei Systeme gebaut, die diesen Spannungsbogen gut zeigen:

Cloud-basierte Trainingsplattform für Pilotinnen und Piloten: globaler Zugriff, hoher Compute-Bedarf, geringe Datenschutzsensitivität bei Rohdaten (synthetisch, instrumentiert), klare Cloud-Fit.

Fleet-Intelligence für Eisenbahnnetze: tausende Edge-Knoten entlang von Strecken, harte Echtzeit- und Verfügbarkeitsvorgaben, Betriebsgeheimnisse, behördliche Vorgaben – faktisch Edge-first, On-Premise, Cloud nur für sekundäre Auswertungen.

Dieser Artikel fasst zusammen, wann On-Premise die einzige Option ist, wie man Edge-Flotten in der Größenordnung tausender Geräte beherrscht, welche Protokolle im industriellen Datenpfad wirklich funktionieren und warum 100 ms Latenz den Unterschied zwischen „funktioniert auf der Folie“ und „besteht den Werksabnahmetest“ ausmachen. Roter Faden: Datensouveränität ist keine Marketingfloskel, sondern ein Architekturprinzip mit operativen Implikationen.

Wann Cloud sinnvoll ist – und wann Edge alternativlos ist
Die folgende Einteilung hat sich in Projekten als verlässlich erwiesen. Nicht als Dogma verstehen, sondern als Guardrails für Architekturentscheidungen.

Cloud-fähig (oder Hybrid, Cloud-gestützt)

Modelltraining auf aggregierten, bereits pseudonymisierten oder synthetisierten Daten

Flottenweite Analysen ohne Personen- oder streng vertrauliche Produktionsdaten (z. B. Anomalieraten, Fleet Health)

Simulationspipelines, digitale Zwillinge ohne Rückschluss auf konkrete Betriebsgeheimnisse

Nichtkritische Backoffice-Integrationen (z. B. Ticketing, Wissensmanagement)

Edge/On-Premise alternativlos

Safety-kritische Steuerkreise und Schutzfunktionen (Not-Halt, Kollisionsvermeidung, SIL/PL-relevante Pfade)

Operative Entscheidungen mit <100 ms End-to-End-Latenz oder starker Jitter-Sensitivität

Verarbeitung von Daten mit Geheimschutz, Exportkontrolle oder vertraglich strengen IP-Vorgaben

Anlagen in Zonen mit eingeschränkter oder unzuverlässiger Konnektivität (Tunnel, Offshore, entlegene Werke)

Rechtliche Rahmenbedingungen, bei denen Datenübermittlung an außereuropäische Cloud-Anbieter praktisch nicht auditierbar oder durchsetzbar ist

Verteidigungsnahe Systeme mit Air-Gap-Anforderungen

Die Praxis-Faustregel: Wenn das Weglassen der Internetanbindung in einem FMEA-Workshop als akzeptabler Betriebsmodus gilt, gehört die Kernlogik auf Edge/On-Prem. Cloud ist dann nur eine Optimierungsschicht – niemals eine Betriebsbedingung.

Referenzarchitektur: Souveräne IIoT-Plattform On-Prem
Eine robuste, auditierbare Architektur für industrielle Standorte besteht typischerweise aus sieben Schichten:

1) Feld- und Steuerungsebene

Sensorik/Aktorik, SPS/PLC, CNC, Roboter, Kameras, IPCs

Echtzeitbetriebssysteme und Feldbusse (PROFINET, EtherCAT, CAN, etc.)

Safety-Funktionen strikt getrennt von IT/OT-IT (keine KI-Schleifen im Safety-Pfad)

2) Edge-Gateways

Industrielle Gateways mit TPM/TEE, ausreichend RAM/CPU, optional GPU/TPU/NPU

Protokolladapter: OPC UA Client/Server, Modbus, proprietäre SPS-Protokolle

Pub/Sub-Bus für Telemetrie (MQTT) mit mTLS, CRL/OCSP, hardwaregestützte Schlüssel in TPM

Lokale Inferenzdienste als Container (z. B. ONNX Runtime, TensorRT), Soft-RT-fähiges Linux

3) Standortweiter Event- und Datenbus

MQTT-Broker für IoT-Telemetrie (QoS, Retain, Wildcards)

Kafka oder Kafka-kompatibel (z. B. Redpanda) für hochvolumige Streams, Replays, genau-einmal Semantik auf Standortebene

OPC UA für semantisch reiche, bidirektionale Zustände und Methodenaufrufe (z. B. Job-Trigger, Rezeptwechsel)

4) Stream- und Batch-Verarbeitung

Edge-seitige Streamprozessoren (Flink, ksqlDB) für Low-Latency-Aggregation, Windowing, CEP

Time-Series-Datenbanken (InfluxDB, TimescaleDB) für Metriken, Zustände

Objekt-Storage On-Prem (MinIO, Ceph) für Bild-/Videodumps, Rohdaten, Trainingssets

5) MLOps und Modell-Governance On-Prem

Modell-Registry (z. B. MLflow, Seldon), Signierung, Herkunftsketten (in-toto/SLSA)

Feature Store lokal (Feast/Custom) mit klaren PII/Trade-Secret-Barrieren

Drift-Detection, Shadow-Deployments, Canary-Rollouts am Edge

6) Identität, Sicherheit, Netzwerk

Interne PKI, kurzlebige Zertifikate, rollenbasierte Zugriffe, Gerätezertifikate in TPM

Netzwerksegmentierung (OT/IT/DMZ), Zero Trust zwischen Zonen, applikationsseitige AuthZ

Software-Lieferkettenhärtung: SBOMs, signierte Container, verifizierende Runtime

7) Observability und Betrieb

Metriken/Logs/Traces On-Prem (Prometheus, Loki, OpenTelemetry Collector, Jaeger)

OTA-Update-Infrastruktur mit A/B-Partitionen (Mender, balena, OSTree)

Flottenweite Richtlinien, Health-Checks, Progressive Delivery, Rollback

Cloud-Anbindung, wenn überhaupt, erfolgt kontrolliert:

Datendiät: Nur abgeleitete, aggregierte, entpersonalisierte Daten raus

Asynchron: Store-and-forward, Retry-Backoff, Bandbreitenbudgets

Reproduzierbarkeit: Alles, was in der Cloud gerechnet wird, muss On-Prem deterministisch nachziehbar sein

Protokollwahl im industriellen Datenpfad: MQTT, OPC UA, Kafka – kein Entweder-oder
Die Diskussion „MQTT vs. OPC UA vs. Kafka“ ist meist falsch gestellt. Die drei bedienen unterschiedliche Schnittstellenprobleme.

MQTT (Message Queuing Telemetry Transport)
Stärken: Leichtgewichtig, Pub/Sub, gute Edge-Tauglichkeit, hierarchische Topics, Offline-Pufferung über Clients, QoS 0/1/2, Retained Messages.
Schwächen: Schwacher Typ/Rahmen, keine semantische Selbstdokumentation, nicht für exakt-einmal bei hohen Lasten designt.
Typische Rolle: Telemetrie von Edge-Knoten ins Standort-Backbone; Remote-Command über dedizierte Topics; Brücken zwischen Zellen.

OPC UA (Unified Architecture)
Stärken: Richer Data Model, Discovery, Methodenaufrufe, Subscriptions, Security-Modelle speziell für OT; Companion Specs für Domänen.
Schwächen: Höherer Overhead, komplexeres Profiling/Tuning, Subscription-Skalierung erfordert Know-how.
Typische Rolle: Maschinennahe Integration, Zustände, Parameter, Rezepturen, Befehle; digitale Zwillinge auf Objektknotenebene.