• OPC UA: Stärken bei semantischer Modellierung, Discovery, Security-Model; geeignet für direkte Maschinenanbindung und strukturierte Zustände. Subscription-basierte Lesemodelle sind gut für deterministische Konsumenten im Shopfloor. OPC UA PubSub kann in TSN-Umgebungen helfen, wenn deterministische Latenz in Ethernet-Domänen gefordert ist. Schwächen: Overhead, wenn man sehr viele Low-Value-Telemetriepunkte “feuert”.
  • MQTT: Leichtgewichtig, exzellent für Edge-Telemetrie und instabile Netze (QoS 0/1/2, Retained Messages, Last Will). Ideal für Flotten, einfache Topics, gerätezentriert. Schwäche: Nicht als historischer Event-Store konzipiert; Retention und Replays sind begrenzt.
  • Kafka: Stark in Durchsatz, Persistenz, Replays, Partitionierung. Als Standort-Backbone zwischen Edge-Services und zentraler Verarbeitung. Schwäche: Ressourcenlastig, Overkill direkt auf Gerät; benötigt Betriebsdisziplin.

Praxispattern:

  • Maschine → OPC UA → Edge-Gateway (normalisiert, validiert) → MQTT zum lokalen Broker (gerätespezifisch, robust) → Bridge in Kafka auf Standortebene (Themen nach Domänen getrennt: vision.raw, vision.infer, maintenance.events). Danach konsumieren Edge- und Standort-Services differenziert.

100 ms sind nicht “schnell”, sie sind ein Budget

Ein Beispiel aus der visuellen Qualitätskontrolle:

  • T0: Kamera-Trigger und Bildaufnahme (10–20 ms je nach Belichtung/Interface)
  • T1: Vorverarbeitung (Demosaic, Crop, Normalize) auf Edge-GPU/CPU (5–15 ms)
  • T2: Inferenz (20–40 ms, Modell- und Hardware-abhängig)
  • T3: Entscheidungslogik und Aktor-Kommando an SPS (5–10 ms)
  • Reserve, Jitter, Puffer (10–20 ms)

Selbst konservativ kalkuliert liegt man um 60–100 ms. Wenn jetzt noch Netzwerkhops in externe Domänen kommen oder unvorhersagbare Jitter einer WAN-Strecke, ist das Budget weg. Die lehrreiche Erkenntnis: Nicht ein einzelner “schneller” Schritt entscheidet, sondern Varianz über die gesamte Kette. Architektur reagiert darauf mit:

  • Fester CPU/GPU-Pinning pro Stage, Realtime-Scheduling wo sinnvoll
  • Kollokation kritischer Komponenten auf demselben Node
  • Zero-Copy-Pipelines (Shared Memory, GPU-to-GPU)
  • Backpressure-Mechanismen in der Pipeline (kein unkontrolliertes Queue-Wachstum)
  • Telemetrie auf Stage-Ebene, um Jitterquellen früh zu erkennen

Flottenbetrieb: Tausende Edge-Geräte ohne Kontrollverlust

Koordination ist eine eigene Disziplin. Die größten Fehler passieren, wenn man Flotten wie einzelne Server behandelt.

  • Identität und Vertrauen: Geräteidentität per x.509 oder SPIFFE-ID, mTLS durchgehend. Schlüsselmaterial in TPM/HSM, Rotation automatisiert. Kein “Shared Secret” für ganze Gerätegruppen.
  • Konfiguration und Rollouts: GitOps als “Single Source of Truth”. Rollouts in Wellen (Canary → Prozent-Rollout → Full), Gate-Kriterien sind SLOs auf Edge-Telemetrie (z. B. Latenz-P95, Fehlerrate, thermische Limits).
  • Content Distribution: On-prem Registry/Repository-Spiegel; Delta-Updates für Modelle und Container, um Bandbreite zu schonen. Air-gapped Transfer über signierte Artefakt-Pakete.
  • Store-and-Forward: Lokale Event-Log-Buffer; idempotente Konsumenten; Retry mit Exponential Backoff. Konfliktlösung bei Duplikaten durch deterministische Event-IDs.
  • Beobachtbarkeit: Edge-gesampelte Metriken, Heatmaps auf Standort-/Flotten-Ebene, Drift-Detektion für Modelle (Datenstatistiken lokal, Alarme zentral nur als Metadaten).

Modellebetrieb unter Souveränitätsauflagen

  • Modell-Governance: Jede Modellversion hat: Trainingsdaten-Footprint (nur Hashes/Statistiken, keine Rohdaten), Hyperparameter, Trainingscode-Commit, Evaluationsmetriken, Signatur. Artefaktketten erlauben Forensik, ohne dass sensible Rohdaten jemals Perimeter verlassen.
  • Validierung vor Ort: Bevor ein Modell produktiv wird, läuft eine Schattenphase an der Edge: inferiert, ohne zu steuern; vergleicht Entscheidungen mit bestehenden Regeln oder menschlichen Labels; erst nach bestandenen Gates wird auf “active” geschaltet.
  • Aktualisierung: Deterministische, reproduzierbare Builds; SBOMs; Signaturprüfung an der Edge; nur Whitelist-Registries; Rollback-Pfade immer vorhanden.
  • LLM/Agenten in der Produktion: Kontextdaten bleiben lokal; Agenten haben strikte Tools mit Berechtigungen (Policy Enforcement). Observability-Events (Prompts, Tool-Calls, Entscheidungen) werden lokal persistiert; nur entpersonalisierte Metriken verlassen das Perimeter, wenn überhaupt. Governance-Plattformen sind on-prem betreibbar, damit “Audit Trails” Teil des Souveränitätsmodells sind.

Training ohne Cloud? Geht – und Hybrid geht auch

  • On-prem Training: Reicht von einem kleinen GPU-Rack im Rechenraum bis zu verteiltem Training. Vorteil: Volle Kontrolle über Daten, deterministische Kosten, weniger rechtliche Reibung.
  • Hybrid: Wenn man zentrale Ressourcen nutzen will, aber keine Rohdaten herausgeben darf: Federated Learning (Modelle lernen lokal, Gradienten/Aktualisierungen werden aggregiert) oder “Feature-Level-Export” (nur abgeleitete, nicht re-identifizierende Merkmale werden übertragen). Dazu klare Datenklassifizierungs- und Anonymisierungs-Policies, die technisch erzwungen werden (Data Contracts).
  • Simulationsdaten: Synthetic Data hilft, Gaps zu schließen, ohne IP zu kompromittieren. Ihr größter Wert liegt darin, Testabdeckungen zu erhöhen, nicht darin, reale Daten vollständig zu ersetzen.

Sicherheit ist keine Schicht, sondern eine Eigenschaft der Pipeline

  • Supply Chain Security: Signierte Container und Modelle, Verified Images, reproduzierbare Builds. Ohne das ist jedes Air-Gap eine Illusion.
  • Laufzeit-Härtung: Least Privilege für jede Komponente (seccomp, AppArmor), trennscharfe Netzwerk-Policies (CNI), kein “alles darf mit allem sprechen”.
  • Secrets-Management: Keine Secrets im Image. Vault-ähnliche Lösungen on-prem, Edge-seitig mit kurzlebigen Tokens und mTLS abgesichert.
  • Remote Attestation: Wo Hardware es erlaubt, Attestation vor Ausführung sensibler Workloads.

TCO realistisch betrachten

  • “Cloud ist günstiger” stimmt nur, wenn Datenvolumina klein, Latenz unkritisch und Compliance-Kosten marginal sind. In IIoT mit Dauerströmen, hochauflösenden Sensoren oder Videodaten frisst Transport und Speicherung die Marge. Edge-Inferenz reduziert Volumen massiv – Sie übertragen nur Entscheidungen/Events statt Rohdaten.
  • Der verborgene Kostentreiber heißt Auditierbarkeit: Jedes Mal, wenn Sie für eine Prüfung Datenpfade, Trainingsherkünfte und Entscheidungslogs rekonstruieren müssen, zahlt sich eine saubere on-prem Artefaktkette aus.

Ein implementierbarer Startpunkt: Minimale Edge-Plattform