Protokollwahl: MQTT, OPC UA, Kafka – wofür, wo und wie kombinieren?

  • OPC UA
  • Stärken: Industrielle Semantik, Adressraum-Modellierung, etablierte Security-Mechanismen
  • Einsatz: Verbindung zu Maschinen/PLCs, wenn Semantik und herstellerübergreifende Interoperabilität wichtig sind
  • Trade-offs: Höhere Komplexität; für hochvolumige Event-Ströme weniger effizient
  • MQTT
  • Stärken: Leichtgewichtig, gute Eignung für instabile Netze, QoS-Stufen
  • Einsatz: Geräteleben, Telemetrie, Command/Control; mit Sparkplug B lässt sich ein konsistentes Industriemodell abbilden
  • Trade-offs: Topic-Wildwest ohne strenge Konventionen; kein eingebautes Replay
  • Kafka (oder kompatible Logs)
  • Stärken: Hohe Durchsätze, Replays, Backpressure-Kontrolle, Partitionierung
  • Einsatz: Lokale Site-Backbones für hochvolumige Sensorik (Video, Vibration), zentrale Analytics-Pipelines
  • Trade-offs: Ressourcenhungriger; Overkill für Kleingeräte oder reine Command/Control-Pfade
  • Kombinationsmuster
  • Feld → OPC UA → Edge-Adapter → MQTT (Sparkplug B) für Anlagenstatus
  • Hochvolumiges (z. B. Frames, FFTs) → lokales Kafka + kompakte Feature-Extraktion → MQTT Events für Entscheidungen
  • Brücken mit klarer Semantik: Mapping-Tabellen, Schemas im Repository, Versionierung, Fallback-Strategien

Fleet Management für tausende Edge-Geräte

  • Identität und Vertrauensanker
  • Geräteidentität bei Produktion/Inbetriebnahme vergeben (z. B. X.509, Ed25519)
  • Kurzlebige Tokens, regelmäßige Rotation, Revocation-Listen
  • Zero-Trust: Jede Verbindung ist neu zu beweisen, keine impliziten Vertrauenszonen
  • Software-Lieferkette
  • Artefakte als OCI-Images; Signaturen verpflichtend
  • Transaktionale Updates (z. B. A/B-Partitionen, atomare Commits)
  • Delta-Updates, Bandbreitenlimits, Wartungsfenster
  • Laufzeit-Isolation
  • Container mit read-only RootFS, nur definierte Volumes beschreibbar
  • Ressourcenlimits hart (CPU, RAM, IO) pro Workload; Prioritätsklassen
  • Watchdogs, Supervisor-Prozesse, automatisches Rollback bei Healthcheck-Fails
  • Observability, aber souverän
  • Pull-basiertes Metrics-Scraping verringert Angriffsfläche
  • Ereignisprotokolle manipulationssicher gestalten (Signaturen/Hash-Chains)
  • Remote Shells vermeiden; stattdessen deklarative Aktionen mit Audit-Trail
  • Konfigurationsstrategie
  • Desired-State-Modelle (z. B. CRDs) statt Ad-hoc-Skripte
  • Variantenmanagement: Flotten in Kohorten, Policies pro Kohorte
  • Rollouts als Experimente: Canary, Progressive Delivery, Halt-Kriterien

Latenztechnik: Warum 100 ms den Unterschied machen

  • Budgetierung
  • Sensorlesen: 5–10 ms (abhängig von Bus und Abtastung)
  • Preprocessing: 10–20 ms (z. B. Denoising, ROI-Cut)
  • Inferenz: 10–50 ms (abhängig von Modell, Hardware)
  • Entscheidung/Aktorik/Alarm: 5–10 ms
  • Netzwerkslack: 10–20 ms (nur lokal, keine WAN-Abhängigkeit)
  • Jitter-Quellen und Gegenmaßnahmen
  • CPU-Scheduling: Isolierte Kerne, RT-Prioritäten für kritische Threads
  • Speicher: Pinned Memory, Preallocation, keine on-the-fly Alokationen im Hot Path
  • Garbage-Collection: Keine GC im Hot Path; native oder Low-GC-Laufzeiten
  • I/O: Async I/O, Batching, Zero-Copy-Pfade wo möglich
  • Modelldienste: Warm Starts, vorab geladene Gewichte, Tensor-RT/ONNX-Optimierungen
  • Netzwerk
  • Layer-2 bevorzugen, deterministische Switches, QoS für Prioritätsklassen
  • Kein DNS im Hot Path; statische Endpunkte, lokales Service-Discovery

Datensouveränität als Architekturprinzip

  • Daten-Mindestprinzip
  • Nicht alles sammeln, was man sammeln könnte; definieren, welche Features wirklich nötig sind
  • Vor-Ort-Anonymisierung/Pseudonymisierung, wenn Daten das Gelände verlassen
  • Trennung von Daten- und Steuerungsebene
  • Sensible Rohdaten bleiben lokal; nur Modelle, Policies und de-identifizierte Statistiken gehen zentral
  • Audits verlangen Nachvollziehbarkeit: Wer hat wann welche Daten gesehen/übertragen?
  • Modellgovernance on-prem
  • Signierte Modelle, Freigabeprozesse, reproduzierbare Builds
  • Blackbox-Modelle ohne Reproduzierbarkeit sind in sicherheitsrelevanten Umgebungen schwer zu vertreten
  • LLM-gestützte Systeme in der Industrie
  • Retrieval und Wissensbasis lokal; keinerlei Prompt-/Kontextdaten an externe APIs
  • Agenten mit restriktiven Tools; jede Aktion ist nachvollziehbar, reversibel, begrenzt
  • Observability der Agenten on-prem: Token- und Tool-Logs bleiben im eigenen Scope
  • Governance: Prompt-Policies, PII-/IP-Filter, Rollback von Wissensartefakten

Wann Cloud sinnvoll ist – und wie ohne Souveränitätsverlust

  • Zentrale Modelltrainings, wenn Daten verdichtet und de-identifiziert sind
  • Flottenweite Analysen und Simulationen, die auf aggregierten Statistiken basieren
  • Nicht-kritische Dienste (z. B. Reporting, Langzeithistorisierung) – mit klarer Trennung: Kein Backchannel ins Operative
  • Private oder europäische Cloud-Umgebungen können die Elastizität liefern, ohne operative Pfade zu gefährden – vorausgesetzt, Datenklassifizierung und -trennung sind konsequent implementiert

Praxisnotizen aus realen Projekten

  • Eisenbahn-Fleet-Intelligence
  • Erfordernis: Edge-Entscheidungen trotz Tunnel, Bahnhofswechsel, sporadischem Netz
  • Lösung: Offline-First-Design, lokale Ereignislogbücher mit späterer Synchronisation, Inferenz on-train; zentrale Plattform nur für aggregierte Auswertungen und Modellverteilung
  • Cloud-Plattform für Pilotenausbildung
  • Erfordernis: Skalierbare Infrastruktur für Trainingsdaten, Evaluationspipelines und Simulationen
  • Lösung: Cloud für Elastizität und Batch-Verarbeitung; strikte Datenklassifizierung, sensible Cockpit- und Leistungsdaten entkoppelt; keine operative Abhängigkeit vom Netz in Simulatoren
  • Industrielle Bildprüfung
  • Erfordernis: 50–80 ms End-to-End, deterministisches Verhalten, Nachvollziehbarkeit
  • Lösung: Lokale GPU-Knoten, deterministische Pipelines, Vorberechnung von Features, Canary-Rollouts in Schichten, TSDB für Traceability

Checkliste: Cloud, Edge oder Hybrid?

  • Ist die 99,9%-Latenzanforderung < 100 ms inkl. Jitter?
  • Muss das System bei WAN-Ausfall voll funktionsfähig bleiben?
  • Dürfen Rohdaten das Gelände/das Land verlassen?
  • Welche Daten sind tatsächlich nötig für zentrale Zwecke? Lassen sie sich vor Ort verdichten/anonymisieren?
  • Gibt es Safety- oder Security-Zulassungen, die deterministische, reproduzierbare Pfade verlangen?
  • Wie groß ist die Flotte, und wie wird Identität/Update/Observability souverän gemanagt?
  • Können Sie klar trennen: Datenebene lokal, Steuerungsebene zentral?