Imported Post 2026-04-15 00:17:30

WEDNESDAY, 15 APRIL 2026

Protokollwahl: MQTT, OPC UA, Kafka – wofür, wo und wie kombinieren?

OPC UA

Stärken: Industrielle Semantik, Adressraum-Modellierung, etablierte Security-Mechanismen

Einsatz: Verbindung zu Maschinen/PLCs, wenn Semantik und herstellerübergreifende Interoperabilität wichtig sind

Trade-offs: Höhere Komplexität; für hochvolumige Event-Ströme weniger effizient

MQTT

Stärken: Leichtgewichtig, gute Eignung für instabile Netze, QoS-Stufen

Einsatz: Geräteleben, Telemetrie, Command/Control; mit Sparkplug B lässt sich ein konsistentes Industriemodell abbilden

Trade-offs: Topic-Wildwest ohne strenge Konventionen; kein eingebautes Replay

Kafka (oder kompatible Logs)

Stärken: Hohe Durchsätze, Replays, Backpressure-Kontrolle, Partitionierung

Einsatz: Lokale Site-Backbones für hochvolumige Sensorik (Video, Vibration), zentrale Analytics-Pipelines

Trade-offs: Ressourcenhungriger; Overkill für Kleingeräte oder reine Command/Control-Pfade

Kombinationsmuster

Feld → OPC UA → Edge-Adapter → MQTT (Sparkplug B) für Anlagenstatus

Hochvolumiges (z. B. Frames, FFTs) → lokales Kafka + kompakte Feature-Extraktion → MQTT Events für Entscheidungen

Brücken mit klarer Semantik: Mapping-Tabellen, Schemas im Repository, Versionierung, Fallback-Strategien

Fleet Management für tausende Edge-Geräte

Identität und Vertrauensanker

Geräteidentität bei Produktion/Inbetriebnahme vergeben (z. B. X.509, Ed25519)

Kurzlebige Tokens, regelmäßige Rotation, Revocation-Listen

Zero-Trust: Jede Verbindung ist neu zu beweisen, keine impliziten Vertrauenszonen

Software-Lieferkette

Artefakte als OCI-Images; Signaturen verpflichtend

Transaktionale Updates (z. B. A/B-Partitionen, atomare Commits)

Delta-Updates, Bandbreitenlimits, Wartungsfenster

Laufzeit-Isolation

Container mit read-only RootFS, nur definierte Volumes beschreibbar

Ressourcenlimits hart (CPU, RAM, IO) pro Workload; Prioritätsklassen

Watchdogs, Supervisor-Prozesse, automatisches Rollback bei Healthcheck-Fails

Observability, aber souverän

Pull-basiertes Metrics-Scraping verringert Angriffsfläche

Ereignisprotokolle manipulationssicher gestalten (Signaturen/Hash-Chains)

Remote Shells vermeiden; stattdessen deklarative Aktionen mit Audit-Trail

Konfigurationsstrategie

Desired-State-Modelle (z. B. CRDs) statt Ad-hoc-Skripte

Variantenmanagement: Flotten in Kohorten, Policies pro Kohorte

Rollouts als Experimente: Canary, Progressive Delivery, Halt-Kriterien

Latenztechnik: Warum 100 ms den Unterschied machen

Budgetierung

Sensorlesen: 5–10 ms (abhängig von Bus und Abtastung)

Preprocessing: 10–20 ms (z. B. Denoising, ROI-Cut)

Inferenz: 10–50 ms (abhängig von Modell, Hardware)

Entscheidung/Aktorik/Alarm: 5–10 ms

Netzwerkslack: 10–20 ms (nur lokal, keine WAN-Abhängigkeit)

Jitter-Quellen und Gegenmaßnahmen

CPU-Scheduling: Isolierte Kerne, RT-Prioritäten für kritische Threads

Speicher: Pinned Memory, Preallocation, keine on-the-fly Alokationen im Hot Path

Garbage-Collection: Keine GC im Hot Path; native oder Low-GC-Laufzeiten

I/O: Async I/O, Batching, Zero-Copy-Pfade wo möglich

Modelldienste: Warm Starts, vorab geladene Gewichte, Tensor-RT/ONNX-Optimierungen

Netzwerk

Layer-2 bevorzugen, deterministische Switches, QoS für Prioritätsklassen

Kein DNS im Hot Path; statische Endpunkte, lokales Service-Discovery

Datensouveränität als Architekturprinzip

Daten-Mindestprinzip

Nicht alles sammeln, was man sammeln könnte; definieren, welche Features wirklich nötig sind

Vor-Ort-Anonymisierung/Pseudonymisierung, wenn Daten das Gelände verlassen

Trennung von Daten- und Steuerungsebene

Sensible Rohdaten bleiben lokal; nur Modelle, Policies und de-identifizierte Statistiken gehen zentral

Audits verlangen Nachvollziehbarkeit: Wer hat wann welche Daten gesehen/übertragen?

Modellgovernance on-prem

Signierte Modelle, Freigabeprozesse, reproduzierbare Builds

Blackbox-Modelle ohne Reproduzierbarkeit sind in sicherheitsrelevanten Umgebungen schwer zu vertreten

LLM-gestützte Systeme in der Industrie

Retrieval und Wissensbasis lokal; keinerlei Prompt-/Kontextdaten an externe APIs

Agenten mit restriktiven Tools; jede Aktion ist nachvollziehbar, reversibel, begrenzt

Observability der Agenten on-prem: Token- und Tool-Logs bleiben im eigenen Scope

Governance: Prompt-Policies, PII-/IP-Filter, Rollback von Wissensartefakten

Wann Cloud sinnvoll ist – und wie ohne Souveränitätsverlust

Zentrale Modelltrainings, wenn Daten verdichtet und de-identifiziert sind

Flottenweite Analysen und Simulationen, die auf aggregierten Statistiken basieren

Nicht-kritische Dienste (z. B. Reporting, Langzeithistorisierung) – mit klarer Trennung: Kein Backchannel ins Operative

Private oder europäische Cloud-Umgebungen können die Elastizität liefern, ohne operative Pfade zu gefährden – vorausgesetzt, Datenklassifizierung und -trennung sind konsequent implementiert

Praxisnotizen aus realen Projekten

Eisenbahn-Fleet-Intelligence

Erfordernis: Edge-Entscheidungen trotz Tunnel, Bahnhofswechsel, sporadischem Netz

Lösung: Offline-First-Design, lokale Ereignislogbücher mit späterer Synchronisation, Inferenz on-train; zentrale Plattform nur für aggregierte Auswertungen und Modellverteilung

Cloud-Plattform für Pilotenausbildung

Erfordernis: Skalierbare Infrastruktur für Trainingsdaten, Evaluationspipelines und Simulationen

Lösung: Cloud für Elastizität und Batch-Verarbeitung; strikte Datenklassifizierung, sensible Cockpit- und Leistungsdaten entkoppelt; keine operative Abhängigkeit vom Netz in Simulatoren

Industrielle Bildprüfung

Erfordernis: 50–80 ms End-to-End, deterministisches Verhalten, Nachvollziehbarkeit

Lösung: Lokale GPU-Knoten, deterministische Pipelines, Vorberechnung von Features, Canary-Rollouts in Schichten, TSDB für Traceability

Checkliste: Cloud, Edge oder Hybrid?

Ist die 99,9%-Latenzanforderung < 100 ms inkl. Jitter?

Muss das System bei WAN-Ausfall voll funktionsfähig bleiben?

Dürfen Rohdaten das Gelände/das Land verlassen?

Welche Daten sind tatsächlich nötig für zentrale Zwecke? Lassen sie sich vor Ort verdichten/anonymisieren?

Gibt es Safety- oder Security-Zulassungen, die deterministische, reproduzierbare Pfade verlangen?

Wie groß ist die Flotte, und wie wird Identität/Update/Observability souverän gemanagt?

Können Sie klar trennen: Datenebene lokal, Steuerungsebene zentral?

Kategorien

IIoT, Cloud- & Edge-Plattformen