Imported Post 2026-04-29 00:14:04

MQTT
Stärken: Leichtgewichtig, gut für instabile Netze, feingranulare Topics, QoS, geringe Overheads, breite Geräteunterstützung.
Schwächen: Brokerzentriert, eingeschränkte Schema-Evolution, Backpressure-Strategien nötig, Clusterung komplexer als gedacht.
Einsatz: Sensor→Gateway, Gateway→Hub bei mäßigen Raten, Command/Control mit Retained/Last Will.
OPC UA / PubSub
Stärken: Industrieller Standard, Typisierung, Security-Model, Integration mit PLCs, deterministischere Profile, TSN-Unterstützung in passenden Umgebungen.
Schwächen: Komplexität, Heterogenität der Implementierungen, PubSub über UDP/TSN braucht passende Netzumgebung.
Einsatz: Maschinen- und PLC-Integration, semantisch reichere Daten, Werksinterne Busse.
Kafka (oder Pulsar)
Stärken: Hohe Durchsätze, Replaying, starke Persistenzgarantien, Producer/Consumer-Entkopplung, Schema-Registry.
Schwächen: Nicht für direktes Gerätesprechen geeignet, benötigt stabilere Netzverbindungen und Ressourcen.
Einsatz: Gateway→Zentrale, zentrale Verarbeitung, Langstrecken-Datenlogistik, Multi-Consumer-Szenarien.

Typisches Muster:

Gerät spricht OPC UA oder proprietär → Edge-Adapter normalisiert nach MQTT/OPC UA.

Gateway transformiert zu Avro/Protobuf, validiert gegen Schema, schreibt in lokales WAL.

Asynchroner Forwarder publiziert in Kafka-Topics, unter Beachtung von Bandbreitenfenstern und Prioritäten.

Rückkanal (Kommandos) per MQTT mit ACLs und Device-Scoping, kurzlebig und auditierbar.

Latenzanforderungen: Warum 100 ms den Unterschied machen

Latenz ist nicht nur Mittelwert. Auslegungspunkte:

Steuerung: Für geschlossene Regelkreise kalkulieren wir mit lokalen Pfaden. Selbst kleine Jitter-Spitzen können im Resonanzfall Probleme machen. Daher: Schleifenabschluss lokal, Telemetrie asynchron.

HMI/Assistenz: Reaktionsziele <100–200 ms vermeiden „Gummiband“-Effekte in der Bedienung und erhöhen Akzeptanz.

Erkennung/Alarme: Bereits eine weitere Sekunde Verzögerung kann in Fließfertigungen Ausschuss erhöhen. Ergo: Erkennung an der Kante, nur Befunde und Kontext zentral.

Fleet-Management: Tausende Edge-Geräte ohne Kontrollverlust

Skalierungsprobleme sind selten im Rechenaufwand, häufiger im „Day-2“-Betrieb. Ein belastbarer Plan umfasst:

Zero-Touch Provisioning
Geräte kommen mit einem Werkszertifikat/Seriennummer. Claiming-Prozess erzeugt Standortzertifikate, bindet Gerät an Mandant und Policy-Satz.
Identitäten und Autorisierung
Jedem Gerät einen kurzlebigen, rotierenden Satz an Credentials. Rechte sind minimal und kontextabhängig (Zeitfenster, Standort, Netzwerkprofil).
Rollouts und Sicherheit
Canary auf 1–5 % repräsentativer Knoten, automatische Metrik-Gates (CPU, Thermik, Fehlerquoten), Rollback bei Ausreißern.
Image- und Konfigsignaturen verpflichtend, Updates delta-basiert mit Bandbreitenbudget.
Inventar und Drifts
Tatsächlicher Zustand vs. Sollzustand kontinuierlich vergleichen, Drifts melden, aber nicht „heimlich“ korrigieren, wenn Unklarheit besteht (Audit-First).
Offline-Betrieb
Ausführbare Policies und Playbooks lokal. Bei Netzpartitionen gelten Standortregeln, Queues wachsen kontrolliert, Backpressure schützt Ressourcen.

Hybrid-Architekturen: Edge-Inferenz + zentrales Training ohne Datenausverkauf

Das überzeugendste Muster, wenn Daten das Werk nicht verlassen sollen:

Datenselektion am Rand
Nur Ereignisse/Segmente mit hohem Informationsgehalt werden markiert (Trigger, Neuigkeits-Score, Unsicherheiten, Fehlerfälle).
Pseudonymisierung/Aggregation
Entfernen von Personen-/Betriebsgeheimnissen, ggf. Rendern von Features statt Rohdaten.
Kuratierter Sync
Asynchrone Übertragung in ein souveränes Objekt-Repository (On-Prem oder europäische Cloud), Versionierung und Herkunftsnachweise.
Training und Validierung
Wiederholbare Pipelines, Testen auf domänenspezifische Metriken, Robustheit gegenüber Drift.
Modellfreigabe
Signierte Artefakte, Kompatibilitätsprüfung mit Edge-Laufzeit, A/B-Strategien, Telemetrie zu Inferenzqualität, aber ohne exzessive Datensammelei.
Optional: Föderiertes Lernen
Wenn gar keine Daten das Gelände verlassen dürfen, Modelle lokal feintunen, nur Gradienten/Updates austauschen. In der Praxis braucht das strikte Governance für Konsistenz, Zeitsynchronisation und Ausreißerbehandlung.

Drei Architekturmotive aus der Praxis

Defense/Kritische Infrastruktur
Air-Gapped- oder geschlossene Netze, eigene PKI, kein externer IdP. Updates via offline-signierten Medien oder über streng kontrollierte Jump-Hosts. Telemetrie wird zunächst lokal ausgewertet, später gebündelt über gesicherte Kanäle exportiert. Cloud nur als Begriff für interne Cluster.

Bahn/Fleet-Intelligence
Fahrzeuge als Edge-Knoten mit intermittierender Verbindung. Daten werden in Bord-TSDB gepuffert, Inferenz passiert on-vehicle. Depots sind Synchronisationspunkte (WLAN/LTE-Bursts). Zentraler Hub aggregiert, trainiert, verteilt Policies/Modelle. Befehlswege sind asynchron, mit Zeit-/Positionsregeln.

Fertigung/Qualitätssicherung
Kameras und Sensorik am Band, OPC UA für Maschinenzustände, MQTT für Eventing. Visuelle Inferenz lokal, Ergebnisse und wenige Crops/Nachaudits in die Zentrale. Änderungen an Prüfplänen sind versioniert und werden wie Software behandelt.

Häufige Fallstricke

Cloud-Managed Control Planes als Single Point of Failure: Fällt der externe Dienst, steht die Flotte. Lokale Alternative und Fallback-Pfade sind Pflicht.
Pilot bleibt Pilot: Ein PoC ohne Update-, Identitäts- und Observability-Konzept skaliert nicht. Skalierungsfriktionen tauchen erst bei 100+ Knoten auf.
Protokollchaos: „Jedes Team nimmt sein Lieblingsprotokoll“ endet in Gateways, die nur noch übersetzen. Ein verbindliches Profil je Kommunikationsrichtung reduziert Komplexität.
Kein Backpressure: Wenn Kanäle dicht sind, müssen Systeme würdevoll degradieren (Sampling, Dropping nach Prioritäten, On-Disk-Puffer), statt unkontrolliert zu stauen.
Black-Box-Modelle ohne Governance: Ohne Nachvollziehbarkeit, wer welches Modell wann auf welches Asset ausgerollt hat, ist Root-Cause-Analyse Glückssache.

Entscheidungs-Checkliste: Edge, Cloud oder Hybrid?