- MQTT
- Stärken: Leichtgewichtig, gut für instabile Netze, feingranulare Topics, QoS, geringe Overheads, breite Geräteunterstützung.
- Schwächen: Brokerzentriert, eingeschränkte Schema-Evolution, Backpressure-Strategien nötig, Clusterung komplexer als gedacht.
- Einsatz: Sensor→Gateway, Gateway→Hub bei mäßigen Raten, Command/Control mit Retained/Last Will.
- OPC UA / PubSub
- Stärken: Industrieller Standard, Typisierung, Security-Model, Integration mit PLCs, deterministischere Profile, TSN-Unterstützung in passenden Umgebungen.
- Schwächen: Komplexität, Heterogenität der Implementierungen, PubSub über UDP/TSN braucht passende Netzumgebung.
- Einsatz: Maschinen- und PLC-Integration, semantisch reichere Daten, Werksinterne Busse.
- Kafka (oder Pulsar)
- Stärken: Hohe Durchsätze, Replaying, starke Persistenzgarantien, Producer/Consumer-Entkopplung, Schema-Registry.
- Schwächen: Nicht für direktes Gerätesprechen geeignet, benötigt stabilere Netzverbindungen und Ressourcen.
- Einsatz: Gateway→Zentrale, zentrale Verarbeitung, Langstrecken-Datenlogistik, Multi-Consumer-Szenarien.
Typisches Muster:
- Gerät spricht OPC UA oder proprietär → Edge-Adapter normalisiert nach MQTT/OPC UA.
- Gateway transformiert zu Avro/Protobuf, validiert gegen Schema, schreibt in lokales WAL.
- Asynchroner Forwarder publiziert in Kafka-Topics, unter Beachtung von Bandbreitenfenstern und Prioritäten.
- Rückkanal (Kommandos) per MQTT mit ACLs und Device-Scoping, kurzlebig und auditierbar.
Latenzanforderungen: Warum 100 ms den Unterschied machen
Latenz ist nicht nur Mittelwert. Auslegungspunkte:
- Steuerung: Für geschlossene Regelkreise kalkulieren wir mit lokalen Pfaden. Selbst kleine Jitter-Spitzen können im Resonanzfall Probleme machen. Daher: Schleifenabschluss lokal, Telemetrie asynchron.
- HMI/Assistenz: Reaktionsziele <100–200 ms vermeiden „Gummiband“-Effekte in der Bedienung und erhöhen Akzeptanz.
- Erkennung/Alarme: Bereits eine weitere Sekunde Verzögerung kann in Fließfertigungen Ausschuss erhöhen. Ergo: Erkennung an der Kante, nur Befunde und Kontext zentral.
Fleet-Management: Tausende Edge-Geräte ohne Kontrollverlust
Skalierungsprobleme sind selten im Rechenaufwand, häufiger im „Day-2“-Betrieb. Ein belastbarer Plan umfasst:
- Zero-Touch Provisioning
- Geräte kommen mit einem Werkszertifikat/Seriennummer. Claiming-Prozess erzeugt Standortzertifikate, bindet Gerät an Mandant und Policy-Satz.
- Identitäten und Autorisierung
- Jedem Gerät einen kurzlebigen, rotierenden Satz an Credentials. Rechte sind minimal und kontextabhängig (Zeitfenster, Standort, Netzwerkprofil).
- Rollouts und Sicherheit
- Canary auf 1–5 % repräsentativer Knoten, automatische Metrik-Gates (CPU, Thermik, Fehlerquoten), Rollback bei Ausreißern.
- Image- und Konfigsignaturen verpflichtend, Updates delta-basiert mit Bandbreitenbudget.
- Inventar und Drifts
- Tatsächlicher Zustand vs. Sollzustand kontinuierlich vergleichen, Drifts melden, aber nicht „heimlich“ korrigieren, wenn Unklarheit besteht (Audit-First).
- Offline-Betrieb
- Ausführbare Policies und Playbooks lokal. Bei Netzpartitionen gelten Standortregeln, Queues wachsen kontrolliert, Backpressure schützt Ressourcen.
Hybrid-Architekturen: Edge-Inferenz + zentrales Training ohne Datenausverkauf
Das überzeugendste Muster, wenn Daten das Werk nicht verlassen sollen:
- Datenselektion am Rand
- Nur Ereignisse/Segmente mit hohem Informationsgehalt werden markiert (Trigger, Neuigkeits-Score, Unsicherheiten, Fehlerfälle).
- Pseudonymisierung/Aggregation
- Entfernen von Personen-/Betriebsgeheimnissen, ggf. Rendern von Features statt Rohdaten.
- Kuratierter Sync
- Asynchrone Übertragung in ein souveränes Objekt-Repository (On-Prem oder europäische Cloud), Versionierung und Herkunftsnachweise.
- Training und Validierung
- Wiederholbare Pipelines, Testen auf domänenspezifische Metriken, Robustheit gegenüber Drift.
- Modellfreigabe
- Signierte Artefakte, Kompatibilitätsprüfung mit Edge-Laufzeit, A/B-Strategien, Telemetrie zu Inferenzqualität, aber ohne exzessive Datensammelei.
- Optional: Föderiertes Lernen
- Wenn gar keine Daten das Gelände verlassen dürfen, Modelle lokal feintunen, nur Gradienten/Updates austauschen. In der Praxis braucht das strikte Governance für Konsistenz, Zeitsynchronisation und Ausreißerbehandlung.
Drei Architekturmotive aus der Praxis
- Defense/Kritische Infrastruktur
- Air-Gapped- oder geschlossene Netze, eigene PKI, kein externer IdP. Updates via offline-signierten Medien oder über streng kontrollierte Jump-Hosts. Telemetrie wird zunächst lokal ausgewertet, später gebündelt über gesicherte Kanäle exportiert. Cloud nur als Begriff für interne Cluster.
- Bahn/Fleet-Intelligence
- Fahrzeuge als Edge-Knoten mit intermittierender Verbindung. Daten werden in Bord-TSDB gepuffert, Inferenz passiert on-vehicle. Depots sind Synchronisationspunkte (WLAN/LTE-Bursts). Zentraler Hub aggregiert, trainiert, verteilt Policies/Modelle. Befehlswege sind asynchron, mit Zeit-/Positionsregeln.
- Fertigung/Qualitätssicherung
- Kameras und Sensorik am Band, OPC UA für Maschinenzustände, MQTT für Eventing. Visuelle Inferenz lokal, Ergebnisse und wenige Crops/Nachaudits in die Zentrale. Änderungen an Prüfplänen sind versioniert und werden wie Software behandelt.
Häufige Fallstricke
- Cloud-Managed Control Planes als Single Point of Failure: Fällt der externe Dienst, steht die Flotte. Lokale Alternative und Fallback-Pfade sind Pflicht.
- Pilot bleibt Pilot: Ein PoC ohne Update-, Identitäts- und Observability-Konzept skaliert nicht. Skalierungsfriktionen tauchen erst bei 100+ Knoten auf.
- Protokollchaos: „Jedes Team nimmt sein Lieblingsprotokoll“ endet in Gateways, die nur noch übersetzen. Ein verbindliches Profil je Kommunikationsrichtung reduziert Komplexität.
- Kein Backpressure: Wenn Kanäle dicht sind, müssen Systeme würdevoll degradieren (Sampling, Dropping nach Prioritäten, On-Disk-Puffer), statt unkontrolliert zu stauen.
- Black-Box-Modelle ohne Governance: Ohne Nachvollziehbarkeit, wer welches Modell wann auf welches Asset ausgerollt hat, ist Root-Cause-Analyse Glückssache.
Entscheidungs-Checkliste: Edge, Cloud oder Hybrid?