Technische Konsequenzen:
- Inferenz auf dedizierter Edge-Hardware mit vorgewärmten Modellen, keine Kaltstarts
- Quantisierte Modelle, TensorRT/ONNX-Optimierung, CPU-Pinning für deterministische Ausführung
- Containerisierung ja, aber mit Bedacht: Realtime-Workloads separat, Scheduling/Isolierung hart konfigurieren. Nicht jede Orchestrierung ist RT-tauglich out-of-the-box
- Preemption vermeiden, Ressourcenreservierung, hohe Prioritäten für kritische Threads
- Netzwerk-Determinismus: TSN/PRP, priorisierte VLANs, PTP-Zeitbasis, keine “Best Effort”-Pfade im kritischen Loop
4) Protokolle im Verbund: OPC UA, MQTT, Kafka – wofür, wo und wie verbinden?
Jedes Protokoll hat seinen Platz, wenn es sauber entkoppelt wird:
- OPC UA: Starke Semantik, Tauglichkeit für PLC/OT-Welt, Method Calls, rich Metadata. Ideal in der Zelle, um Prozesssignale strukturiert zugänglich zu machen. Für hohe Volumina (Bilder, hochfrequente Sensordaten) nicht optimal.
- MQTT: Leichtgewichtiges Pub/Sub, exzellente Eignung für Geräte-Telemetrie und Command/Control mit klaren Topics und ACLs. QoS1 ist praxistauglicher Standard; QoS2 nur, wenn genau-einmal dringend ist und Overhead vertretbar bleibt. Retained Messages für Konfiguration, Last-Will für Flottenrobustheit.
- Kafka: Stark für Hochvolumen-Streams, Replays, Backpressure-Resilienz und Konsumentenvielfalt in der On-Prem-Kernschicht. Erfordert bewusste Schema-Disziplin (Schema-Registry), Partitionsstrategie und Idempotenz.
Brückenmuster:
- OPC UA -> Edge: Subscriptions auf interessierende Knoten, Übersetzung in “schlanke” Edge-Events (z. B. JSON/CBOR/Protobuf), Ergänzung eines stabilen Keys (Asset-ID) und einer präzisen Zeitbasis
- Edge (MQTT) -> Core (Kafka): Bridge-Service, der Topics auf Partitionen mappt, QoS/Retain-Logik respektiert, Payloads validiert und gegen Schemas prüft. Backpressure-Handling: lokale Puffer, adaptive Publish-Rates, Priorisieren kritischer Topics
- Schemaverwaltung: OPC UA-Nodesets sind keine 1:1-Schemas für Events. Der Brückencode ist der Ort, an dem OT-Semantik in stabil versionierte Domänenereignisse übersetzt wird
Genau-einmal-Semantik:
- Über Zonen hinweg ist “exactly once” schwierig. Strategie aus der Praxis: at-least-once mit deduplizierbaren Ereignissen (stable Event-IDs), Idempotenz in Konsumenten, und Zustandsmaschinen, die Wiederholungen tolerieren.
5) Flottensteuerung: Tausende Edge-Geräte deterministisch betreiben
Dort entscheidet sich, ob ein IIoT-System über Jahre stabil bleibt:
- Identität und Aufnahme:
- Werksseitig provisionierte TPMs, Geräte melden sich mit Hardware-gebundenen Zertifikaten
- Kurzlebige Client-Zertifikate (mTLS) aus einer On-Prem-PKI, kein statisches Shared Secret über Jahre
- Aufnahme-Workflow (“enrollment”) mit Freigabe durch Betreiber und Policy-Prüfung (Standort, Seriennummer, Besitzer)
- Konfigurationsmodell:
- Desired/Reported State (Device Twin): Der zentrale Zustand ist deklarativ (“Dieses Gerät soll Modell X in Version 1.3 fahren, Kamera-ROI Y, Meldeschwellen Z”)
- Konfliktauflösung deterministisch (Priorität: Sicherheits-Policy vor Operator-Override, vor Default)
- Versionierte Konfigurationsschemas mit Migrationspfaden
- Software-/Model-Updates:
- Immutable Images, A/B-Partitionierung, signierte Artefakte, atomare Switchovers
- Health Checks nach Update; Rollback bei Fehlersignalen
- Stufenweise Rollouts: canary -> ring-based -> breit, mit automatischem Halt bei Telemetrie-Anomalien
- Modelle als eigenständige, versionierte Artefakte; Promotion nur nach on-device Validierung
- Telemetrie und Logs:
- Budgetiert: Sampling-Raten, Downsampling am Edge, Schemadisziplin
- Persistente Offloader am Edge mit Prioritätswarteschlangen (kritische Alarme > Diagnostik > Rohdaten)
- Kompression (z. B. LZ4/Snappy) und Chunking, um intermittente Links zu nutzen
- Sicherheit im Lebenszyklus:
- Remote Attestation vor dem Ausrollen sensibler Workloads
- SBOM-Tracking für jedes Edge-Image
- Rotierbare Schlüssel, Zertifikate mit kurzen Laufzeiten, keine “ewigen” Tokens
- Richtlinien, die Cloud-Abhängigkeiten für den Betrieb ausschließen (Offline-first-Design)
6) Hybrid-Architekturen: Edge-Inferenz, zentrales Training – souverän gedacht
Machine-Learning-Lebenszyklen lassen sich sauber zwischen Edge und Core/Cloud trennen:
- Datengewinnung:
- Nur die nötigsten Rohdaten verlassen die Edge – typischerweise Stichproben, Fehlklassifikationen, Annotationskandidaten
- Anonymisierung und Pseudonymisierung am Edge, strikte Trennung von PII und Betriebsdaten
- Positivlisten: Welche Datentypen dürfen die Zelle verlassen? Alles andere ist per Default verboten
- Trainingsumgebung:
- On-Prem-Cluster, wenn Datenklassifikation es fordert. Cloud-Compute nur für anonymisierte/abgeleitete Datensätze und wenn vertraglich/technisch abgesichert
- Reproduzierbare Trainingspipelines, deterministische Seeds, klare Artefaktketten
- Model Registry und Promotion:
- Jede Modellversion trägt Herkunft, Trainingsdaten-Scope, Metriken und Gültigkeitsraum (z. B. Linie A, Kamera-Batch C)
- Vor produktivem Ausrollen: On-Edge-Shadowing (nur inferieren, nicht handeln), Telemetrievergleich, Stabilitätskennzahlen
- Canary-Rollout mit automatischer Rücknahme bei Drift oder KPI-Verlust
- Drift-Überwachung ohne Datenabfluss:
- Auf Edge: Berechnung verteilter Statistiken (Feature-Distributionen, Konfidenzen, Fehlerklassen), Übertragung nur aggregierter Werte
- Im Core: Vergleich mit Referenzverteilungen, Alarmierung, falls Signifikanzschwellen überschritten
- Feature-Engineering:
- Feature-Definitionen versioniert und Edge-tauglich (keine Features, die Cloud-Abfragen brauchen)
- Wo möglich: On-Device-Featurekalkulation, damit Trainings- und Inferenzpfad konsistent bleiben
7) Governance und Souveränität sind Architektur, nicht Papier
“DSGVO-konform” als Fußnote reicht nicht. Souveränität wird durch technische Leitplanken erzwungen:
- Datenfluss-Diagramme sind Code: Die erlaubten Flüsse sind als Infrastructure-/Policy-as-Code abgebildet. Alles, was nicht erlaubt ist, ist technisch unmöglich.
- Ausgehende Pfade sind whitelisted, transformierend und auditierbar. Kein “direkter S3-Upload ins Internet” vom Edge.
- Rollen und Verantwortungen: Wer darf ein Modell in Produktion heben? Wer darf einen neuen Datentyp exportieren? Diese Rechte sind an CI/CD-Pipelines gebunden, nicht an einzelne Personen.
- Messbarkeit: Metriken für Souveränität (z. B. Anteil Edge-verarbeiteter Entscheidungen, Zeit bis Datenlöschung, Zahl blockierter, nicht genehmigter Exporte).
- Resilienzübungen: Regelmäßige “Cloud weg”-Drills. Bleibt die Linie stabil? Erreicht Telemetrie verzögert, aber vollständig den Core? Greifen Offline-Runbooks?
8) Beispiele aus der Praxis (abstrahiert)