• Kafka (oder kompatible Log-Systeme)
  • Stärken: Hoher Durchsatz, Partitionierung, Replays, genau-einmal Semantik in der Verarbeitung, Integration mit Stream Processing.
  • Schwächen: WAN-unfreundlich, Betriebsaufwand; nicht für millisekundenkritische Roundtrips; benötigt sauberes Schema-Management (Avro/Protobuf).
  • Typische Rolle: Standortweiter Datenbus und Persistenzschicht; historische Replays; Training-Set-Extraktion; Audit.

Pattern aus der Praxis:

  • Feldgeräte/OPC UA -> Edge-Gateway abonniert Subscriptions, normalisiert, publiziert als MQTT-Telemetrie (kompakte Payloads, Protobuf/CBOR).
  • Standort-Broker (MQTT) -> Bridge/Connector -> Kafka-Cluster: Verdichtung, Retention, nachgelagerte Auswertung.
  • Rückkanal: Steuernde Kommandos nicht über Kafka, sondern über OPC UA Methoden oder gezielte MQTT-Topics mit strikter Access Control; niemals Safety-Pfade.
  • Schema-Verwaltung: Protobuf-Schemata versioniert, rückwärtskompatibel; bei Kafka Schema Registry, bei MQTT durch Topic-Kontrakte plus eingebettete Versionsfelder.

Handling tausender Edge-Geräte: Fleet-Management ohne Kontrollverlust
Souveränität heißt hier: Sie sind Eigentümer aller Schlüssel, Zertifikate, Images, Policies und Metriken. Ohne US-Cloud-Abhängigkeit. Das ist machbar, wenn man einige Prinzipien einhält.

  • Hardware-Basis
  • Industrietaugliche Geräte mit TPM 2.0, Watchdog, ECC-RAM, NVMe mit Power-Loss-Protection
  • Beschleuniger optional: iGPU (Intel), dGPU (NVIDIA), Edge-TPUs – aber nur, wenn das Modell es wirklich braucht
  • Betriebssystem und Container
  • Minimal-OS, read-only Root (A/B), signierte Updates, kein SSH als Dauerlösung, stattdessen kurzlebige Support-Tunnels
  • Container Runtime mit Signatur-Verifikation; Rootless, seccomp, AppArmor/SELinux
  • Orchestrierung: k3s für Lightweight-Kubernetes oder Systemd-nativ, je nach Komplexität; GitOps (FluxCD/ArgoCD) für deklarative Zustände
  • OTA-Updates und Progressive Delivery
  • A/B-Partitionen mit Health-Checks; atomare Rollbacks
  • Canary-Rollouts gestaffelt nach Standort, Linie, Zelle; automatischer Stop bei SLO-Verletzungen
  • Paketierung: OS-Update getrennt von Applikations-Update; Modelle als eigenständige, signierte Artefakte
  • Identitäten und Zertifikate
  • Manufacturing Provisioning: Geräte erhalten bei Produktion einen Geräteschlüssel im TPM und ein Enrollment-Zertifikat
  • Onboarding vor Ort über kurzlebige Bootstrap-Tokens; danach Rotationszyklus automatisiert, CRL/OCSP auch offline-fähig (stapled)
  • Keine gemeinsam genutzten Secrets; alles geräteindividuell
  • Observability
  • Edge exportiert Metriken (Prometheus) pull-basiert vor Ort; Remote nur über Gateways
  • Logs lokal gepuffert (Loki/Vector), rate-limited nach oben; personenbezogene Daten maskiert
  • Traces für Performancehotspots, Sampling aggressiv; nie vollständige Rohdaten unkontrolliert nach außen
  • Resilienz
  • Offline-first: Jede kritische Funktion muss ohne Cloud und ohne WAN funktionieren
  • Store-and-forward: Persistente Queues auf Edge, Backoff/Jitter; idempotente Serverpfade
  • Degradationsmodi definiert: Wenn Modell X nicht lädt, fällt auf Regelwerk Y zurück; Operator wird benachrichtigt, Anlage läuft sicher weiter

Hybrid-Architektur: Edge-Inferenz + Cloud-Training (ohne Souveränität zu verlieren)
Cloud kann sinnvoll sein, wenn sie als Beschleuniger für nichtkritische, gut entkoppelte Teile dient.

  • Datenexport mit Kontrolle
  • Sampling und Entschärfung an der Quelle: bounding boxes statt Vollbilder, Hashing/Maskierung, Quantisierung
  • Aggregation vor Export: Features statt Rohdaten; nur, was für Lernfortschritt nötig ist
  • Pseudonymisierung und klare Metadaten-Labels: Herkunft, erlaubte Nutzung, Löschfristen
  • Trainingspipeline
  • Reproduzierbar On-Prem ausführbar, Cloud nur als Skalierungsziel
  • Versionierte Datasets, Feature-Spezifikationen, Trainingskonfigurationen
  • Evaluationsmetriken gegen Edge-Constraints (Latenz, RAM, Energie) – kein reiner Offline-Score
  • Modell-Rollout
  • Modelle als OCI-Artefakte mit Signatur
  • Shadow- und A/B-Tests am Edge, harte SLOs: Latenz-P99, Fehlalarmrate, Throughput
  • Governance: Jede Entscheidung am Edge referenziert Modell-ID und Hash; für Audits nachvollziehbar

Latenzanforderungen: Warum 100 ms den Unterschied machen
Ein paar konkrete Budgets, die in der Praxis entscheiden, ob Cloud tabu ist:

  • Vision-basierte Qualitätskontrolle am Band
  • Kameraaufnahme bis Inferenz: 10–30 ms (je nach Auflösung/Beschleuniger)
  • Entscheidungslogik + Aktortrigger (z. B. Ausschleusen): 5–10 ms
  • Mechanik-Laufzeit und Puffer: 20–50 ms
  • Budget gesamt: typischerweise <100 ms. Jede WAN-Roundtrip-Latenz zerstört diese Bilanz, insbesondere unter Jitter.
  • Mensch-Maschine-Interaktion (HMI) mit Assistenzfunktionen
  • Perzeptions-Feedback-Schleife: >200 ms fühlt sich träge an; >100 ms erhöht Fehlerquoten bei manuellen Tätigkeiten
  • Edge-Inferenz hält Interaktionen konsistent, Cloud speist nur periodisch Wissensupdates ein
  • Flottenweite Koordination (Bahn/Logistik)
  • Lokale Entscheidungen (z. B. Bremsvorgänge, Kollisionslogik) sind edge-only
  • Cloud kann Taktung, Routenplanung, Energieoptimierung vorrechnen, aber niemals im kritischen Pfad liegen

Wesentliche Erkenntnis: Nicht nur der Median zählt, sondern P99 und P99.9 – die seltenen Ausreißer sind die, die reale Anlagen aus dem Takt bringen. Deshalb sind deterministische Pfade ohne externe Abhängigkeiten so wertvoll.

Souveränität operativ verankern: Daten, Modelle, Lieferkette
Souveränität ist kein Compliance-Dokument, sondern eine Kette technischer Entscheidungen, die im Alltag halten müssen:

  • Datendomänen trennen: Rohdaten mit Geheimschutz bleiben in einer „rote Zone“. Nur abgeleitete, freigegebene Daten dürfen in „gelbe“ oder „grüne“ Zonen.
  • Rechte und Verantwortlichkeiten: Wer darf Daten exportieren? Wer signiert Modelle frei? Welche Telemetrie ist zulässig? Alles als Code und Policies, nicht als PDF.
  • Reproduzierbarkeit und Audit: Jeder Edge-Entscheidungspfad muss in einer On-Prem-Umgebung reproduzierbar sein – ohne Internet. Dazu gehören Container-Images, Modelle, Konfigurationen, Schemata.
  • Lieferkette härten: SBOMs für jede Komponente, Signaturprüfungen in der Runtime, periodische Updates unter eigener Kontrolle. Keine Black-Box-Cloud-Komponenten im Kernpfad.