Imported Post 2026-04-08 00:15:11

Kafka (oder kompatible Log-Systeme)
Stärken: Hoher Durchsatz, Partitionierung, Replays, genau-einmal Semantik in der Verarbeitung, Integration mit Stream Processing.
Schwächen: WAN-unfreundlich, Betriebsaufwand; nicht für millisekundenkritische Roundtrips; benötigt sauberes Schema-Management (Avro/Protobuf).
Typische Rolle: Standortweiter Datenbus und Persistenzschicht; historische Replays; Training-Set-Extraktion; Audit.

Pattern aus der Praxis:

Feldgeräte/OPC UA -> Edge-Gateway abonniert Subscriptions, normalisiert, publiziert als MQTT-Telemetrie (kompakte Payloads, Protobuf/CBOR).

Standort-Broker (MQTT) -> Bridge/Connector -> Kafka-Cluster: Verdichtung, Retention, nachgelagerte Auswertung.

Rückkanal: Steuernde Kommandos nicht über Kafka, sondern über OPC UA Methoden oder gezielte MQTT-Topics mit strikter Access Control; niemals Safety-Pfade.

Schema-Verwaltung: Protobuf-Schemata versioniert, rückwärtskompatibel; bei Kafka Schema Registry, bei MQTT durch Topic-Kontrakte plus eingebettete Versionsfelder.

Handling tausender Edge-Geräte: Fleet-Management ohne Kontrollverlust
Souveränität heißt hier: Sie sind Eigentümer aller Schlüssel, Zertifikate, Images, Policies und Metriken. Ohne US-Cloud-Abhängigkeit. Das ist machbar, wenn man einige Prinzipien einhält.

Hardware-Basis
Industrietaugliche Geräte mit TPM 2.0, Watchdog, ECC-RAM, NVMe mit Power-Loss-Protection
Beschleuniger optional: iGPU (Intel), dGPU (NVIDIA), Edge-TPUs – aber nur, wenn das Modell es wirklich braucht

Betriebssystem und Container
Minimal-OS, read-only Root (A/B), signierte Updates, kein SSH als Dauerlösung, stattdessen kurzlebige Support-Tunnels
Container Runtime mit Signatur-Verifikation; Rootless, seccomp, AppArmor/SELinux
Orchestrierung: k3s für Lightweight-Kubernetes oder Systemd-nativ, je nach Komplexität; GitOps (FluxCD/ArgoCD) für deklarative Zustände

OTA-Updates und Progressive Delivery
A/B-Partitionen mit Health-Checks; atomare Rollbacks
Canary-Rollouts gestaffelt nach Standort, Linie, Zelle; automatischer Stop bei SLO-Verletzungen
Paketierung: OS-Update getrennt von Applikations-Update; Modelle als eigenständige, signierte Artefakte

Identitäten und Zertifikate
Manufacturing Provisioning: Geräte erhalten bei Produktion einen Geräteschlüssel im TPM und ein Enrollment-Zertifikat
Onboarding vor Ort über kurzlebige Bootstrap-Tokens; danach Rotationszyklus automatisiert, CRL/OCSP auch offline-fähig (stapled)
Keine gemeinsam genutzten Secrets; alles geräteindividuell

Observability
Edge exportiert Metriken (Prometheus) pull-basiert vor Ort; Remote nur über Gateways
Logs lokal gepuffert (Loki/Vector), rate-limited nach oben; personenbezogene Daten maskiert
Traces für Performancehotspots, Sampling aggressiv; nie vollständige Rohdaten unkontrolliert nach außen

Resilienz
Offline-first: Jede kritische Funktion muss ohne Cloud und ohne WAN funktionieren
Store-and-forward: Persistente Queues auf Edge, Backoff/Jitter; idempotente Serverpfade
Degradationsmodi definiert: Wenn Modell X nicht lädt, fällt auf Regelwerk Y zurück; Operator wird benachrichtigt, Anlage läuft sicher weiter

Hybrid-Architektur: Edge-Inferenz + Cloud-Training (ohne Souveränität zu verlieren)
Cloud kann sinnvoll sein, wenn sie als Beschleuniger für nichtkritische, gut entkoppelte Teile dient.

Datenexport mit Kontrolle
Sampling und Entschärfung an der Quelle: bounding boxes statt Vollbilder, Hashing/Maskierung, Quantisierung
Aggregation vor Export: Features statt Rohdaten; nur, was für Lernfortschritt nötig ist
Pseudonymisierung und klare Metadaten-Labels: Herkunft, erlaubte Nutzung, Löschfristen

Trainingspipeline
Reproduzierbar On-Prem ausführbar, Cloud nur als Skalierungsziel
Versionierte Datasets, Feature-Spezifikationen, Trainingskonfigurationen
Evaluationsmetriken gegen Edge-Constraints (Latenz, RAM, Energie) – kein reiner Offline-Score

Modell-Rollout
Modelle als OCI-Artefakte mit Signatur
Shadow- und A/B-Tests am Edge, harte SLOs: Latenz-P99, Fehlalarmrate, Throughput
Governance: Jede Entscheidung am Edge referenziert Modell-ID und Hash; für Audits nachvollziehbar

Latenzanforderungen: Warum 100 ms den Unterschied machen
Ein paar konkrete Budgets, die in der Praxis entscheiden, ob Cloud tabu ist:

Vision-basierte Qualitätskontrolle am Band
Kameraaufnahme bis Inferenz: 10–30 ms (je nach Auflösung/Beschleuniger)
Entscheidungslogik + Aktortrigger (z. B. Ausschleusen): 5–10 ms
Mechanik-Laufzeit und Puffer: 20–50 ms
Budget gesamt: typischerweise <100 ms. Jede WAN-Roundtrip-Latenz zerstört diese Bilanz, insbesondere unter Jitter.

Mensch-Maschine-Interaktion (HMI) mit Assistenzfunktionen
Perzeptions-Feedback-Schleife: >200 ms fühlt sich träge an; >100 ms erhöht Fehlerquoten bei manuellen Tätigkeiten
Edge-Inferenz hält Interaktionen konsistent, Cloud speist nur periodisch Wissensupdates ein

Flottenweite Koordination (Bahn/Logistik)
Lokale Entscheidungen (z. B. Bremsvorgänge, Kollisionslogik) sind edge-only
Cloud kann Taktung, Routenplanung, Energieoptimierung vorrechnen, aber niemals im kritischen Pfad liegen

Wesentliche Erkenntnis: Nicht nur der Median zählt, sondern P99 und P99.9 – die seltenen Ausreißer sind die, die reale Anlagen aus dem Takt bringen. Deshalb sind deterministische Pfade ohne externe Abhängigkeiten so wertvoll.

Souveränität operativ verankern: Daten, Modelle, Lieferkette
Souveränität ist kein Compliance-Dokument, sondern eine Kette technischer Entscheidungen, die im Alltag halten müssen:

Datendomänen trennen: Rohdaten mit Geheimschutz bleiben in einer „rote Zone“. Nur abgeleitete, freigegebene Daten dürfen in „gelbe“ oder „grüne“ Zonen.
Rechte und Verantwortlichkeiten: Wer darf Daten exportieren? Wer signiert Modelle frei? Welche Telemetrie ist zulässig? Alles als Code und Policies, nicht als PDF.
Reproduzierbarkeit und Audit: Jeder Edge-Entscheidungspfad muss in einer On-Prem-Umgebung reproduzierbar sein – ohne Internet. Dazu gehören Container-Images, Modelle, Konfigurationen, Schemata.
Lieferkette härten: SBOMs für jede Komponente, Signaturprüfungen in der Runtime, periodische Updates unter eigener Kontrolle. Keine Black-Box-Cloud-Komponenten im Kernpfad.