Edge-Inferenz in der Praxis: Wann ML-Modelle an die Maschine gehören – und wann nicht

Problem: Warum viele PdM-POCs in der Cloud scheitern
Predictive Maintenance-Projekte laufen oft genauso ab: Man sammelt ein paar Wochen Sensordaten, lädt alles in eine Cloud, baut schnell ein Notebook-Modell, zeigt hübsche ROC-Kurven – und stellt in der Produktion fest, dass das System am Netz, an der Latenz und an den Betriebsrealitäten zerbricht. Zwei typische Bruchstellen aus der Praxis:

  • Datenvolumen und Latenz: Eine Textillinie mit 96 Spindeln und je einem triaxialen Beschleunigungssensor bei 25,6 kHz Sampling produziert schnell 8–12 MB/s Rohdaten. Selbst mit kräftiger Kompression ist permanentes Streaming illusorisch. Gleichzeitig erwarten Instandhalter Alarme innerhalb von 200–500 ms, nicht nach einer Batch-Analyse.
  • Konnektivität und Souveränität: In der Bahn ist die Funkverbindung intermittierend; Fahrzeuge sind über Stunden offline. Und in vielen DACH-Unternehmen ist klar: Sensordaten mit IP-relevanten Mustern verlassen weder Werk noch Landesgrenze. DSGVO und Geheimhaltungsanforderungen schließen „Cloud-first“ aus.

Das Ergebnis sind „schöne“ POCs, die in der Produktion scheitern: Entweder kollabiert das System an der Bandbreite, oder die Latenz macht es unbrauchbar, oder die Organisation blockiert den Abfluss von Maschinendaten in Public Clouds. Die Gegenbewegung heißt Edge-Inferenz: Modelle direkt an der Maschine, roh datennah, robust gegen Netzstörungen – und nur das Nötigste verlässt die Zelle.

Lösung: Eine Edge-first Architektur für Predictive Maintenance
Edge-first heißt nicht „alles lokal für immer“. Es heißt: Zeitkritische Inferenz und grobe Vorverarbeitung (Feature-Engineering, Verdichtung) laufen direkt am Aggregat; Flottenanalyse, Retraining und Flotten-RUL passieren on-prem zentralisiert. Der technische Aufbau, der sich in Textilfertigung und Bahn bewährt hat:

1) Signalerfassung und Vorverarbeitung

  • Sensorik: Beschleunigung (10–51,2 kHz), Motorstrom (10–20 kHz), Temperatur (1–10 Hz). Anti-Aliasing-Hardwarefilter an der DAQ, um den digitalen Filteraufwand zu senken und Sättigungen zu vermeiden.
  • Zeitbasis: PTP (IEEE 1588) oder zumindest NTP mit regelmäßigem Drift-Check. Kein verlässliches Labeling ohne stabile Zeitbasis. In fahrzeuggetragenen Systemen: GPS PPS als Referenz.
  • Fensterung: Sliding Windows mit 0,5–2,0 s je nach Drehzahlbereich. Für 25,6 kHz haben sich 2048–8192-Sample-Fenster (80–320 ms) mit 50–75 % Overlap bewährt. So erreicht man Subsekunden-Latenz bei stabilen Merkmalen.
  • Online-Features: RMS, Peak-to-Peak, Crest Factor, Kurtosis, Spektralzentroid, Band-Power um Fehlerfrequenzen (z. B. Lagerinnen-/Außenring, Käfig). Für Motorstrom: Oberwellenenergie, Sideband-Indizes um die Netz- und Inverterfrequenzen, Park-Transformation wenn Drehzahl verfügbar ist.

2) Edge-Rechner: Hardware-Tiers

  • Tier 0 (MCU/RTOS): Für einfache Grenzwert-/Anomalieindikatoren in µs–ms. 100–300 MHz Cortex-M, 256–1024 kB RAM. Kein komplexes ML, aber extrem robust und niedrige Leistungsaufnahme.
  • Tier 1 (Industrial ARM/x86, fanless): 2–8 Cores (Cortex-A53/A72 oder Intel Atom/i3), 2–8 GB RAM, 5–15 W TDP. Läuft 95 % der PdM-Workloads: Feature-Engineering + OnnxRuntime/TFLite-Modelle. Temperaturbereich -20 bis +60 °C, Schutzklasse IP50–65 in der Nähe der Maschine.
  • Tier 2 (GPU/AI-Module): NVIDIA Jetson Orin Nano/Xavier NX oder Intel iGPU/OpenVINO, 10–30 W. Für 10+ parallele Sensorströme mit 1D-CNNs oder Spektralnetzen. In Bahn: EN 50155-zertifizierte Box-PCs.

Hardwarewahl ist kein „KI-Prestigeprojekt“ – sie folgt dem Durchsatzbudget: Wie viele Kanäle mal Samplingrate, welche Features, welche Inferenzlatenz? Faustregel: Wenn Sie pro Knoten <1e9 FLOPs/s und <500 MB/s RAM-Bandbreite benötigen, genügt ein solider x86/ARM ohne dedizierte GPU. GPU lohnt erst, wenn 10+ Signale parallel mit tiefen CNNs laufen oder wenn man Energie pro Inferenz minimieren muss.

3) Betriebssystem und Runtime

  • OS: Minimal-Linux (Yocto/Ubuntu Core). Kernel mit PREEMPT-RT, wenn strikte Latenzen nötig sind. Keine Desktop-Bloatware.
  • Container: Podman/Buildah rootless, read-only rootfs, tmpfs für Runtime. SBOM gepflegt. Keine „ssh auf die Box und mal schnell was fixen“-Mentalität.
  • Scheduling: CPU-Affinität für Signalverarbeitung, isolcpus für deterministische Latenz. Thermisches Budget überwachen – Throttling killt Echtzeit-Inferenz.
  • Telemetrie: Node Exporter, Journald-Forwarding. Edge-Health wird mit überwacht (Disk-WEAR, Temp, Reboot-Counter).

4) Modelllaufzeit und Paketierung

  • Formate: ONNX als Standardartefakt. Für ARM: TFLite int8. Für Intel: OpenVINO (FP16) gut geeignet. Für NVIDIA: TensorRT mit INT8-Kalibrierung.
  • Quantisierung: Start mit FP32 im Training, Edge mit INT8. Validate auf per-Feature-Distributionen; akzeptabler Genauigkeitsverlust <1–2 %-Punkte bei 3–4x schneller Inferenz und 4x kleinerem Modell.
  • Paketierung: Signierte Artefakte (Sigstore/Cosign), Versionierung semver, „feature spec“ (welche On-Edge-Features hat das Modell erwartet). Konfig getrennt vom Modell (Thresholds, Kanal-IDs).
  • Deterministik: fester Random-Seed, gleiche FFT-Implementierung (FFTW vs. KissFFT) zwischen Entwicklung und Edge; Unterschiede führen sonst zu Drift.

5) Datenfluss und Integrationen

  • Lokal: Ringpuffer (RAM) mit 30–120 s Rohdaten; persistenter Store-and-Forward (Disk) nur für Events und verdichtete Features. Backpressure-Handling: Wenn Netz down, dann FIFO mit Prioritäten (Events zuerst, Features danach).
  • Messaging: MQTT 5.0 (QoS1, Retain für Konfig) oder OPC UA PubSub. Payloads als Protobuf/Avro. Time-series on-prem (Timescale/Influx). Keine unkomprimierten JSON-Fluten.
  • Systeme: Integration ins CMMS/ERP (z. B. SAP PM, Maximo) über Webhooks/REST oder Message Bus; Edge erzeugt technische Diagnose-Events, die zentrale Logik mappt auf Auftragsarten und Schichtkalender. Alarm-Spam wird durch Hysterese und Cooldowns verhindert.
  • Security: mTLS, Geräteidentitäten mit TPM/Hardware-Keys. Kein US-Cloud-Zwang, alle Datenflüsse on-prem, DSGVO-konform. Audit-Logs für Modellwechsel.

6) Deployment und Updates

  • OTA-Strategie: A/B-Updates, phasenweise Rollouts (1 % → 10 % → 100 %), automatisches Rollback bei Healthcheck-Fails. Update-Fenster entlang Produktionspausen/Depotaufenthalten.
  • Testpyramide: Unit-Tests für Features, Golden-File-Tests für komplette DSP-Pipelines, Replay-Tests mit aufgezeichneten Binärströmen, On-Device-Soak-Tests (24–72 h).
  • Observability: Edge sendet Confusion-Matrix-Kandidaten (Trigger vs. Techniker-Rückmeldung). Zentraler Governance-Prozess trackt Falschalarme, Drift, Modelllebensdauer. (Wir setzen hier auf eine on-prem Observability- und Governance-Schicht; Details gern im Austausch → alpitype.de/leistungen/)

Entscheidungsrahmen: Edge vs. Cloud – eine nüchterne Matrix
Die Frage ist nicht ideologisch, sondern eine einfache Bewertung entlang fünf Achsen: