Edge-Inferenz in der Predictive Maintenance: Warum die Modelle an die Maschine gehören (und wann nicht)

Problem: Was in der Praxis schiefgeht

Wer Predictive Maintenance (PdM) nur in Präsentationen gesehen hat, plant Datenströme in die Cloud, trainiert Modelle im Notebook und erwartet, dass ein „Anomalie-Screen“ plattformweit funktioniert. In der Produktion und im Bahnbetrieb scheitert das regelmäßig – nicht an der Modellgüte, sondern an Randbedingungen, die im POC ausgeblendet werden:

  • Datenvolumen und Bandbreite: Vier Beschleunigungssensoren (3 Achsen) mit 25,6 kHz und 16 Bit liefern pro Maschine grob 0,6 MB/s, also rund 2,2 GB/h. Bei 30 Maschinen liegen Sie bei 1,5–2 TB/Tag. Das dauerhaft, zuverlässig und DSGVO-/souveränitätskonform aus einer Werkshalle in eine Cloud zu pumpen, ist weder wirtschaftlich noch betrieblich robust.
  • IT/OT-Segmentierung: Firewalls, kein ausgehender Traffic ohne Freigabe, kein eingehender Zugriff, Zertifikatszwänge, Proxy-Inspektion. POCs funktionieren im Labor-WLAN, aber nicht hinter produktiven Zellen-Firewalls oder auf Zügen mit intermittierender Mobilfunkabdeckung.
  • Zeitbasis und Jitter: Ohne PTP/IEEE 1588 oder harte Trigger landen Sensorströme phasenverschoben im Speicher. FFT-Merkmale aus asynchronen Streams sind unzuverlässig. Viele POCs ignorieren das, bis der erste Cross-Correlation-Plot in der Linie auseinanderfällt.
  • Rechenbudget vor Ort: Von Cortex‑M7 über i.MX8 bis zu lüfterlosen x86‑IPCs – das Spektrum ist groß, aber durch Echtzeit-Anforderungen, Wärmehaushalt, EMV und 24/7‑Verfügbarkeit eng begrenzt. Modelle, die auf einer T4‑GPU gut laufen, starben bei uns in der Praxis schon an 10‑W‑Budgets.
  • Datenhaltung und Souveränität: In Europa und speziell in regulierten Branchen ist „US-Cloud“ für Maschinendaten oft ein No‑Go. Schon das Loggen von Rohsignalen kann personenbezogene oder IP‑sensible Inhalte berühren. Anonymisierung hilft selten bei Rohzeitreihen.
  • Integration in Instandhaltung: Alerts ohne sauber definierte Kontextdaten (Maschine, Aggregat, Betriebszustand, Auftragsnummer, Drehzahl) führen zu „Nicht bearbeitbar“-Tickets. PdM ohne CMMS/ERP-Anschluss bleibt ein Dashboard ohne Wirkung.

Fazit: Das Problem ist nicht „KI“, sondern Systemarchitektur unter industriellen Nebenbedingungen. In unseren Textil- und Bahn-Projekten war die Lösung fast immer die gleiche: Inferenz an der Kante, Flottenintelligenz on‑prem, Cloud optional – und nur für klar umrissene Zwecke.

Lösung: Eine Edge‑zuerst‑Architektur, die in der Produktion läuft

Eine praxistaugliche PdM-Architektur teilt sich in drei Ebenen:

1) Sensor/Controller-Ebene (Micro‑Edge)

  • Hardware: IEPE/ICP‑Beschleunigungssensoren, PT100/NTC, Stromzangen (Hall/Rogowski), Drehzahlsensoren; Anbindung über ADC+Anti-Aliasing (z. B. 51,2 kHz), SPI/I2C, Feldbus.
  • Zeit: PTP/IEEE 1588 oder TTL‑Sync zum Triggern mehrerer ADCs. Ziel: <±100 µs Drift für kHz‑Signale. In Zügen: GPS‑Zeit als Referenz, ansonsten lokaler Grandmaster in der Zelle.
  • Vorverarbeitung:
  • Windowing (z. B. 2048–8192 Samples), Hanning/Hamming
  • FFT/PSD, Bandenergie (k‑fache Lagerfrequenzen), Envelope‑Detektion
  • RMS/Kurtosis/Crest Factor, Ordnungsanalyse bei drehzahlvariablen Antrieben
  • Stromsignaturen (MCSA) für Rotor-/Statorfehler, Oberwellen-Features
  • Rechenbudget:
  • Cortex‑M7 @ 600 MHz schafft 2048‑Punkt FFT mit CMSIS‑DSP in ~1–2 ms
  • i.MX8 Quad kann 4× 4096‑FFT <10 ms; x86‑IPC (15 W) <2 ms
  • Ergebnis: Feature-Vektoren (typisch 50–300 Dimensionen) statt Rohdaten.

2) Edge-Node (Maschinen‑IPC oder Fahrzeug‑Gateway)

  • Aufgaben:
  • Feature-Aggregation über Zeitfenster (z. B. 1 s mit 50 % Overlap)
  • Kontext-Anreicherung (Drehzahl, Produkt, Auftrags-ID, Betriebszustand)
  • Inferenz:
  • Unüberwachte Anomalie-Modelle: Isolation Forest, One‑Class SVM, kNN‑Dichte, leichte Autoencoder (1D‑CNN/LSTM) quantisiert (INT8)
  • Überwachte Klassifikation, wenn Fehlerarten gelabelt sind (selten)
  • RUL nur, wenn ausreichende Ausfallhistorik vorliegt (noch seltener)
  • Persistenz: Ringpuffer für Rohdaten (z. B. 60–180 s Pre/Post-Event) mit LZ4/Zstd; Feature-Store lokal (7–30 Tage) zur Drift-Analyse
  • Kommunikation: MQTT 5.0 oder OPC UA PubSub in die Fabrik-IT; TLS mTLS, clientseitige Zertifikate aus lokaler CA/TPM 2.0
  • Steuerung: Konfig-, Modell- und Firmware-Updates nur aus dem on‑prem Registry/Repo; signiert; A/B‑Slots; automatisches Rollback.
  • OS & Runtime:
  • Yocto/Ubuntu Core auf ARM; schlanke x86‑Distributionen
  • Containerisiert (Podman/Docker) mit Ressourcenlimits, oder Bare‑Metal‑Services wenn Echtzeit kritisch ist
  • Optional k3s für Flottenorchestrierung in der Zelle

3) On‑Prem Core (Werks‑ oder Depot‑Rechenzentrum)

  • Dienste:
  • Feature- und Event-Ingestion (MQTT/Kafka), Identity (PKI), Policy/Access
  • Model Registry und Artifactory; CI/CD für Modelle und Signalverarbeitung
  • Flottenweite Drift-Analyse (PSI/KL-Divergenz über Features), Retraining‑Pipelines
  • Observability/Governance für ML-Agenten und Inferenzpfade (z. B. Alpi‑M) inkl. Latenzen, Fehlerraten, Schwellenverlauf, Datenqualitätsmetriken
  • CMMS/ERP-Integration (SAP PM, Maximo, Infor EAM): Ticketing, Auftragsdisposition, Rückmeldung
  • Datenhaltung:
  • Rohdaten nur eventbasiert und zeitlich begrenzt (rechtlich+Speicher)
  • Features und Inferenzmetadaten längerfristig (6–24 Monate) zur Trendbildung
  • Netzwerk:
  • Kein externer Cloud‑Zwang; wenn Cloud, dann nach strikter Whitelist, pseudonymisiert und nur für ausgewählte, nicht‑souveränitätskritische Lernjobs.

Datenfluss: Von Rohsignal bis Instandhaltungsauftrag

  • Sampling: 4× 3‑Achs‑Accelerometer @ 25,6 kHz, 16 Bit, synchronisiert via PTP‑getaktetem ADC
  • Fensterung: 1,024‑Sample Fenster (40 ms) mit 50 % Overlap
  • Features pro Fenster:
  • Frequenzbänder um BPFI/BSF/BPFO/FTF (Lagerkinematik)
  • RMS, Kurtosis, Crest Factor, Spectral Entropy
  • Ordnungspegel (bei variabler Drehzahl)
  • Stromharmonische (5., 7., 11. Ordnung) für MCSA
  • Aggregation: Median/Varianz über 1 s
  • Inferenz:
  • Isolation Forest (100 Bäume) oder INT8‑Autoencoder (ca. 200–500 kB)
  • Score glätten (Exponential Moving Average), Hysterese gegen Flattern
  • Ereignislogik:
  • Anomalie > Schwellwert T1: lokales „gelb“, erhöhte Samplingrate
  • Dauer > t_hold und Score > T2: „rot“, Event erzeugen, Pre/Post‑Rohdaten aus Ringpuffer sichern
  • Versand:
  • MQTT Topic per Maschine/Aggregat; Payload: Feature-Hash, Score, Konfidenz, Kontext, Link auf lokale Rohdatenkachel
  • Offline‑Pufferung, Retry mit Backoff; auf Zügen: Bulk‑Sync im Depot
  • CMMS:
  • Regel: Mappe „rot“ + Kontext auf Inspektionsauftrag mit SLA; füge Link auf Event-Datensatz hinzu

Modellwahl: Anomalieerkennung zuerst, RUL nur bei Datenreife