Imported Post 2026-04-23 00:17:56

Edge-Inferenz in der Predictive Maintenance: Warum die Modelle an die Maschine gehören (und wann nicht)

Problem: Was in der Praxis schiefgeht

Wer Predictive Maintenance (PdM) nur in Präsentationen gesehen hat, plant Datenströme in die Cloud, trainiert Modelle im Notebook und erwartet, dass ein „Anomalie-Screen“ plattformweit funktioniert. In der Produktion und im Bahnbetrieb scheitert das regelmäßig – nicht an der Modellgüte, sondern an Randbedingungen, die im POC ausgeblendet werden:

Datenvolumen und Bandbreite: Vier Beschleunigungssensoren (3 Achsen) mit 25,6 kHz und 16 Bit liefern pro Maschine grob 0,6 MB/s, also rund 2,2 GB/h. Bei 30 Maschinen liegen Sie bei 1,5–2 TB/Tag. Das dauerhaft, zuverlässig und DSGVO-/souveränitätskonform aus einer Werkshalle in eine Cloud zu pumpen, ist weder wirtschaftlich noch betrieblich robust.
IT/OT-Segmentierung: Firewalls, kein ausgehender Traffic ohne Freigabe, kein eingehender Zugriff, Zertifikatszwänge, Proxy-Inspektion. POCs funktionieren im Labor-WLAN, aber nicht hinter produktiven Zellen-Firewalls oder auf Zügen mit intermittierender Mobilfunkabdeckung.
Zeitbasis und Jitter: Ohne PTP/IEEE 1588 oder harte Trigger landen Sensorströme phasenverschoben im Speicher. FFT-Merkmale aus asynchronen Streams sind unzuverlässig. Viele POCs ignorieren das, bis der erste Cross-Correlation-Plot in der Linie auseinanderfällt.
Rechenbudget vor Ort: Von Cortex‑M7 über i.MX8 bis zu lüfterlosen x86‑IPCs – das Spektrum ist groß, aber durch Echtzeit-Anforderungen, Wärmehaushalt, EMV und 24/7‑Verfügbarkeit eng begrenzt. Modelle, die auf einer T4‑GPU gut laufen, starben bei uns in der Praxis schon an 10‑W‑Budgets.
Datenhaltung und Souveränität: In Europa und speziell in regulierten Branchen ist „US-Cloud“ für Maschinendaten oft ein No‑Go. Schon das Loggen von Rohsignalen kann personenbezogene oder IP‑sensible Inhalte berühren. Anonymisierung hilft selten bei Rohzeitreihen.
Integration in Instandhaltung: Alerts ohne sauber definierte Kontextdaten (Maschine, Aggregat, Betriebszustand, Auftragsnummer, Drehzahl) führen zu „Nicht bearbeitbar“-Tickets. PdM ohne CMMS/ERP-Anschluss bleibt ein Dashboard ohne Wirkung.

Fazit: Das Problem ist nicht „KI“, sondern Systemarchitektur unter industriellen Nebenbedingungen. In unseren Textil- und Bahn-Projekten war die Lösung fast immer die gleiche: Inferenz an der Kante, Flottenintelligenz on‑prem, Cloud optional – und nur für klar umrissene Zwecke.

Lösung: Eine Edge‑zuerst‑Architektur, die in der Produktion läuft

Eine praxistaugliche PdM-Architektur teilt sich in drei Ebenen:

1) Sensor/Controller-Ebene (Micro‑Edge)

Hardware: IEPE/ICP‑Beschleunigungssensoren, PT100/NTC, Stromzangen (Hall/Rogowski), Drehzahlsensoren; Anbindung über ADC+Anti-Aliasing (z. B. 51,2 kHz), SPI/I2C, Feldbus.

Zeit: PTP/IEEE 1588 oder TTL‑Sync zum Triggern mehrerer ADCs. Ziel: <±100 µs Drift für kHz‑Signale. In Zügen: GPS‑Zeit als Referenz, ansonsten lokaler Grandmaster in der Zelle.

Vorverarbeitung:

Windowing (z. B. 2048–8192 Samples), Hanning/Hamming

FFT/PSD, Bandenergie (k‑fache Lagerfrequenzen), Envelope‑Detektion

RMS/Kurtosis/Crest Factor, Ordnungsanalyse bei drehzahlvariablen Antrieben

Stromsignaturen (MCSA) für Rotor-/Statorfehler, Oberwellen-Features

Rechenbudget:

Cortex‑M7 @ 600 MHz schafft 2048‑Punkt FFT mit CMSIS‑DSP in ~1–2 ms

i.MX8 Quad kann 4× 4096‑FFT <10 ms; x86‑IPC (15 W) <2 ms

Ergebnis: Feature-Vektoren (typisch 50–300 Dimensionen) statt Rohdaten.

2) Edge-Node (Maschinen‑IPC oder Fahrzeug‑Gateway)

Aufgaben:

Feature-Aggregation über Zeitfenster (z. B. 1 s mit 50 % Overlap)

Kontext-Anreicherung (Drehzahl, Produkt, Auftrags-ID, Betriebszustand)

Inferenz:

Unüberwachte Anomalie-Modelle: Isolation Forest, One‑Class SVM, kNN‑Dichte, leichte Autoencoder (1D‑CNN/LSTM) quantisiert (INT8)

Überwachte Klassifikation, wenn Fehlerarten gelabelt sind (selten)

RUL nur, wenn ausreichende Ausfallhistorik vorliegt (noch seltener)

Persistenz: Ringpuffer für Rohdaten (z. B. 60–180 s Pre/Post-Event) mit LZ4/Zstd; Feature-Store lokal (7–30 Tage) zur Drift-Analyse

Kommunikation: MQTT 5.0 oder OPC UA PubSub in die Fabrik-IT; TLS mTLS, clientseitige Zertifikate aus lokaler CA/TPM 2.0

Steuerung: Konfig-, Modell- und Firmware-Updates nur aus dem on‑prem Registry/Repo; signiert; A/B‑Slots; automatisches Rollback.

OS & Runtime:

Yocto/Ubuntu Core auf ARM; schlanke x86‑Distributionen

Containerisiert (Podman/Docker) mit Ressourcenlimits, oder Bare‑Metal‑Services wenn Echtzeit kritisch ist

Optional k3s für Flottenorchestrierung in der Zelle

3) On‑Prem Core (Werks‑ oder Depot‑Rechenzentrum)

Dienste:

Feature- und Event-Ingestion (MQTT/Kafka), Identity (PKI), Policy/Access

Model Registry und Artifactory; CI/CD für Modelle und Signalverarbeitung

Flottenweite Drift-Analyse (PSI/KL-Divergenz über Features), Retraining‑Pipelines

Observability/Governance für ML-Agenten und Inferenzpfade (z. B. Alpi‑M) inkl. Latenzen, Fehlerraten, Schwellenverlauf, Datenqualitätsmetriken

CMMS/ERP-Integration (SAP PM, Maximo, Infor EAM): Ticketing, Auftragsdisposition, Rückmeldung

Datenhaltung:

Rohdaten nur eventbasiert und zeitlich begrenzt (rechtlich+Speicher)

Features und Inferenzmetadaten längerfristig (6–24 Monate) zur Trendbildung

Netzwerk:

Kein externer Cloud‑Zwang; wenn Cloud, dann nach strikter Whitelist, pseudonymisiert und nur für ausgewählte, nicht‑souveränitätskritische Lernjobs.

Datenfluss: Von Rohsignal bis Instandhaltungsauftrag

Sampling: 4× 3‑Achs‑Accelerometer @ 25,6 kHz, 16 Bit, synchronisiert via PTP‑getaktetem ADC
Fensterung: 1,024‑Sample Fenster (40 ms) mit 50 % Overlap
Features pro Fenster:
Frequenzbänder um BPFI/BSF/BPFO/FTF (Lagerkinematik)
RMS, Kurtosis, Crest Factor, Spectral Entropy
Ordnungspegel (bei variabler Drehzahl)
Stromharmonische (5., 7., 11. Ordnung) für MCSA
Aggregation: Median/Varianz über 1 s
Inferenz:
Isolation Forest (100 Bäume) oder INT8‑Autoencoder (ca. 200–500 kB)
Score glätten (Exponential Moving Average), Hysterese gegen Flattern
Ereignislogik:
Anomalie > Schwellwert T1: lokales „gelb“, erhöhte Samplingrate
Dauer > t_hold und Score > T2: „rot“, Event erzeugen, Pre/Post‑Rohdaten aus Ringpuffer sichern
Versand:
MQTT Topic per Maschine/Aggregat; Payload: Feature-Hash, Score, Konfidenz, Kontext, Link auf lokale Rohdatenkachel
Offline‑Pufferung, Retry mit Backoff; auf Zügen: Bulk‑Sync im Depot
CMMS:
Regel: Mappe „rot“ + Kontext auf Inspektionsauftrag mit SLA; füge Link auf Event-Datensatz hinzu

Modellwahl: Anomalieerkennung zuerst, RUL nur bei Datenreife