Predictive Maintenance scheitert an der Sensorik: Sampling, Synchronisation und Labeling – ein Praxisleitfaden aus Textil- und Bahnprojekten

Problem: Was in der Praxis schiefgeht
Ich habe PdM-Systeme in Textilfertigung und Bahnbetrieb gebaut – und der häufigste Grund fürs Scheitern ist nicht “das falsche Modell”, sondern miserable Eingangsdaten. Typische Muster:

  • Falsche Abtastraten und Aliasing: Beschleunigungssensoren an Lagerstellen mit 1 kHz sampled, obwohl die charakteristischen Schadfrequenzen im Bereich mehrerer kHz liegen. Ergebnis: gefilterte, aliasbehaftete Signale, in denen die wichtige Information weg ist.
  • Unsynchronisierte Kanäle: Vibration, Strom und Drehzahl laufen auf unterschiedlichen NTP-Uhren. Schon 50–100 ms Drift über Stunden zerstört Korrelationen und macht Feature-Level-Fusion nutzlos.
  • Mechanisch schlechte Montage: Sensor am lackierten Gehäuse mit Magnetfuß statt fest verschraubt/verklebter Montage. Der Sensor koppelt das Gehäuse, nicht das Lager. Das Signal misst “Maschinenständer-Schwingen”, nicht den Defekt.
  • Keine Tachoinformation: Man versucht Order-Tracking ohne Drehzahlsignal. Bei variabler Drehzahl verschwimmen harmonische Ordnungen; spektrale Merkmale sind nicht stabil.
  • Strommessung mit gesättigten Stromwandlern: CT im Grenzbereich, Peaks sind abgeschnitten. MCSA-Features (z. B. Seitenbänder um Netzfrequenz) werden unbrauchbar.
  • Temperaturdaten ohne Verständnis der Zeitkonstante: Sensor am Gehäuse mit hoher thermischer Trägheit; kurzzeitige Lastspitzen bleiben unsichtbar, Trends sind verzögert. Alarmierungen kommen zu spät oder gar nicht.
  • Fehlende Ground Truth: CMMS/ERP-Daten haben freie Texte (“komisches Geräusch”), aber keine standardisierte Fehler-Typologie oder präzise Zeitstempel. Labels sind nicht nutzbar, supervised Learning bleibt Wunschdenken.
  • Event-Missklassifikation: Geplante Wartung (Austausch nach Plan) wird als “Ausfall” gelabelt; das Modell “lernt”, dass jede Wartung nach n Tagen kommt – perfekter Accuracy, null Nutzen.
  • Netzwerkbedingte Datenlücken: MQTT/OPC-UA mit QoS/Buffering falsch konfiguriert; 5–10 % Paketverlust oder Batch-Uploads mit Minuten-Latenz. Modelle sehen “Stille” statt Signal.
  • Quantisierung und Rauschen: 10-bit ADC für Mikrovibrationen an hochsteifen Strukturen – das feine Signal versinkt im Quantisierungsrauschen.
  • Versionschaos: Kalibrierwechsel, Sensorersatz, Firmware-Updates der DAQ – ohne Versionsmetadaten ist jede Langzeit-Analyse verzerrt.

Wenn Sie an diesen Punkten vorbeigehen, ist die Diskussion “Anomalieerkennung vs. RUL-Prognose” akademisch. Deshalb zuerst die Dateningenieursarbeit: Sensorik, Synchronisation, Labeling, Data Contracts.

Lösung: Architektur, Datenfluss, Modellwahl
Ich beschreibe einen praxistauglichen Build für Fertigung und Bahn – on-premise, DSGVO-konform, ohne US-Cloud-Abhängigkeit (→ alpitype.de/leistungen/).

1) Sensorik- und Abtastkonzept

  • Vibration (Lager, Getriebe):
  • Sensor: IEPE-Beschleunigungsaufnehmer oder piezoelektrisch mit bekannter Empfindlichkeit und Frequenzgang.
  • Montage: Verschraubt oder geklebt (Epoxid), gereinigte Oberfläche; keine Magnetfüße für Dauerbetrieb.
  • Abtastrate: Als grobe Regel mindestens 5–10× über der höchsten interessierenden Ordnungsfrequenz. Für Lagerdiagnostik mit Hüllkurve sind 12–25 kHz üblich. Anti-Aliasing-Filter zwingend.
  • Fenster: 1–4 s Rohfenster, optional Hüllkurve (Bandpass 2–10 kHz, Demodulation), plus niedrigere Rate (z. B. 1 kHz) für Low-Frequency-Features.
  • Tachogeber: Optisch oder induktiv am Schaft; bei variabler Drehzahl ist Order-Tracking ohne Tachogeber Glücksspiel.
  • Stromaufnahme (MCSA, Antriebe):
  • Sensor: Stromwandler mit ausreichender Linearität und Bandbreite; Vermeidung von Sättigung.
  • Abtastrate: Für Netzfrequenzseitenbänder und Inverter-Harmonische i. d. R. 5–20 kHz. Synchron mit Spannung für phasenbezogene Merkmale.
  • Temperatur:
  • Sensor: PT100/1000 mit bekannter Einbauposition; Kontaktqualität wichtiger als “Smarte” Sensoren.
  • Dynamik: Zeitkonstante erfassen (Stufenantwort) und in Feature-Design berücksichtigen; ansonsten sind Trends zeitlich verschoben.

2) Zeit und Synchronisation

  • Zeitquelle: PTP (IEEE 1588) in der Zelle oder GPS-basierte HW-Timestamps an der Edge-DAQ; NTP nur mit Sorgfalt (Drift-Überwachung).
  • Timestamps am Entstehungsort: Keine “Broker-Zeitstempel” als Wahrheit verwenden.
  • Kanal-Synchronisation: Gemeinsamer Takt für Multi-Channel-Vibration (Phasenbezug).

3) Datenfluss und Vorverarbeitung

  • Edge-Puffer: Ringpuffer für hochfrequente Daten, z. B. 60–120 s, um bei Events Pre- und Post-Trigger zu sichern.
  • Zwei-Pfade-Strategie:
  • Path A: Rohfenster mit hoher Rate werden ereignisgetrieben (periodisch oder bei Anomalie) komprimiert (FLAC/Parquet+ZSTD) on-prem archiviert.
  • Path B: Günstige Features/Statistiken (RMS, Kurtosis, Ordnungsenergie, Seitenbandenergie, Temperaturtrend) in 1–10 s Intervallen kontinuierlich gestreamt.
  • Data Contracts:
  • Pro Sensor: asset_id, sensor_id, location, mount_type, sample_rate, filter_chain, calibration_id, firmware, timezone, ptp_status.
  • Pro Paket: start_ts, end_ts, num_samples, dropped_samples, checksum, unit, scale.
  • Validierung: Hart abprüfen. Wenn scale fehlt oder ptp_status != locked: Paket verwerfen oder markieren.

4) Ground Truth und Labeling

  • Ereignistypologie: Einheitliche Codes: FAILURE (ungeplant), SCHEDULED_REPLACEMENT, INSPECTION, NO_FAULT_FOUND, ENV_CHANGE.
  • Zeitliche Zuordnung: Aus ERP/CMMS Work-Orders kommen Start/Ende; wir definieren Zuordnungsfenster (z. B. FAILURE_WINDOW = -7d bis 0h vor Ticket) und schließen Daten nach Eingriff (Mindestraumbetrieb, z. B. +24h) aus Trainingslabels aus.
  • Datenbank: Ereignisse mit asset_id, event_code, severity, part_id, technician_notes_raw, time_bounds.
  • Semi-supervised Labels: “Sicher gesund”-Zeitfenster definieren (neue Lager nach Einlauf, stabile Last, keine Alarme) als Trainingsbasis.

5) Feature Engineering (robust und interpretierbar)

  • Vibration (Lager/Getriebe):
  • Zeitbereich: RMS, Peak, Crest-Factor, Kurtosis, Skewness, Impulsfaktor, MAP.
  • Frequenzbereich: Spektrale Bänder; Energien an erwarteten Ordnungen (BPFO/BPFI/FTF/BSF) – wenn Tachogeber vorhanden.
  • Hüllkurve: Bandpass + Hilbert; Seitenband-Indices um Ordnungen herum.
  • Ordnungsanalyse: Resampling auf gleichmäßige Winkel; wichtig bei variabler Drehzahl.
  • Stromaufnahme:
  • Harmonische Amplitudenverhältnisse (z. B. 2×, 3× der Grundfrequenz), Energie in Inverter-Schaltbändern, Seitenbänder um die Schlupffrequenz.
  • Temperatur:
  • Entzerrte Trends: Exponentielle Entspannung berücksichtigen; z. B. Fit auf dT/dt, Baseline-Korrektur auf Umgebung.