Anomalieerkennung vs. RUL-Prognose in der Industrie: Wann Sie welches PdM-Verfahren wirklich brauchen

Problem: Warum so viele PdM-Initiativen am Ziel vorbeischießen
Predictive Maintenance scheitert in der Praxis selten an fancy Algorithmen, sondern an falschen Problemannahmen und am Mismatch zwischen Datenlage, Ausfallarten und Instandhaltungsprozessen. Der häufigste Fehler: Es wird eine “Remaining Useful Life” (RUL)-Prognose gefordert, ohne dass je eine Maschine bis zum tatsächlichen Ausfall durchgelaufen ist oder eine belastbare Historie mit Zeit-zu-Ausfall vorliegt. Das zweite Missverständnis: Anomalieerkennung wird als “billiger Vorstufe” gesehen, die bald durch RUL ersetzt wird. In realen Anlagen – Textilfertigung, Bahn, Produktion – sind das oft zwei verschiedene Klassen von Problemen, die unterschiedliche Daten, Architekturen und Metriken verlangen.

Was in der Praxis schiefgeht, ganz konkret:

  • Keine run-to-failure-Daten: Es werden präventive Wechsel gefahren, so dass keine echten RUL-Labels existieren. Daraus lässt sich keine seriöse Lebensdauer-Prognose lernen.
  • Falsches Ziel: Algorithmen optimieren MAE/MSE auf der Zeitachse, während die Instandhaltung ein 3–10-tägiges Planungsfenster braucht und Falschalarme härter bestrafen muss als verpasste Alarme – oder umgekehrt.
  • Nicht-stationäre Betriebsmodi: Drehzahl, Last, Temperatur und Material wechseln. Modelle, die “Normalzustand” als einen festen Punkt sehen, driften oder schießen Fehlalarme.
  • Feature-Armut: Reine Trendbetrachtungen auf Temperatur oder Strom verschleiern dynamische Effekte (z. B. Lagerschäden), die nur in Spektren und Ordnungsanalysen sichtbar werden.
  • Fehlende Integrationsstrategie: PdM-Ausgaben landen als PDF-Report statt als strukturiertes Ereignis im CMMS/ERP. Keine Rückkopplung, keine Label-Qualität, keine Lernschleife.
  • Data-Sovereignty wird ignoriert: Cloud-first-Ansätze scheitern spätestens beim Werksrat, in der Bahnzulassung oder in Verteidigungs- und kritischen Fertigungsumgebungen.

Kurz: Ohne eine explizite Entscheidung zwischen Anomalieerkennung (AD) und RUL – und die passende Architektur dazu – wird PdM zum teuren Dashboard.

Lösung: Eine technische Entscheidungsmatrix mit Architektur-Blueprint
Stellen Sie vor der ersten Zeile Code drei Fragen:
1) Welche Ausfallmodi dominieren und sind sie monotone Alterung oder sprunghafte Störungen?
2) Gibt es verlässliche Labels für “Zeit bis Ausfall/Intervention” oder nur “Normal vs. Auffällig”?
3) Welche Vorwarnzeit und Fehlertoleranzen verlangt die Instandhaltung konkret?

Daraus folgt die Verfahrenswahl.

Wann Anomalieerkennung das richtige Mittel ist:

  • Ausfälle sind selten und heterogen (z. B. textile Spindellager unter wechselnden Garnen).
  • Es existieren viele Stunden “guter” Daten und kaum dokumentierte Ausfälle.
  • Frühindikatoren sind subtil und eher “abweichend” als “monoton fortschreitend”.
  • Ziel ist ein robustes Frühwarnsystem mit konfigurierbarer Alarmrate.

Techniken:

  • Unüberwacht/halbüberwacht: Autoencoder (zeit- oder frequenzbereich), Isolation Forest, One-Class SVM, Robust PCA.
  • Spezifische Methoden:
  • Vibrationsdaten: RMS, Kurtosis, Crest-Factor, Hüllkurvenanalyse, Spektralpeaks auf Lagerkennfrequenzen (BPFO/BPFI), spektrale Entropie, Ordnungsanalyse bei variabler Drehzahl.
  • Stromaufnahme (MCSA): Seitenbänder um Netz- und Schlupffrequenzen, Oberschwingungen unter Laständerung.
  • Temperatur: Trendbruch, Gradient, saisonale Entkopplung.
  • Kalibrierung: Schwellwerte als Funktion des Betriebsmodus; erwartete Alarmrate auf Instandhaltungskapazität ausrichten.

Wann RUL-Prognose sinnvoll ist:

  • Monotone Verschleißprozesse mit systematischer Abnutzung (z. B. Bremsbelag, Filter, Radsatzprofil).
  • Vorhandene oder herstellbare Lebensdauer-Labels: Laufleistung, Lastzyklen, Differenzdruck bis Grenzwert, reale run-to-failure-Sequenzen.
  • Anforderungen verlangen planbare Tauschfenster und Flottenoptimierung (Teile, Werkstattkapazitäten, Umläufe).

Techniken:

  • Statistisch: Parametrische Lebensdauermodelle (Weibull/Lognormal), Cox-Modelle, Survival-Forests.
  • Zustandsraum: Gesundheitsindex mit Monotoniebedingungen, Kalman-/Partikelfilter für schrittweise Degradation.
  • Sequenzmodelle: TCN/LSTM/Transformer für multimodale Zeitreihen (Last, Temperatur, Schwingung), optional hierarchisch-bayesisch für Flotten mit Asset-spezifischen Varianzen.

Architektur-Blueprint (On-Premise, Edge-first)
1) Datenerfassung und Synchronisation

  • Sensorik:
  • Vibration: 3-achsige IEPE/ICP-Beschleunigungssensoren, typische Abtastraten 6,4–25,6 kHz für Lager- und Getriebeanalyse.
  • Strom/Spannung: 1–10 kHz (MCSA, Oberschwingungen).
  • Temperatur/Prozess: 1–10 Hz (Trends, Last).
  • Zähler/Events: Betriebszyklen, Drehzahl, Materialwechsel, Werkstück-ID.
  • Zeitbasis:
  • Edge-Boxen mit PTP/NTP-Sync, Trigger-Sampling entlang Maschinenereignissen (z. B. pro Umdrehung).
  • Order Tracking: Resampling in Winkelkoordinaten bei variabler Drehzahl.
  • Protokolle:
  • OPC UA, MQTT, Feldbus-Gateways (PROFINET, EtherCAT), proprietäre CNC/PLC-Treiber.

2) Datenfluss On-Prem

  • Stream-Ingestion: Kafka/Redpanda für Hochfrequenz, MQTT für Low-Rate.
  • Storage:
  • Rohdaten mit Lifecycle-Policies in Objektspeicher (z. B. MinIO on-prem).
  • Downsampled Timeseries in TimescaleDB/InfluxDB für schnelle Abfragen.
  • Feature-Pipelines:
  • Sliding-Window-Berechnung am Edge oder im Stream (Flink/Spark Structured Streaming).
  • Frequenzmerkmale per FFT/Welch, Envelope, Kurtosis, Ordnungsanalyse.
  • Feature-Drift-Metriken (Population Stability Index, KS-Test) kontinuierlich loggen.
  • Governance: Datenkatalog mit Sensor-Metadaten, Versionierung von Feature-Rezepten.

3) Modellierung

  • AD-Setup:
  • Normalitätsfenster je Betriebsmodus lernen (z. B. je Drehzahlband, Materialtyp).
  • Rekonstruktionsfehler (Autoencoder) oder Score (Isolation Forest) als health score.
  • Konfidenzkalibrierung per Platt-Scaling/Isotonic auf Validierungsperioden.
  • RUL-Setup:
  • Gesundheitsindex definieren (z. B. Differenzdruck Filter, Radabnutzung) mit Monotonieconstraint.
  • Lebensdauermodelle je Assetklasse, hierarchische Partial Pooling für standortspezifische Effekte.
  • Kovariaten: Last, Temperatur, Umgebung, Schichtregime.
  • Unschärfe kommunizieren: Prediction Intervals statt Punktwerte.

4) Online-Inferenz und Edge-Deployment

  • Edge-Container (z. B. K3s) mit:
  • Feature-Service in C++/Rust für HPC-nahe Signalverarbeitung.
  • Modell-Service in Python/C++ (ONNX-Runtime, TensorRT, libtorch) für geringe Latenz.
  • Windowing:
  • Vibrationsfenster 0,5–2 s, Überschneidung 50 %, für RUL eher länger aggregieren.
  • Ressourcen:
  • CPU-Vektor-Instruktionen nutzen (AVX2/AVX-512); GPU nur wenn vorhanden und nötig.
  • Robustheit:
  • Watchdogs, Backpressure ins Message-System, Offline-Buffering bei Netzstörung.
  • Sicherheit:
  • On-Prem-AuthN/Z, Audit-Logs, kein Datentransfer in Public Clouds, DSGVO-konform.