Anomalieerkennung vs. Restlebensdauer (RUL) in der Praxis: Wann reicht “das ist nicht normal” – und wann brauchen wir eine belastbare Prognose?

Problem: Warum PdM-Projekte beim Schritt zur RUL-Prognose scheitern
In der Produktion und im Bahnbetrieb sehe ich immer wieder dieselbe Fallkonstellation: Teams wollen direkt “RUL in Tagen” auf dem Dashboard sehen – mit Confidence-Intervall, am besten noch pro Komponente. In der Realität fehlen ihnen dafür drei Dinge:

  • Verlässliche, ausreichende Run-to-Failure-Daten. Die meisten Anlagen werden rechtzeitig gewartet (censored data). Echte “bis zum bitteren Ende”-Verläufe sind selten, zugleich ändert sich der Betriebspunkt (Last, Drehzahl, Material, Streckenprofil), was Degradationsverläufe verschleiert.
  • Konsistente Zustandsmerkmale (Health Indicators). Rohsignale (Vibration, Strom, Temperatur) sind nicht vergleichbar über Zeit, Maschine und Sensor. Ohne robuste Feature-Extraktion sind Trends reine Halluzination.
  • Saubere Integrationskette. Viele POCs enden als “schöne Kurven in Jupyter”, aber es fehlt die Bindung an CMMS/ERP (Work Orders, Materialdisposition), an Edge-Inferenz (Latenz, Offline-Betrieb) und an On-Prem-Speicher (Souveränität, Auditierbarkeit).

Die Folge: RUL-Modelle werden überfitted an kleine historische Korpora, zeigen in der Fertigung systematisch falsche Horizonte oder kippen bei jedem Schichtwechsel. Alarme werden ignoriert, das Vertrauen ist weg – und das Projekt landet wieder bei Kalenderwartung.

Lösung: Entscheidungsmatrix und Architektur – von “Anomal” zu “RUL-ready”
Bevor man ein Modell auswählt, sollte man domänenseitig hart eingrenzen:

  • Asset-Kritikalität: Sicherheitsrelevant vs. kostenrelevant. Für sicherheitskritische Systeme ist konservative, gut interpretierbare Anomalieerkennung oft sinnvoller als aggressive RUL-Schätzungen.
  • Failure Mode: Plötzliche Ausfälle (Infant mortality, sporadische Elektronikfehler) vs. schleichende Degradation (Lager, Bürsten, Bremsbelag). RUL macht nur Sinn bei monotone(r) Degradation.
  • Datenreife: Gibt es >20–30 dokumentierte Degradationsverläufe eines Homogenitätsgrads? Falls nein, fangen Sie mit Anomalieerkennung an.
  • Interventionsfenster: Wie viel Vorlauf brauchen Instandhalter realistisch (Beschaffung, Slot-Planung)? Ein “Warnung in 8 Stunden” kann wertlos sein, ein “Warnung in 4 Wochen” Gold wert.

Pragmatische Matrix:

  • Phase 1 (0–6 Monate): Unüberwachtes/semisupervised Anomalie-Scoring pro Betriebspunkt, Fokus auf robuste Feature-Pipeline, Drift-Überwachung, Alarm-Governance. Ziel: Wenige, hochwertige Alarme mit verlässlicher Lead Time.
  • Phase 2 (6–18 Monate): Health Indicators stabilisieren, Failure-Tagging aus der Praxis sammeln, Survival-/Hazard-Modelle für einzelne, klar monotone Modi (z. B. Belagverschleiß), RUL für eng definierte Komponenten.
  • Phase 3 (>18 Monate): Physik-informierte oder sequenzbasierte RUL-Modelle auf ausreichend Run-to-Failure-Daten, Varianten pro Asset-Familie, kontinuierliches Retraining, KPI-gestützte Material- und Slot-Optimierung.

Systemarchitektur (on-prem, souverän):

  • Edge-Schicht: Signalerfassung via OPC UA/MQTT, Sampling je nach Sensorik 1–25 kHz (Vibration), 1–10 Hz (Temperatur), 100–1.000 Hz (Stromaufnahme). Vorverarbeitung am Edge: Bandpass, Hanning-Fenster, Feature-Extraktion im 1–5 s Sliding Window.
  • On-Prem-Datenplattform: Zeitreihen-Datenbank, Feature Store, Artefakt-Registry. Keine US-Cloud-Abhängigkeit, DSGVO-konforme Speicherung, Versionierung von Daten- und Modellständen.
  • Inferenz: Containerisierte Modelle direkt am Edge für latenzkritische Signale (<100 ms), On-Prem-Mikroservices für aggregierte Scores/Prognosen. Rollout via GitOps, A/B-Staging.
  • Integration: Benachrichtigungen an CMMS/ERP (z. B. SAP PM/Maximo) mit klarer Semantik: Asset, Mode, Score, Vertrauen, empfohlene Maßnahme. Rückkanal: Work-Order-Outcome als Label.
  • Governance & QA: Monitoring von Datenqualität (Sensor-Drift, Ausfälle), Konzeptdrift (Betriebsprofile), Modellperformance (Lead Time, False Alarms), Audit-Trails. Technische Ownership und QS bleiben intern/on-prem (→ alpitype.de/leistungen/).

Modellwahl im Detail
1) Anomalieerkennung – robust, schnell einsetzbar

  • Feature Engineering
  • Vibration: RMS, Peak-to-Peak, Crest-Factor, Kurtosis, Spektralband-Energie (z. B. 1×, 2×, 3× Drehzahl), Envelope-Analysis für Lager, Spectral Kurtosis für impulsive Defekte.
  • Temperatur: Exponentiell geglättete Abweichung von last-/umgebungsnormalisiertem Setpoint; saisonale Dekomposition.
  • Stromaufnahme: Wellenformanalyse, THD, Oberschwingungsbanden, negative Sequenzkomponenten, Startstrom-Transienten.
  • Kontext: Drehzahl/Last als Pflichtfeature; ohne Regime-Stratifizierung entwerten Sie jedes Anomalie-Score.
  • Modelle
  • Ein-Klassen-Modelle: Isolation Forest, One-Class SVM, Elliptic Envelope für stationäre Regimes.
  • Rekonstruktionsbasierte Verfahren: Autoencoder (zeit- oder frequenzdomänenbasiert), ggf. Denoising, mit Bottleneck-Fehlermetrik als Score.
  • Statistische Verfahren: Zeitreihen-ARIMA-Residuen, Changepoint-Detection (Bayesian Online Change Point Detection), Schwellen per Extreme-Value-Theory (Peaks-over-Threshold).
  • Schwellen & Alarme
  • Kein statischer 3σ-Schwellwert über alles. Pro Regime eigene Verteilungen. EVT zur Ableitung eines quantilbasierten, seltenheitskalibrierten Schwellenwerts (z. B. 99,9%-Quantil).
  • Alarm-Entscheidung nicht monolithisch: Score-Persistenz (x von y Fenstern), Hysterese, Bestätigung über redundante Kanäle (Vibration + Strom).

2) RUL-Prognose – wenn die Voraussetzungen erfüllt sind

  • Datenanforderungen
  • Run-to-Failure- oder mindestens “nahezu bis Ausfall”-Verläufe in signifikanter Zahl (Daumenregel: >30 pro Mode/Asset-Familie).
  • Label-Qualität: Exakte Ausfalldefinition, klare Degradationsbeginn-Markierung; Censoring sauber dokumentieren.
  • Modellfamilien
  • Survival-/Hazard-Modelle: Weibull/Log-Logistic, Cox-Modelle mit zeitvariablen Kovariaten, parametric accelerated failure time (AFT) – robust, auch bei zensierten Daten.
  • Degradationsmodelle: Lineare/polynomielle Drift der Health Indicator, Kalman-/Particle-Filter mit Zustandsrauschen, Hidden Markov Models für Stufenverschleiß.
  • Sequenzmodelle: LSTM/Temporal Convolutional Networks, aber nur mit ausreichend vielfältigen Verläufen und strenger Regularisierung. Physics-informed loss (Monotonie, Smoothness) erzwingen.
  • Prognosequalität
  • Nie nur einen Punktwert liefern. Intervall/Horizont mit Vertrauensband (z. B. 80%-Intervall) und “Prognostic Horizon” (Zeit bis Unschärfe > Schwelle).
  • RUL verdichten auf planungsrelevante Buckets (z. B. 30 Tage) für Material- und Slot-Entscheidungen.