Anomalieerkennung vs. Restlebensdauer (RUL) in der Praxis: Wann reicht “das ist nicht normal” – und wann brauchen wir eine belastbare Prognose?
Problem: Warum PdM-Projekte beim Schritt zur RUL-Prognose scheitern
In der Produktion und im Bahnbetrieb sehe ich immer wieder dieselbe Fallkonstellation: Teams wollen direkt “RUL in Tagen” auf dem Dashboard sehen – mit Confidence-Intervall, am besten noch pro Komponente. In der Realität fehlen ihnen dafür drei Dinge:
- Verlässliche, ausreichende Run-to-Failure-Daten. Die meisten Anlagen werden rechtzeitig gewartet (censored data). Echte “bis zum bitteren Ende”-Verläufe sind selten, zugleich ändert sich der Betriebspunkt (Last, Drehzahl, Material, Streckenprofil), was Degradationsverläufe verschleiert.
- Konsistente Zustandsmerkmale (Health Indicators). Rohsignale (Vibration, Strom, Temperatur) sind nicht vergleichbar über Zeit, Maschine und Sensor. Ohne robuste Feature-Extraktion sind Trends reine Halluzination.
- Saubere Integrationskette. Viele POCs enden als “schöne Kurven in Jupyter”, aber es fehlt die Bindung an CMMS/ERP (Work Orders, Materialdisposition), an Edge-Inferenz (Latenz, Offline-Betrieb) und an On-Prem-Speicher (Souveränität, Auditierbarkeit).
Die Folge: RUL-Modelle werden überfitted an kleine historische Korpora, zeigen in der Fertigung systematisch falsche Horizonte oder kippen bei jedem Schichtwechsel. Alarme werden ignoriert, das Vertrauen ist weg – und das Projekt landet wieder bei Kalenderwartung.
Lösung: Entscheidungsmatrix und Architektur – von “Anomal” zu “RUL-ready”
Bevor man ein Modell auswählt, sollte man domänenseitig hart eingrenzen:
- Asset-Kritikalität: Sicherheitsrelevant vs. kostenrelevant. Für sicherheitskritische Systeme ist konservative, gut interpretierbare Anomalieerkennung oft sinnvoller als aggressive RUL-Schätzungen.
- Failure Mode: Plötzliche Ausfälle (Infant mortality, sporadische Elektronikfehler) vs. schleichende Degradation (Lager, Bürsten, Bremsbelag). RUL macht nur Sinn bei monotone(r) Degradation.
- Datenreife: Gibt es >20–30 dokumentierte Degradationsverläufe eines Homogenitätsgrads? Falls nein, fangen Sie mit Anomalieerkennung an.
- Interventionsfenster: Wie viel Vorlauf brauchen Instandhalter realistisch (Beschaffung, Slot-Planung)? Ein “Warnung in 8 Stunden” kann wertlos sein, ein “Warnung in 4 Wochen” Gold wert.
Pragmatische Matrix:
- Phase 1 (0–6 Monate): Unüberwachtes/semisupervised Anomalie-Scoring pro Betriebspunkt, Fokus auf robuste Feature-Pipeline, Drift-Überwachung, Alarm-Governance. Ziel: Wenige, hochwertige Alarme mit verlässlicher Lead Time.
- Phase 2 (6–18 Monate): Health Indicators stabilisieren, Failure-Tagging aus der Praxis sammeln, Survival-/Hazard-Modelle für einzelne, klar monotone Modi (z. B. Belagverschleiß), RUL für eng definierte Komponenten.
- Phase 3 (>18 Monate): Physik-informierte oder sequenzbasierte RUL-Modelle auf ausreichend Run-to-Failure-Daten, Varianten pro Asset-Familie, kontinuierliches Retraining, KPI-gestützte Material- und Slot-Optimierung.
Systemarchitektur (on-prem, souverän):
- Edge-Schicht: Signalerfassung via OPC UA/MQTT, Sampling je nach Sensorik 1–25 kHz (Vibration), 1–10 Hz (Temperatur), 100–1.000 Hz (Stromaufnahme). Vorverarbeitung am Edge: Bandpass, Hanning-Fenster, Feature-Extraktion im 1–5 s Sliding Window.
- On-Prem-Datenplattform: Zeitreihen-Datenbank, Feature Store, Artefakt-Registry. Keine US-Cloud-Abhängigkeit, DSGVO-konforme Speicherung, Versionierung von Daten- und Modellständen.
- Inferenz: Containerisierte Modelle direkt am Edge für latenzkritische Signale (<100 ms), On-Prem-Mikroservices für aggregierte Scores/Prognosen. Rollout via GitOps, A/B-Staging.
- Integration: Benachrichtigungen an CMMS/ERP (z. B. SAP PM/Maximo) mit klarer Semantik: Asset, Mode, Score, Vertrauen, empfohlene Maßnahme. Rückkanal: Work-Order-Outcome als Label.
- Governance & QA: Monitoring von Datenqualität (Sensor-Drift, Ausfälle), Konzeptdrift (Betriebsprofile), Modellperformance (Lead Time, False Alarms), Audit-Trails. Technische Ownership und QS bleiben intern/on-prem (→ alpitype.de/leistungen/).
Modellwahl im Detail
1) Anomalieerkennung – robust, schnell einsetzbar
- Feature Engineering
- Vibration: RMS, Peak-to-Peak, Crest-Factor, Kurtosis, Spektralband-Energie (z. B. 1×, 2×, 3× Drehzahl), Envelope-Analysis für Lager, Spectral Kurtosis für impulsive Defekte.
- Temperatur: Exponentiell geglättete Abweichung von last-/umgebungsnormalisiertem Setpoint; saisonale Dekomposition.
- Stromaufnahme: Wellenformanalyse, THD, Oberschwingungsbanden, negative Sequenzkomponenten, Startstrom-Transienten.
- Kontext: Drehzahl/Last als Pflichtfeature; ohne Regime-Stratifizierung entwerten Sie jedes Anomalie-Score.
- Modelle
- Ein-Klassen-Modelle: Isolation Forest, One-Class SVM, Elliptic Envelope für stationäre Regimes.
- Rekonstruktionsbasierte Verfahren: Autoencoder (zeit- oder frequenzdomänenbasiert), ggf. Denoising, mit Bottleneck-Fehlermetrik als Score.
- Statistische Verfahren: Zeitreihen-ARIMA-Residuen, Changepoint-Detection (Bayesian Online Change Point Detection), Schwellen per Extreme-Value-Theory (Peaks-over-Threshold).
- Schwellen & Alarme
- Kein statischer 3σ-Schwellwert über alles. Pro Regime eigene Verteilungen. EVT zur Ableitung eines quantilbasierten, seltenheitskalibrierten Schwellenwerts (z. B. 99,9%-Quantil).
- Alarm-Entscheidung nicht monolithisch: Score-Persistenz (x von y Fenstern), Hysterese, Bestätigung über redundante Kanäle (Vibration + Strom).
2) RUL-Prognose – wenn die Voraussetzungen erfüllt sind
- Datenanforderungen
- Run-to-Failure- oder mindestens “nahezu bis Ausfall”-Verläufe in signifikanter Zahl (Daumenregel: >30 pro Mode/Asset-Familie).
- Label-Qualität: Exakte Ausfalldefinition, klare Degradationsbeginn-Markierung; Censoring sauber dokumentieren.
- Modellfamilien
- Survival-/Hazard-Modelle: Weibull/Log-Logistic, Cox-Modelle mit zeitvariablen Kovariaten, parametric accelerated failure time (AFT) – robust, auch bei zensierten Daten.
- Degradationsmodelle: Lineare/polynomielle Drift der Health Indicator, Kalman-/Particle-Filter mit Zustandsrauschen, Hidden Markov Models für Stufenverschleiß.
- Sequenzmodelle: LSTM/Temporal Convolutional Networks, aber nur mit ausreichend vielfältigen Verläufen und strenger Regularisierung. Physics-informed loss (Monotonie, Smoothness) erzwingen.
- Prognosequalität
- Nie nur einen Punktwert liefern. Intervall/Horizont mit Vertrauensband (z. B. 80%-Intervall) und “Prognostic Horizon” (Zeit bis Unschärfe > Schwelle).
- RUL verdichten auf planungsrelevante Buckets (z. B. 30 Tage) für Material- und Slot-Entscheidungen.