Imported Post 2026-04-27 00:12:15

Anomalieerkennung vs. Restlebensdauer (RUL) in der Praxis: Wann reicht “das ist nicht normal” – und wann brauchen wir eine belastbare Prognose?

Problem: Warum PdM-Projekte beim Schritt zur RUL-Prognose scheitern
In der Produktion und im Bahnbetrieb sehe ich immer wieder dieselbe Fallkonstellation: Teams wollen direkt “RUL in Tagen” auf dem Dashboard sehen – mit Confidence-Intervall, am besten noch pro Komponente. In der Realität fehlen ihnen dafür drei Dinge:

Verlässliche, ausreichende Run-to-Failure-Daten. Die meisten Anlagen werden rechtzeitig gewartet (censored data). Echte “bis zum bitteren Ende”-Verläufe sind selten, zugleich ändert sich der Betriebspunkt (Last, Drehzahl, Material, Streckenprofil), was Degradationsverläufe verschleiert.
Konsistente Zustandsmerkmale (Health Indicators). Rohsignale (Vibration, Strom, Temperatur) sind nicht vergleichbar über Zeit, Maschine und Sensor. Ohne robuste Feature-Extraktion sind Trends reine Halluzination.
Saubere Integrationskette. Viele POCs enden als “schöne Kurven in Jupyter”, aber es fehlt die Bindung an CMMS/ERP (Work Orders, Materialdisposition), an Edge-Inferenz (Latenz, Offline-Betrieb) und an On-Prem-Speicher (Souveränität, Auditierbarkeit).

Die Folge: RUL-Modelle werden überfitted an kleine historische Korpora, zeigen in der Fertigung systematisch falsche Horizonte oder kippen bei jedem Schichtwechsel. Alarme werden ignoriert, das Vertrauen ist weg – und das Projekt landet wieder bei Kalenderwartung.

Lösung: Entscheidungsmatrix und Architektur – von “Anomal” zu “RUL-ready”
Bevor man ein Modell auswählt, sollte man domänenseitig hart eingrenzen:

Asset-Kritikalität: Sicherheitsrelevant vs. kostenrelevant. Für sicherheitskritische Systeme ist konservative, gut interpretierbare Anomalieerkennung oft sinnvoller als aggressive RUL-Schätzungen.
Failure Mode: Plötzliche Ausfälle (Infant mortality, sporadische Elektronikfehler) vs. schleichende Degradation (Lager, Bürsten, Bremsbelag). RUL macht nur Sinn bei monotone(r) Degradation.
Datenreife: Gibt es >20–30 dokumentierte Degradationsverläufe eines Homogenitätsgrads? Falls nein, fangen Sie mit Anomalieerkennung an.
Interventionsfenster: Wie viel Vorlauf brauchen Instandhalter realistisch (Beschaffung, Slot-Planung)? Ein “Warnung in 8 Stunden” kann wertlos sein, ein “Warnung in 4 Wochen” Gold wert.

Pragmatische Matrix:

Phase 1 (0–6 Monate): Unüberwachtes/semisupervised Anomalie-Scoring pro Betriebspunkt, Fokus auf robuste Feature-Pipeline, Drift-Überwachung, Alarm-Governance. Ziel: Wenige, hochwertige Alarme mit verlässlicher Lead Time.

Phase 2 (6–18 Monate): Health Indicators stabilisieren, Failure-Tagging aus der Praxis sammeln, Survival-/Hazard-Modelle für einzelne, klar monotone Modi (z. B. Belagverschleiß), RUL für eng definierte Komponenten.

Phase 3 (>18 Monate): Physik-informierte oder sequenzbasierte RUL-Modelle auf ausreichend Run-to-Failure-Daten, Varianten pro Asset-Familie, kontinuierliches Retraining, KPI-gestützte Material- und Slot-Optimierung.

Systemarchitektur (on-prem, souverän):

Edge-Schicht: Signalerfassung via OPC UA/MQTT, Sampling je nach Sensorik 1–25 kHz (Vibration), 1–10 Hz (Temperatur), 100–1.000 Hz (Stromaufnahme). Vorverarbeitung am Edge: Bandpass, Hanning-Fenster, Feature-Extraktion im 1–5 s Sliding Window.

On-Prem-Datenplattform: Zeitreihen-Datenbank, Feature Store, Artefakt-Registry. Keine US-Cloud-Abhängigkeit, DSGVO-konforme Speicherung, Versionierung von Daten- und Modellständen.

Inferenz: Containerisierte Modelle direkt am Edge für latenzkritische Signale (<100 ms), On-Prem-Mikroservices für aggregierte Scores/Prognosen. Rollout via GitOps, A/B-Staging.

Integration: Benachrichtigungen an CMMS/ERP (z. B. SAP PM/Maximo) mit klarer Semantik: Asset, Mode, Score, Vertrauen, empfohlene Maßnahme. Rückkanal: Work-Order-Outcome als Label.

Governance & QA: Monitoring von Datenqualität (Sensor-Drift, Ausfälle), Konzeptdrift (Betriebsprofile), Modellperformance (Lead Time, False Alarms), Audit-Trails. Technische Ownership und QS bleiben intern/on-prem (→ alpitype.de/leistungen/).

Modellwahl im Detail
1) Anomalieerkennung – robust, schnell einsetzbar

Feature Engineering

Vibration: RMS, Peak-to-Peak, Crest-Factor, Kurtosis, Spektralband-Energie (z. B. 1×, 2×, 3× Drehzahl), Envelope-Analysis für Lager, Spectral Kurtosis für impulsive Defekte.

Temperatur: Exponentiell geglättete Abweichung von last-/umgebungsnormalisiertem Setpoint; saisonale Dekomposition.

Stromaufnahme: Wellenformanalyse, THD, Oberschwingungsbanden, negative Sequenzkomponenten, Startstrom-Transienten.

Kontext: Drehzahl/Last als Pflichtfeature; ohne Regime-Stratifizierung entwerten Sie jedes Anomalie-Score.

Modelle

Ein-Klassen-Modelle: Isolation Forest, One-Class SVM, Elliptic Envelope für stationäre Regimes.

Rekonstruktionsbasierte Verfahren: Autoencoder (zeit- oder frequenzdomänenbasiert), ggf. Denoising, mit Bottleneck-Fehlermetrik als Score.

Statistische Verfahren: Zeitreihen-ARIMA-Residuen, Changepoint-Detection (Bayesian Online Change Point Detection), Schwellen per Extreme-Value-Theory (Peaks-over-Threshold).

Schwellen & Alarme

Kein statischer 3σ-Schwellwert über alles. Pro Regime eigene Verteilungen. EVT zur Ableitung eines quantilbasierten, seltenheitskalibrierten Schwellenwerts (z. B. 99,9%-Quantil).

Alarm-Entscheidung nicht monolithisch: Score-Persistenz (x von y Fenstern), Hysterese, Bestätigung über redundante Kanäle (Vibration + Strom).

2) RUL-Prognose – wenn die Voraussetzungen erfüllt sind

Datenanforderungen

Run-to-Failure- oder mindestens “nahezu bis Ausfall”-Verläufe in signifikanter Zahl (Daumenregel: >30 pro Mode/Asset-Familie).

Label-Qualität: Exakte Ausfalldefinition, klare Degradationsbeginn-Markierung; Censoring sauber dokumentieren.

Modellfamilien

Survival-/Hazard-Modelle: Weibull/Log-Logistic, Cox-Modelle mit zeitvariablen Kovariaten, parametric accelerated failure time (AFT) – robust, auch bei zensierten Daten.

Degradationsmodelle: Lineare/polynomielle Drift der Health Indicator, Kalman-/Particle-Filter mit Zustandsrauschen, Hidden Markov Models für Stufenverschleiß.

Sequenzmodelle: LSTM/Temporal Convolutional Networks, aber nur mit ausreichend vielfältigen Verläufen und strenger Regularisierung. Physics-informed loss (Monotonie, Smoothness) erzwingen.

Prognosequalität

Nie nur einen Punktwert liefern. Intervall/Horizont mit Vertrauensband (z. B. 80%-Intervall) und “Prognostic Horizon” (Zeit bis Unschärfe > Schwelle).

RUL verdichten auf planungsrelevante Buckets (z. B. 30 Tage) für Material- und Slot-Entscheidungen.