Anomalieerkennung vs. RUL-Prognose in der Praxis: Wann welches PdM-Verfahren wirkt – und wie man es produktionsreif baut
Problem: Warum so viele PdM-Projekte am Ziel vorbeigehen
Die meisten Predictive-Maintenance-Initiativen scheitern nicht an “fehlender KI”, sondern an einer falschen Zielfunktion: Es wird ein Modelltyp gewählt, bevor das Instandhaltungsziel und die Datenlage klar sind. In der Praxis sehen wir immer wieder dieselben Muster:
- “Wir wollen RUL”: Der Wunsch nach einer Restlebensdauerprognose (Remaining Useful Life, RUL) ist verständlich, aber ohne ausreichende Run-to-Failure-Historien, saubere Zustandsindikatoren und konsistente Rückmeldungen aus der Instandhaltung wird die Prognose entweder ungenau oder rein akademisch.
- “Wir fangen mit Anomalieerkennung an”: Unüberwachte Anomalieerkennung ist oft ein sinnvoller Start – aber ohne Change-Management und klare Handlungslogik produziert sie Alarmmüdigkeit. Ein Score ohne wirtschaftliche Schwelle, ohne Fehler-Taxonomie und ohne Rückkopplung zum CMMS führt zu Tickets, die niemand ernst nimmt.
- Offline-Accuracy statt operativer Nutzen: Confusion-Matrizen aus sauber gelabelten Datensätzen geben trügerische Sicherheit. In der Anlage dominieren Nichtstationarität (Lastwechsel, Schichtbetrieb), Sensor-Drift, Prozesswechsel und Wartungsereignisse, die nicht sauber verbucht sind.
- Fehlende Souveränität in der Architektur: PdM-Daten sind oft betriebskritisch (Produktionsgeheimnisse, Betriebsprofile, Sicherheitsaspekte). Wer auf US-Cloud-Abhängigkeiten baut, zahlt bei Audits und späteren Zertifizierungen drauf – und verliert Gestaltungsmacht über sein Datenmodell.
Kurz: Die Modellwahl ist Folge des Instandhaltungsziels und der Datenökologie, nicht umgekehrt. Dieser Artikel legt eine belastbare Entscheidungslogik und konkrete Architekturen dar – aus der Praxis von Textilfertigung und Bahnflotten.
Lösung: Entscheidungslogik und Architekturpfade
1) Entscheidungslogik: Anomalieerkennung oder RUL?
Anomalieerkennung (AE) ist sinnvoll, wenn:
- Wenige oder keine gelabelten Ausfälle vorliegen (typisch bei neuen Anlagen, seltenen kritischen Fehlern).
- Das Ziel Frühwarnung ist: “Irgendetwas weicht signifikant vom Normalzustand ab”, um Inspektionen anzustoßen.
- Der Prozess nicht konstant ist (Lastprofile, Produktwechsel), aber “Normalität” breit beobachtbar ist.
- Man schnell starten will, um einen Fehlerkatalog aufzubauen (Failure Knowledge Capture).
- Alarmierungslogik und Eskalationspfade im CMMS klar definiert sind.
Typische Methoden: robuste Statistik (Z-Score per Feature, Median Absolute Deviation), One-Class-Modelle (OC-SVM, Isolation Forest), Autoencoder (rekonstruktionsbasiert), Dichte-Schätzer, Change-Point-Detection (CUSUM, BOCPD), saisonale Dekomposition (STL) mit Residuenüberwachung.
RUL-Prognose ist sinnvoll, wenn:
- Mehrere Run-to-Failure-Historien bzw. komplette Degradationsverläufe existieren (nicht nur punktuelle Ausfälle).
- Zustandsindikatoren mit monotone(r) oder stückweise monotone(r) Degradation vorliegen (z. B. Verschleißmaße).
- Wartungs- und Ersatzteilhistorie zuverlässig im CMMS dokumentiert ist (Zeitstempel, Maßnahme, Ursache).
- Der wirtschaftliche Nutzen Tausch- oder Revisionsplanung mit präzisem Vorlauf erfordert (Teilelogistik, Stillstandsplanung).
- Sicherheits- oder Flottenverfügbarkeit erfordern, Tauschzyklen zu synchronisieren (z. B. Bahnflotte, Fluggeräte).
Typische Methoden: parametrische/semiparametrische Zuverlässigkeitsmodelle (Weibull, Cox), State-Space-Modelle (Kalman/Particle Filter) auf Gesundheitsindex, stückweise lineare Degradationsmodelle, survival-basierte Deep-Learning-Ansätze auf sequenziellen Features (LSTM/TCN) – nur, wenn Datenlage robust.
Kurzform-Entscheider:
- Keine Labels, aber viele Stunden Normalbetrieb: Start AE.
- Etwa 20–50 Run-to-Failure-Fälle pro Fehlermodus und stabiler Prozess: RUL prüfbar.
- Mischbetrieb (einige Fehler häufig, andere selten): Hybrid – RUL für häufige, AE für seltene.
2) Datenfluss und Architektur
Gemeinsame Basiskomponenten:
- Erfassung: Edge-fähige Datenerfassung via OPC UA/MQTT/Kafka, Samplingraten je Sensor:
- Vibration (Beschleunigung): 6.4–51.2 kHz je nach Lager/Antrieb; typ. 25.6 kHz in Textil-Spindeln.
- Stromaufnahme (MCSA): 5–20 kHz; Synchronisation mit Netzfrequenz sinnvoll.
- Temperatur: 1–10 Hz; für Trend/Gradient ausreichend.
- Umdrehungssignal/Tachometer: zur Ordnungsanalyse (Order Tracking).
- Vorverarbeitung am Edge:
- Anti-Aliasing, digitale Filter (Bandpass um Lagerfrequenzen, z. B. BPFO/BPFI), Drehzahl-Normierung.
- Windowing: 0.5–2.0 s, 50–75% Overlap für zeitnahe Aktualisierung.
- Qualitätschecks: Sensor-Drift, Sättigung, Ausreißer; Drop/Impute-Strategie.
- Feature-Engineering:
- Zeitbereich: RMS, Peak-to-Peak, Crest Factor, Kurtosis, Skewness, Hjorth-Parameter.
- Frequenzbereich: Spektrale Peaks um Lagerdefekt-Frequenzen, Seitbänder, spektrale Kurtosis, Band-Energie.
- Hüllkurvenanalyse (Envelope) für Wälzlager.
- Ordnungsanalyse (Order-Tracking) bei variabler Drehzahl.
- Temperatur: Trend, Gradient, saisonal-detrendete Residuen.
- Strom: Harmonische, Sidebands, Slotting-Frequenzen (z. B. bei Traktionsmotoren).
- Speicherung on-prem:
- Timeseries DB (TimescaleDB/InfluxDB), Rohdaten-Rollup (z. B. 7 Tage Roh, 6 Monate Features).
- Ereignis-Store für Wartungstickets (CMMS) mit sauberer Ontologie: Fehlerart, Maßnahme, Ursache, Befund.
- Inferenz:
- Edge-Inferenz via ONNX Runtime/TensorRT, CPU/GPU je nach Modell; Latenz-Ziel < 500 ms für online Warnungen.
- Versioniertes Deployment via k3s/Podman, Healthchecks, Canary-Rollouts.
- Governance:
- Datenhoheit: On-Premise-Betrieb, DSGVO-konform, kein US-Cloud-Zwang.
- Monitoring von Daten- und Konzeptdrift, Performance-Metriken, Re-Train-Pläne.
- Integration CMMS/ERP: Automatisierte Ticket-Erstellung mit Kontext (Sensor-Snippet, Feature-Vektor, Score).
Architekturpfad A: Anomalieerkennung produktionsreif
- Modellierung:
- Unsupervised Basis: Autoencoder (AE) auf Feature-Vektoren; Rekonstruktionsfehler als Score.
- Ergänzend: Change-Point-Detection auf Gesundheitsindex (z. B. gleitende spektrale Kurtosis) für klare Alarme.
- Saisonale Dekomposition für Temperatursignale; Residuen-Überwachung per quantiler Schwellwertlogik.
- Schwellen:
- Per-Maschine Quantil-basierte Schwellen (p99.5 der Normalphase), adaptiv pro Lastzustand.
- Hysterese und Minimum-Alarmdauer (z. B. Score > Schwelle für 3 von 5 Fenstern) zur Robustheit.
- Human-in-the-loop:
- Wartung bestätigt/verwiftet Alerts im CMMS; Feedback fließt in Score-Kalibrierung (Platt Scaling/Isotonic).
- Aufbau Fehlerkatalog: Nach n bestätigten Fällen pro Modus entsteht Label-Basis für überwachte Modelle.
- KPI:
- Lead Time (Median/5%-Quantil), Alarm-Frequenz/Tag, Bestätigungsquote (% Alerts mit Befund),
- vermiedene Folgeschäden, MTBF-Änderung auf betroffenen Assets.