Imported Post 2026-04-09 00:13:16

Anomalieerkennung vs. RUL-Prognose in der Praxis: Wann welches PdM-Verfahren wirkt – und wie man es produktionsreif baut

Problem: Warum so viele PdM-Projekte am Ziel vorbeigehen
Die meisten Predictive-Maintenance-Initiativen scheitern nicht an “fehlender KI”, sondern an einer falschen Zielfunktion: Es wird ein Modelltyp gewählt, bevor das Instandhaltungsziel und die Datenlage klar sind. In der Praxis sehen wir immer wieder dieselben Muster:

“Wir wollen RUL”: Der Wunsch nach einer Restlebensdauerprognose (Remaining Useful Life, RUL) ist verständlich, aber ohne ausreichende Run-to-Failure-Historien, saubere Zustandsindikatoren und konsistente Rückmeldungen aus der Instandhaltung wird die Prognose entweder ungenau oder rein akademisch.
“Wir fangen mit Anomalieerkennung an”: Unüberwachte Anomalieerkennung ist oft ein sinnvoller Start – aber ohne Change-Management und klare Handlungslogik produziert sie Alarmmüdigkeit. Ein Score ohne wirtschaftliche Schwelle, ohne Fehler-Taxonomie und ohne Rückkopplung zum CMMS führt zu Tickets, die niemand ernst nimmt.
Offline-Accuracy statt operativer Nutzen: Confusion-Matrizen aus sauber gelabelten Datensätzen geben trügerische Sicherheit. In der Anlage dominieren Nichtstationarität (Lastwechsel, Schichtbetrieb), Sensor-Drift, Prozesswechsel und Wartungsereignisse, die nicht sauber verbucht sind.
Fehlende Souveränität in der Architektur: PdM-Daten sind oft betriebskritisch (Produktionsgeheimnisse, Betriebsprofile, Sicherheitsaspekte). Wer auf US-Cloud-Abhängigkeiten baut, zahlt bei Audits und späteren Zertifizierungen drauf – und verliert Gestaltungsmacht über sein Datenmodell.

Kurz: Die Modellwahl ist Folge des Instandhaltungsziels und der Datenökologie, nicht umgekehrt. Dieser Artikel legt eine belastbare Entscheidungslogik und konkrete Architekturen dar – aus der Praxis von Textilfertigung und Bahnflotten.

Lösung: Entscheidungslogik und Architekturpfade

1) Entscheidungslogik: Anomalieerkennung oder RUL?

Anomalieerkennung (AE) ist sinnvoll, wenn:

Wenige oder keine gelabelten Ausfälle vorliegen (typisch bei neuen Anlagen, seltenen kritischen Fehlern).

Das Ziel Frühwarnung ist: “Irgendetwas weicht signifikant vom Normalzustand ab”, um Inspektionen anzustoßen.

Der Prozess nicht konstant ist (Lastprofile, Produktwechsel), aber “Normalität” breit beobachtbar ist.

Man schnell starten will, um einen Fehlerkatalog aufzubauen (Failure Knowledge Capture).

Alarmierungslogik und Eskalationspfade im CMMS klar definiert sind.

Typische Methoden: robuste Statistik (Z-Score per Feature, Median Absolute Deviation), One-Class-Modelle (OC-SVM, Isolation Forest), Autoencoder (rekonstruktionsbasiert), Dichte-Schätzer, Change-Point-Detection (CUSUM, BOCPD), saisonale Dekomposition (STL) mit Residuenüberwachung.

RUL-Prognose ist sinnvoll, wenn:

Mehrere Run-to-Failure-Historien bzw. komplette Degradationsverläufe existieren (nicht nur punktuelle Ausfälle).

Zustandsindikatoren mit monotone(r) oder stückweise monotone(r) Degradation vorliegen (z. B. Verschleißmaße).

Wartungs- und Ersatzteilhistorie zuverlässig im CMMS dokumentiert ist (Zeitstempel, Maßnahme, Ursache).

Der wirtschaftliche Nutzen Tausch- oder Revisionsplanung mit präzisem Vorlauf erfordert (Teilelogistik, Stillstandsplanung).

Sicherheits- oder Flottenverfügbarkeit erfordern, Tauschzyklen zu synchronisieren (z. B. Bahnflotte, Fluggeräte).

Typische Methoden: parametrische/semiparametrische Zuverlässigkeitsmodelle (Weibull, Cox), State-Space-Modelle (Kalman/Particle Filter) auf Gesundheitsindex, stückweise lineare Degradationsmodelle, survival-basierte Deep-Learning-Ansätze auf sequenziellen Features (LSTM/TCN) – nur, wenn Datenlage robust.

Kurzform-Entscheider:

Keine Labels, aber viele Stunden Normalbetrieb: Start AE.

Etwa 20–50 Run-to-Failure-Fälle pro Fehlermodus und stabiler Prozess: RUL prüfbar.

Mischbetrieb (einige Fehler häufig, andere selten): Hybrid – RUL für häufige, AE für seltene.

2) Datenfluss und Architektur

Gemeinsame Basiskomponenten:

Erfassung: Edge-fähige Datenerfassung via OPC UA/MQTT/Kafka, Samplingraten je Sensor:

Vibration (Beschleunigung): 6.4–51.2 kHz je nach Lager/Antrieb; typ. 25.6 kHz in Textil-Spindeln.

Stromaufnahme (MCSA): 5–20 kHz; Synchronisation mit Netzfrequenz sinnvoll.

Temperatur: 1–10 Hz; für Trend/Gradient ausreichend.

Umdrehungssignal/Tachometer: zur Ordnungsanalyse (Order Tracking).

Vorverarbeitung am Edge:

Anti-Aliasing, digitale Filter (Bandpass um Lagerfrequenzen, z. B. BPFO/BPFI), Drehzahl-Normierung.

Windowing: 0.5–2.0 s, 50–75% Overlap für zeitnahe Aktualisierung.

Qualitätschecks: Sensor-Drift, Sättigung, Ausreißer; Drop/Impute-Strategie.

Feature-Engineering:

Zeitbereich: RMS, Peak-to-Peak, Crest Factor, Kurtosis, Skewness, Hjorth-Parameter.

Frequenzbereich: Spektrale Peaks um Lagerdefekt-Frequenzen, Seitbänder, spektrale Kurtosis, Band-Energie.

Hüllkurvenanalyse (Envelope) für Wälzlager.

Ordnungsanalyse (Order-Tracking) bei variabler Drehzahl.

Temperatur: Trend, Gradient, saisonal-detrendete Residuen.

Strom: Harmonische, Sidebands, Slotting-Frequenzen (z. B. bei Traktionsmotoren).

Speicherung on-prem:

Timeseries DB (TimescaleDB/InfluxDB), Rohdaten-Rollup (z. B. 7 Tage Roh, 6 Monate Features).

Ereignis-Store für Wartungstickets (CMMS) mit sauberer Ontologie: Fehlerart, Maßnahme, Ursache, Befund.

Inferenz:

Edge-Inferenz via ONNX Runtime/TensorRT, CPU/GPU je nach Modell; Latenz-Ziel < 500 ms für online Warnungen.

Versioniertes Deployment via k3s/Podman, Healthchecks, Canary-Rollouts.

Governance:

Datenhoheit: On-Premise-Betrieb, DSGVO-konform, kein US-Cloud-Zwang.

Monitoring von Daten- und Konzeptdrift, Performance-Metriken, Re-Train-Pläne.

Integration CMMS/ERP: Automatisierte Ticket-Erstellung mit Kontext (Sensor-Snippet, Feature-Vektor, Score).

Architekturpfad A: Anomalieerkennung produktionsreif

Modellierung:

Unsupervised Basis: Autoencoder (AE) auf Feature-Vektoren; Rekonstruktionsfehler als Score.

Ergänzend: Change-Point-Detection auf Gesundheitsindex (z. B. gleitende spektrale Kurtosis) für klare Alarme.

Saisonale Dekomposition für Temperatursignale; Residuen-Überwachung per quantiler Schwellwertlogik.

Schwellen:

Per-Maschine Quantil-basierte Schwellen (p99.5 der Normalphase), adaptiv pro Lastzustand.

Hysterese und Minimum-Alarmdauer (z. B. Score > Schwelle für 3 von 5 Fenstern) zur Robustheit.

Human-in-the-loop:

Wartung bestätigt/verwiftet Alerts im CMMS; Feedback fließt in Score-Kalibrierung (Platt Scaling/Isotonic).

Aufbau Fehlerkatalog: Nach n bestätigten Fällen pro Modus entsteht Label-Basis für überwachte Modelle.

KPI:

Lead Time (Median/5%-Quantil), Alarm-Frequenz/Tag, Bestätigungsquote (% Alerts mit Befund),

vermiedene Folgeschäden, MTBF-Änderung auf betroffenen Assets.