Trade-offs: Was man gewinnt – und was es kostet

  • Datenbedarf
  • Anomalie: Geringer, v. a. Normdaten nötig. Robustheit aber nur mit guter Regime-Stratifizierung.
  • RUL: Hoch. Ohne ausreichende, konsistente Run-to-Failure-Daten erzeugt das Modell mehr Scheinpräzision als Nutzen.
  • Interpretierbarkeit
  • Anomalie: Gut erklärbar über Feature-Abweichungen; Changepoints zeigen “ab hier wurde es anders”.
  • RUL: Survival/Weibull gut erklärbar, tiefe Sequenzmodelle deutlich schwerer.
  • Operativer Nutzen
  • Anomalie: Frühwarnung, “Stop-the-bleed”. Hoher ROI bei kurzen Implementationszyklen.
  • RUL: Planungssicherheit, bessere Ersatzteil- und Kapazitätsplanung – aber nur bei stabilen Modi.
  • Robustheit gegen Konzeptdrift
  • Anomalie: Drift-Detektion integrierbar, aber anfällig für neue Regimes ohne Kontextfeatures.
  • RUL: Stark anfällig; Re-Training und Re-Validierung verpflichtend bei jeder Prozessänderung.
  • Rechen- und Integrationsaufwand
  • Anomalie: Edge-fähig auf ARM/x86, 50–200 MB RAM reichen oft.
  • RUL: Sequenzmodelle ggf. GPU im Training; Inferenz meist CPU-fähig, aber komplexere Serving-Logik.

Praxisbeispiele
Textilfertigung: Lager- und Düsensysteme an Luftdüsenwebmaschinen

  • Ausgangslage: Ungeplante Stillstände durch Lagerpitting an Antrieben und Drift/Verkokungen in Düsensystemen. Drehzahlen 600–1.100 U/min, Lastsprünge bei Materialwechseln. Sensorik: triaxiale Beschleunigung 6,4 kHz, Stromaufnahme 500 Hz, Temperatur 1 Hz.
  • Was nicht funktionierte: Frühe RUL-Schätzungen auf Basis von RMS-Trends starben mit jedem Schichtwechsel. Ein einzelnes LSTM pro Maschine lieferte inkonsistente Horizonte – zu wenig konsistente Failure-Runs, zu viel Produktmix-Varianz.
  • Was funktionierte:
  • Edge-Features: Spektralband-Energien um 1×/2× Drehzahl, Envelope im 5–10 kHz Band für Lager; für Düsen: duty-cycle-normalisierte Strompulse, Druckpuls-Statistik.
  • Regime-Tagging: Drehzahl/Last/Garnart als Kontext; pro Regime eigener Baseline-Schätzer.
  • Anomalie-Scoring: Isolation Forest + Autoencoder-Rekonstruktionsfehler als Ensemble. Alarme nur bei Persistenz über 3/5 Fenster und Cross-Sensor-Konsens.
  • Schwellwerte via EVT pro Asset-Familie. Alarme in SAP PM mit “Wartung innerhalb 7 Tagen”-Empfehlung, Checkliste verlinkt.
  • Ergebnis: Median-Lead-Time 5–12 Tage vor hörbarem Lagerschaden; False Alarm Rate < 1 pro 1.000 Betriebsstunden pro Linie nach Tuning. RUL? Später selektiv eingeführt für Düsennadeln (quasi-lineare Degradation): AFT-Modell mit 80%-Intervall, Buckets 45 Tage – gut genug für Bündelwartungen.

Bahnbetrieb: Traktionshilfsaggregate und Bremsbelagverschleiß

  • Ausgangslage: Strecken- und Wetterprofile führen zu stark variierenden Lastzyklen. Ausfälle von Kompressoren/Lüftern sind betriebskritisch, aber selten vollständig “bis zum Ausfall” dokumentiert. Sensorik: Vibration 12,8 kHz, Strom 1 kHz, Druck 10 Hz, Odometer und Bremszyklenzählung onboard. Edge-Rechner: x86/ARM, 4–8 GB RAM, sporadische Connectivity in Depots.
  • Ansatz:
  • Hybride Strategie: Anomalieerkennung für Kompressoren/Lüfter (impulsive Defekte, Lager); RUL für Bremsbeläge (monotone Abnutzung).
  • Anomalie: Envelope + Spectral Kurtosis für Lager, THD-Anstieg im Strom als zweiter Kanal; Bayesian Changepoint zur Erkennung plötzlicher Moduswechsel (z. B. Verunreinigung). Serving direkt am Zug, Latenz <50 ms.
  • RUL: Belagverschleiß als Funktion von Odometer, Bremsdruckprofilen und Achslasten. Weibull-basierte Hazard-Modelle mit zensierten Intervallen aus Werkstattbefunden; Ausgabe als Bucket “20.000 km”.
  • Integration: On-Prem-Server im Depot aggregiert Flottenzustände, synchronisiert Work Orders. Keine Cloud-Abhängigkeit; Offline-Pufferung auf Fahrzeugen bis 72 h.
  • Ergebnis: Frühwarnungen ermöglichten geplante Tauschfenster; RUL-Buckets reduzierten Notfall-Belagnachlieferungen signifikant. Wichtigster Punkt: striktes Governance – jede Alarmklasse hatte SLA, Prüfschritte und Feedback an das Modellteam.

Bewertung und Metriken: Weg mit Accuracy, her mit Zeitbezug

  • Anomalie
  • Time-to-Detect (TTD): Median/95%-Quantil der Vorwarnzeit.
  • False Alarms pro 1.000 Betriebsstunden und pro Asset-Familie.
  • Alert-Persistence vs. Operator-Action: Wie oft führt ein persistenter Alarm zu einer Work Order binnen x Tagen?
  • RUL
  • Prognostic Horizon: Zeitabstand, in dem der RUL-Fehler < ε bleibt (z. B. ±20%).
  • Alpha-Lambda-Performance: Anteil der Prognosen, die hinreichend früh (α) und genau (λ) sind.
  • Calibration: Deckt das 80%-Intervall in ~80% der Fälle den wahren RUL ab?

Datenqualität: Ohne das fliegt jede Methode auseinander

  • Sensor-Platzierung und Befestigung: Vibration am falschen Bauteil liefert Blindleistung. Lieber ein guter, starr montierter Sensor als drei lose geklebte.
  • Zeitsynchronisation: Strom, Vibration, Kontext müssen in Subsekunden synchron sein; sonst sind Transienten-Features wertlos.
  • Regime-Metadaten Pflicht: Drehzahl/Last/Umgebung wandern als Kontext mit. Fehlende Kontexte killen Generalisierung.
  • Health-Indicator-Drift: Regelmäßige Rekalibration (z. B. monatlich), besonders bei Austausch von Komponenten/Sensoren.

Edge vs. On-Prem: Warum wir selten Cloud-first empfehlen

  • Latenz und Verfügbarkeit: Kritische Alarme müssen auch offline funktionieren. Edge-Inferenz ist Standard, nicht Ausnahme.
  • Datenhoheit: Rohsignale bleiben lokal. Für globale Analysen genügen aggregierte Features/Scores.
  • Kostenstruktur: Permanentes Hochladen von Roh-Vibrationen (kHz) ist betriebswirtschaftlicher Unsinn und rechtlich heikel. On-Prem mit selektiver Synchronisation ist der praktikable Weg.
  • Deployment: Containerisierte Modelle, rollierende Updates in Wartungsfenstern, Blue/Green pro Depot oder Fertigungslinie. Artefakte und Datenstände versioniert (→ alpitype.de/leistungen/).

Konkreter Umsetzungsfahrplan

  • Woche 0–4: Daten-/Sensor-Audit, Failure-Mode-Effects-Analyse mit Instandhaltung, Definition von 3–5 Health Indicators pro Komponente. Metriken und Alarm-SLAs festlegen.
  • Woche 5–12: Edge-Feature-Pipeline bauen, erste Anomalie-Modelle je Regime, EVT-Schwellen, Integration in CMMS mit Ticketvorlagen. Start kleiner Operator-Feedback-Schleife.
  • Monat 3–6: Drift-Monitoring produktiv, Tuning auf False Alarms < 1/1.000 h, Dokumentation der bestätigten Fälle. Sammlung potenzieller RUL-Kandidaten (monotone Modi).
  • Monat 6–12: Survival-/AFT-Modelle für 1–2 klar definierte Komponenten. RUL als Buckets, kalibrierte Intervalle. Validierte Retrain-Policy bei Prozessänderungen.
  • Ab Monat 12: Ausweitung auf weitere Asset-Familien, wo Datenreife gegeben. Stetige Prüfung: Fügt RUL echten Planungsnutzen hinzu, oder genügt ein guter Anomalie-Lead?