Architekturpfad B: RUL-Prognose robust und auditierbar

  • Gesundheitsindex (HI):
  • Aus gewählten Features via PCA/PLS oder domänenbasiert (Envelope-Energie bei BPFI).
  • Monotonisierung per isotonic regression oder stückweiser Fit; wichtig für RUL-Stabilität.
  • Degradationsmodell:
  • Parametrische Modelle (Weibull mit Stressfaktoren wie Last/Temperatur).
  • State-Space: HI = f(HI_prev) + Prozessrauschen; Kalman/Particle Filter für Schätzung und Unsicherheit.
  • Survival-Ansätze: hazard-basierte RUL-Schätzung, Zensierung handhaben (präventive Wechsel).
  • Feature Drift und Wartung:
  • Nach Wartung Reset/Partial-Reset des HI; harte Wechsel (Ersatzteil) vs. weiche Eingriffe (Re-Lubrication).
  • Datenassoziation mit CMMS-Eintrag (Ersatzteil-ID, Montagezeitpunkt).
  • Unsicherheit:
  • Konfidenzintervalle aus Posterior (Bayes) oder Ensembles; Nutzung in Disposition (z. B. Ersatzteilfreigabe).
  • KPI:
  • MAE/MAPE der RUL nur mit Vorsicht; zusätzlich wirtschaftliche Scorefunktion:
  • Score = eingesparte Opportunitätskosten + vermiedene Folgeschäden – Kosten verfrühter Wechsel.

Trade-offs: Was man gewinnt und was man dafür aufgibt

  • Datenanforderung:
  • AE benötigt viel “Normal”-Daten, kaum Labels; schnell startklar. Risiko: viele “weiche” Alarme anfangs.
  • RUL benötigt gelabelte Degradationsverläufe; hoher Anlaufaufwand, dafür präzise Planung möglich.
  • Generalisierbarkeit:
  • AE ist pro Maschine/Typ zu kalibrieren; Transfer lernt Normalitäten, nicht spezifische Fehler.
  • RUL kann pro Fehlermodus/flottenweit wirken, wenn Duty-Cycle homogen und Sensorik standardisiert ist.
  • Interpretierbarkeit:
  • AE-Scores sind erklärbar via Feature-Contribution, aber nicht immer fehlermodus-spezifisch.
  • RUL erzwingt eine Degradationslogik; in Audits und Sicherheitsdomänen oft vorteilhaft.
  • Betrieb:
  • AE: Geringere Rechenlast, einfache Edge-Inferenz, schnelle Iteration.
  • RUL: Komplexere Pipeline (HI, Wartungs-Resets, Unsicherheitsmodell), höhere Anforderungen an Datenpflege.
  • Alarmökonomie:
  • AE: Höhere False-Positive-Risiken anfangs, dafür frühe Lernkurve und schneller Nutzen.
  • RUL: Weniger Alarme, dafür belastbare Vorlaufzeiten; Gefahr der Überkonfidenz ohne gute Unsicherheitsabschätzung.

Praxis: Was in Textilfertigung und Bahn funktioniert

Fall 1: Textil – Wälzlager an Ringspinnmaschinen
Ausgangslage:

  • Hunderte Spindeln pro Maschine, hohe Drehzahlen, variable Lasten je Garn.
  • Sensorik: piezoelektrische Beschleunigungssensoren an Lagerböcken (25.6 kHz), Motortemperatur (2 Hz), Stromaufnahme (10 kHz).
  • CMMS: Wartungstickets erfasst, aber uneinheitliche Fehlercodes; häufiger Teiletausch ohne präzise Ausfallursache.

Vorgehen:

  • Edge-Feature-Extraktion: RMS, Crest, Kurtosis; Envelope-Energie in Bändern um BPFI/BPFO; Order-Tracking mit Tachoeingang.
  • Anomalieerkennung:
  • Autoencoder auf 32-dim Feature-Vektoren; pro Spindel individuelle Normalisierung.
  • Quantilschwellen pro Lastcluster (3 Lastzustände aus Stromsignal).
  • Change-Point-Alarm, wenn spektrale Kurtosis in 2 von 3 Lastzuständen erhöht bleibt > 10 Minuten.
  • Integration:
  • CMMS-Ticket mit 10-Sekunden-Feature-Snippet, Spektralbild und empfohlenem Befundpunkt.
  • Rückmeldung verpflichtend: “Lagerschaden bestätigt? ja/nein; Restspiel gemessen?; Fettzustand?”
  • Ergebnisse (nach 4 Monaten):
  • Median-Lead-Time 36 Stunden vor bestätigtem Lagerwechsel.
  • Anfangs 0.5 False-Alerts/Tag/Maschine, nach Kalibrierung 0.1.
  • Aufbau Fehlerkatalog mit 27 bestätigten Lagerschäden; für 2 häufige Moden Wechsel auf überwachte Klassifikation.
  • RUL-Teilstrecke:
  • Für Spindelriemen mit häufigem Verschleiß und sauber geloggten Wechseln: einfacher stückweise linearer HI (RMS-Drift) + Kalman-Filter.
  • RUL-MAPE ~18%; ausreichend für Wochentakt-Bündelung der Wechsel.

Lessons learned:

  • Ohne Tachoeingang (Drehzahl) stieg die Falschalarmsensitivität bei Produktwechseln. Order-Tracking ist bei variabler Drehzahl kein “Nice-to-have”.
  • Spektrale Kurtosis war stabiler als reine Peak-Metriken in dieser Applikation.
  • Die Pflicht-Rückmeldung im CMMS hat die Bestätigungsquote signifikant erhöht und das AE-Thresholding verbessert.

Fall 2: Bahn – Traktionsmotoren und Bremssysteme in einer Regionalflotte
Ausgangslage:

  • Sicherheitskritische Domäne, Flotte > 80 Triebzüge.
  • Sensorik: Motorstrom (15 kHz), Vibrationssensorik an Getrieben (6.4 kHz), Temperatur (1 Hz), Kilometerzähler; sporadische Funkverbindung.
  • Normen/Prozesse: On-Premise Datenhaltung, Auditierbarkeit; EN 50126/50128-konforme Entwicklungsprozesse.

Vorgehen:

  • Architektur:
  • Edge-Gateways mit Store-and-Forward (lokales Persistieren, nachsynchronisieren per LTE/WiFi im Depot).
  • On-Premises Data Lake + Timeseries DB; serviceorientierte Inferenzdienste, versioniert und überwacht.
  • Verfahren:
  • AE für seltene Getriebegeräusche: Envelope-Bandenergie + BOCPD; Tickets mit Audio-Hinweis zur Inspektion.
  • RUL für Bremsbelagverschleiß: kombiniertes Modell aus Kilometer, Anzahl starker Bremszyklen (aus Strom/Pressure-Surrogates), Temperatur-Spitzen; parametrische Survival mit Flotten-Faktoren.
  • Integration in Betrieb:
  • CMMS-Schnittstelle: Aufträge werden nicht nur erstellt, sondern mit RUL-Unsicherheitsfenster priorisiert (z. B. “Tausch in 250–400 km empfohlen”).
  • Flottenplanung: Bündelung von Werkstattfenstern in 3–5 Zügen anhand RUL-Überlappung.
  • Ergebnisse (nach 9–12 Monaten):
  • Reduktion unplanmäßiger Werkstattaufenthalte bei Traktion um ~25% auf den betroffenen Linienabschnitten.
  • Bremsbelag-RUL erzielte Planungs-Hit-Rate von ~80% innerhalb des Unsicherheitsintervalls; Über- und Unterschreitungen wurden durch Witterungseinflüsse getrieben – Modell erhielt saisonale Korrekturfaktoren.
  • Sicherheit/Compliance:
  • RUL-Modelle wurden mit erklärbaren Faktoren (Weibull-Shape, Stresskoeffizienten) hinterlegt; Audits einfacher als bei rein neuronalen Black-Boxen.

Lessons learned:

  • Intermittierende Konnektivität ist beherrschbar, wenn Edge-Persistenz und deterministische Replays vorgesehen sind.
  • Survival-Modelle mit Flotten-Hierarchie schlagen “One-size-fits-all” LSTMs in Robustheit und Auditierbarkeit, sofern die Datenlage mittelgroß ist.
  • Unsicherheiten sind nicht Dekoration: Dispatcher akzeptieren nur RUL, wenn Bandbreiten kommuniziert werden und in die Planung einfließen.