Architekturpfad B: RUL-Prognose robust und auditierbar
- Gesundheitsindex (HI):
- Aus gewählten Features via PCA/PLS oder domänenbasiert (Envelope-Energie bei BPFI).
- Monotonisierung per isotonic regression oder stückweiser Fit; wichtig für RUL-Stabilität.
- Degradationsmodell:
- Parametrische Modelle (Weibull mit Stressfaktoren wie Last/Temperatur).
- State-Space: HI = f(HI_prev) + Prozessrauschen; Kalman/Particle Filter für Schätzung und Unsicherheit.
- Survival-Ansätze: hazard-basierte RUL-Schätzung, Zensierung handhaben (präventive Wechsel).
- Feature Drift und Wartung:
- Nach Wartung Reset/Partial-Reset des HI; harte Wechsel (Ersatzteil) vs. weiche Eingriffe (Re-Lubrication).
- Datenassoziation mit CMMS-Eintrag (Ersatzteil-ID, Montagezeitpunkt).
- Unsicherheit:
- Konfidenzintervalle aus Posterior (Bayes) oder Ensembles; Nutzung in Disposition (z. B. Ersatzteilfreigabe).
- KPI:
- MAE/MAPE der RUL nur mit Vorsicht; zusätzlich wirtschaftliche Scorefunktion:
- Score = eingesparte Opportunitätskosten + vermiedene Folgeschäden – Kosten verfrühter Wechsel.
Trade-offs: Was man gewinnt und was man dafür aufgibt
- Datenanforderung:
- AE benötigt viel “Normal”-Daten, kaum Labels; schnell startklar. Risiko: viele “weiche” Alarme anfangs.
- RUL benötigt gelabelte Degradationsverläufe; hoher Anlaufaufwand, dafür präzise Planung möglich.
- Generalisierbarkeit:
- AE ist pro Maschine/Typ zu kalibrieren; Transfer lernt Normalitäten, nicht spezifische Fehler.
- RUL kann pro Fehlermodus/flottenweit wirken, wenn Duty-Cycle homogen und Sensorik standardisiert ist.
- Interpretierbarkeit:
- AE-Scores sind erklärbar via Feature-Contribution, aber nicht immer fehlermodus-spezifisch.
- RUL erzwingt eine Degradationslogik; in Audits und Sicherheitsdomänen oft vorteilhaft.
- Betrieb:
- AE: Geringere Rechenlast, einfache Edge-Inferenz, schnelle Iteration.
- RUL: Komplexere Pipeline (HI, Wartungs-Resets, Unsicherheitsmodell), höhere Anforderungen an Datenpflege.
- Alarmökonomie:
- AE: Höhere False-Positive-Risiken anfangs, dafür frühe Lernkurve und schneller Nutzen.
- RUL: Weniger Alarme, dafür belastbare Vorlaufzeiten; Gefahr der Überkonfidenz ohne gute Unsicherheitsabschätzung.
Praxis: Was in Textilfertigung und Bahn funktioniert
Fall 1: Textil – Wälzlager an Ringspinnmaschinen
Ausgangslage:
- Hunderte Spindeln pro Maschine, hohe Drehzahlen, variable Lasten je Garn.
- Sensorik: piezoelektrische Beschleunigungssensoren an Lagerböcken (25.6 kHz), Motortemperatur (2 Hz), Stromaufnahme (10 kHz).
- CMMS: Wartungstickets erfasst, aber uneinheitliche Fehlercodes; häufiger Teiletausch ohne präzise Ausfallursache.
Vorgehen:
- Edge-Feature-Extraktion: RMS, Crest, Kurtosis; Envelope-Energie in Bändern um BPFI/BPFO; Order-Tracking mit Tachoeingang.
- Anomalieerkennung:
- Autoencoder auf 32-dim Feature-Vektoren; pro Spindel individuelle Normalisierung.
- Quantilschwellen pro Lastcluster (3 Lastzustände aus Stromsignal).
- Change-Point-Alarm, wenn spektrale Kurtosis in 2 von 3 Lastzuständen erhöht bleibt > 10 Minuten.
- Integration:
- CMMS-Ticket mit 10-Sekunden-Feature-Snippet, Spektralbild und empfohlenem Befundpunkt.
- Rückmeldung verpflichtend: “Lagerschaden bestätigt? ja/nein; Restspiel gemessen?; Fettzustand?”
- Ergebnisse (nach 4 Monaten):
- Median-Lead-Time 36 Stunden vor bestätigtem Lagerwechsel.
- Anfangs 0.5 False-Alerts/Tag/Maschine, nach Kalibrierung 0.1.
- Aufbau Fehlerkatalog mit 27 bestätigten Lagerschäden; für 2 häufige Moden Wechsel auf überwachte Klassifikation.
- RUL-Teilstrecke:
- Für Spindelriemen mit häufigem Verschleiß und sauber geloggten Wechseln: einfacher stückweise linearer HI (RMS-Drift) + Kalman-Filter.
- RUL-MAPE ~18%; ausreichend für Wochentakt-Bündelung der Wechsel.
Lessons learned:
- Ohne Tachoeingang (Drehzahl) stieg die Falschalarmsensitivität bei Produktwechseln. Order-Tracking ist bei variabler Drehzahl kein “Nice-to-have”.
- Spektrale Kurtosis war stabiler als reine Peak-Metriken in dieser Applikation.
- Die Pflicht-Rückmeldung im CMMS hat die Bestätigungsquote signifikant erhöht und das AE-Thresholding verbessert.
Fall 2: Bahn – Traktionsmotoren und Bremssysteme in einer Regionalflotte
Ausgangslage:
- Sicherheitskritische Domäne, Flotte > 80 Triebzüge.
- Sensorik: Motorstrom (15 kHz), Vibrationssensorik an Getrieben (6.4 kHz), Temperatur (1 Hz), Kilometerzähler; sporadische Funkverbindung.
- Normen/Prozesse: On-Premise Datenhaltung, Auditierbarkeit; EN 50126/50128-konforme Entwicklungsprozesse.
Vorgehen:
- Architektur:
- Edge-Gateways mit Store-and-Forward (lokales Persistieren, nachsynchronisieren per LTE/WiFi im Depot).
- On-Premises Data Lake + Timeseries DB; serviceorientierte Inferenzdienste, versioniert und überwacht.
- Verfahren:
- AE für seltene Getriebegeräusche: Envelope-Bandenergie + BOCPD; Tickets mit Audio-Hinweis zur Inspektion.
- RUL für Bremsbelagverschleiß: kombiniertes Modell aus Kilometer, Anzahl starker Bremszyklen (aus Strom/Pressure-Surrogates), Temperatur-Spitzen; parametrische Survival mit Flotten-Faktoren.
- Integration in Betrieb:
- CMMS-Schnittstelle: Aufträge werden nicht nur erstellt, sondern mit RUL-Unsicherheitsfenster priorisiert (z. B. “Tausch in 250–400 km empfohlen”).
- Flottenplanung: Bündelung von Werkstattfenstern in 3–5 Zügen anhand RUL-Überlappung.
- Ergebnisse (nach 9–12 Monaten):
- Reduktion unplanmäßiger Werkstattaufenthalte bei Traktion um ~25% auf den betroffenen Linienabschnitten.
- Bremsbelag-RUL erzielte Planungs-Hit-Rate von ~80% innerhalb des Unsicherheitsintervalls; Über- und Unterschreitungen wurden durch Witterungseinflüsse getrieben – Modell erhielt saisonale Korrekturfaktoren.
- Sicherheit/Compliance:
- RUL-Modelle wurden mit erklärbaren Faktoren (Weibull-Shape, Stresskoeffizienten) hinterlegt; Audits einfacher als bei rein neuronalen Black-Boxen.
Lessons learned:
- Intermittierende Konnektivität ist beherrschbar, wenn Edge-Persistenz und deterministische Replays vorgesehen sind.
- Survival-Modelle mit Flotten-Hierarchie schlagen “One-size-fits-all” LSTMs in Robustheit und Auditierbarkeit, sofern die Datenlage mittelgroß ist.
- Unsicherheiten sind nicht Dekoration: Dispatcher akzeptieren nur RUL, wenn Bandbreiten kommuniziert werden und in die Planung einfließen.