4) Feature- und Labeling-Layer (Ground Truth ohne Wunschdenken)

  • Last- und Kontext-Normalisierung:
  • Fenster nur unter vergleichbaren Betriebszuständen vergleichen (Drehzahl ±1%, Lastbänder). Ohne das ist jeder Trend beliebig.
  • Label-Pipeline:
  • CMMS/ERP-Integration: Asset-ID-Mapping, Wartungs-/Tauschereignisse mit Zeitfenster und Komponentenbezug.
  • Weak Supervision: Regelbasierte Label-Funktionen (z. B. “Peak bei BPFO+Sidebands + Temperaturanstieg > X => Lageraußenring-Schaden-Kandidat”), die zu Kandidatenlabels führen, die Techniker freigeben.
  • Zensierungslogik: Opportunistische Tausche als “rechts-zensiert” markieren; Überlebensanalyse-geeignete Labels getrennt halten.
  • Datenqualitätstests:
  • Spektrale Flatness und Noise-Floor-Schwellen zur Erkennung gelöster Sensoren.
  • Timestamp-Monotonie, Sample-Count-Kohärenz, Abtastrate-Abweichung < 100 ppm.
  • Drift-Detektion (Population-Shift) auf Features, täglich/wöchentlich.

Modellwahl: Anomalieerkennung zuerst, RUL später – und nur mit guten Labels

  • Start mit Anomalieerkennung:
  • Gründe: Instandhaltungsdaten sind anfangs spärlich und ungenau. Unsupervised/Self-Supervised-Modelle (z. B. Isolation Forest, Autoencoder) auf lastnormierten Feature-Vektoren funktionieren früh und lassen sich schnell in Wartungsprozesse integrieren (Alarm → Sichtprüfung → Label).
  • Vorteil: Geringe False-Negative bei gutem Feature-Set; erklärt sich über Feature-Beiträge und spezifische Frequenzbänder.
  • Fehlerklassen-Modelle:
  • Wenn 50–100 bestätigte Fälle pro Ausfallmodus vorliegen und die Lastkontexte sauber sind, lohnt sich Supervised Learning (Gradient Boosting, leichte CNNs auf Spektren).
  • Feature-Importance und SHAP für Techniker-Akzeptanz.
  • RUL (Remaining Useful Life):
  • Nur mit konsistenter Zensierungsbehandlung und ausreichend Ausfällen. Survival-Modelle (Weibull, Cox) oder Deep Survival, gefüttert mit trendenden Health-Indizes. Für viele Flotten besser: “N-of-1”-Trends + Schwellwert statt präziser RUL-Zahl mit falscher Sicherheit.
  • Edge vs. Zentrale Inferenz:
  • Edge: Latenzkritische Alarme, begrenzte Bandbreite, Datenhoheit. Modelle als ONNX/TFLite, quantisiert. Update über signierte Bundles.
  • Zentral: Modelltraining, Flotten-Benchmarks, Root-Cause-Analysen.

Trade-offs: Was man gewinnt und was man aufgibt

  • Hohe Abtastraten vs. Speicher/Bandbreite:
  • Gewinn: Diagnoseschärfe (Lager, Getriebe). Preis: Mehr Edge-CPU, Rohdaten nur selektiv speicherbar.
  • Strikte Datenverträge vs. Flexibilität:
  • Gewinn: Reproduzierbarkeit, wartbare Pipelines. Preis: Höhere Anlaufkosten, stärkere Disziplin an der Linie.
  • Edge-Feature-Extraktion vs. reine Rohdatenspeicherung:
  • Gewinn: 10–100x weniger Datenvolumen, Echtzeitfähigkeit. Preis: Muss robust implementiert und versioniert werden; Fehler in der Vorverarbeitung schlagen direkt durch.
  • Anomalie-First vs. frühe RUL-Prognose:
  • Gewinn: Schnell Nutzen, weniger Labelbedarf. Preis: Weniger planungsgenaue Aussagen (Kalenderdatum). RUL lohnt erst später – realistisch kommunizieren.
  • PTP-Zeitsync vs. “Good Enough”-NTP:
  • Gewinn: Sichere Zuordnung über Sensoren/Assets hinweg, saubere Ordnungsspektren. Preis: Netzwerkinfrastruktur und Know-how.

Praxis: Drei Szenarien aus Textil, Bahn und Fertigung
1) Textilfertigung – Hochgeschwindigkeitswebmaschinen

  • Ausgangslage: POC mit 1 kHz Vibration, Magnetfüßen, nur RMS/Peak pro Minute gespeichert. Keine Korrelation mit Stillständen.
  • Problem: Keine diagnostische Information über Lagerdefekte; Peaks im niederfrequenten Bereich waren rein lastgetrieben.
  • Umbau:
  • Mechanische Montage auf blankem Gehäuse, M5, Drehmoment nach Datenblatt.
  • IEPE-Sensoren, 48 kHz Sampling, analoges Anti-Aliasing. Tacho an Hauptwelle.
  • Hüllkurvenspektren am Edge berechnet, nur 2×10 s Rohdaten pro Stunde + Events gespeichert. PTP-Zeitbasis.
  • Ergebnis:
  • Deutliche BPFO/FTF-Peaks mit Sidebands sichtbar. Frühwarnzeit vor Lagerausfall von 0 auf 3–6 Wochen.
  • Datenvolumen pro Maschine: von ~30 GB/Tag roh auf ~1–2 GB/Tag (selektive Rohdaten + Features) reduziert.
  • Falschalarme sanken um >50%, nachdem Sensor-Health-Kontrollen lose Verschraubungen detektierten.

2) Bahn – Traktionsmotoren, Stromsignaturanalyse

  • Ausgangslage: Versuche, via SCADA-Stromwerte (1 Hz, Mittelwert) Fehler zu erkennen. Keine Signatur sichtbar, CMMS-Meldungen grob.
  • Umbau:
  • 5 kHz Abtastrate je Phase, kalibrierte Hall-Sensoren nahe am Inverterausgang. PTP über Fahrzeugnetz mit Grandmaster.
  • Feature-Set: Sidebands um 50 Hz und Grundschwingungen, Slip-basierte Frequenzen, THD, Oberwellenstruktur pro Betriebszustand (Anfahren, Reise, Rekuperation).
  • Label-Pipeline über Werkstattmeldungen, manuelle Verfeinerung durch Flotteningenieure.
  • Ergebnis:
  • Frühindikatoren für Isolationsschwächen und Lagerschäden in Stromsignatur 1–4 Wochen vor auffälligem Geräuschbild.
  • Akzeptanz durch Instandhaltung dank erklärbarer Frequenzbänder und verlinkter Rohsegmente.

3) Allgemeine Fertigung – Kompressoren

  • Ausgangslage: Temperaturfühler am Gehäuse, Alarme bei >70°C. Viele False Positives bei Sommerhitze/Lastspitzen.
  • Umbau:
  • Zweiter Fühler für Umgebungstemperatur; Lastsignal aus PLC; Feature “DeltaT normiert auf Last” + Trend.
  • Einfache Zustandsmodelle (Regressionsresiduum) statt fixer Grenzwerte.
  • Ergebnis:
  • False Positives um ~80% reduziert; echte Überhitzungen (verstopfte Kühllamellen) erkannt, bevor Abschaltungen nötig waren.

Konkrete Implementierungs-Checkliste

  • Mechanik
  • Sensor-Montageplan je Asset mit Fotos, Drehmoment, Ausrichtung, Ersatzsensor-IDs.
  • Überprüfung: Frequenzgangstest am eingebauten Sensor (Klopftest/Impuls), Dokumentation Noise-Floor.
  • Edge
  • PTP einführen, DAQ mit verlässlicher Taktquelle, Anti-Aliasing vor ADC.
  • Ringpuffer und Event-Trigger implementieren; Edge-Feature-Bibliothek versionieren und testen.
  • Datenverträge
  • Schema mit Einheiten/Orientierung/Abtastrate und Metadaten. Validierung in der Ingestion-Pipeline.
  • Asset-Stammdaten aus ERP/PLM konsolidieren (Lager/Antrieb/Gearbox).
  • Storage und Compute (On-Prem)
  • Objektspeicher (MinIO), TimescaleDB/Postgres, Message Bus. Zugriffsschichten klar trennen.
  • Retention-Strategie pro Asset-Kritikalität.
  • Labeling
  • CMMS-Integration; Pflichtfelder für Komponententyp, Uhrzeit, Ursache. Weak-Supervision-Regeln und Review-Workflow.
  • Betrieb/Qualität
  • Sensor-Health-Dashboards; tägliche Drift-Checks; Release-Prozess für Edge-Feature-Updates.
  • Security: Netzwerksegmente, SBOM, signierte Artefakte, Offlinenutzung möglich (→ alpitype.de/leistungen/).