Predictive Maintenance scheitert an der Verschraubung: Datenqualität für Vibration, Temperatur und Strom in der Praxis richtig aufbauen

Problem: Warum PdM-Projekte in der Produktion oft schon vor dem ersten Modell scheitern
Die meisten gescheiterten Predictive-Maintenance-Initiativen, die ich in Textilfertigung und Bahn gesehen habe, hatten kein Modellproblem, sondern ein Physikproblem. Typische Muster:

  • Falsche Sensorik oder falsche Montage: Beschleunigungssensoren auf lackierten Gehäusen mit weichem Klebepad statt starrer Montage; Temperaturfühler in Luft statt am Lager; Stromzangen ohne Kalibrierung.
  • Abtastrate und Anti-Aliasing ignoriert: 1–2 kHz Sampling bei Wälzlagerdiagnose, obwohl relevante Resonanzen im 3–20 kHz-Bereich liegen. Kein analoges Anti-Aliasing vor dem ADC.
  • Zeitbezug fehlt: PLC-Zustände im 100-ms-Takt, Vibration bei 12 kHz, CMMS-Ereignisse ohne Sekundengenauigkeit. Ergebnis: keine saubere Zuordnung von Lastzuständen zu Signalfenstern, kein Ground Truth.
  • Fehlende Metadaten: Kein Überblick, welcher Lagersatz wann getauscht wurde, welcher Antriebstyp verbaut ist, welche Übersetzung/Wellendrehzahl anliegt. Modelle “sehen” Mischpopulationen ohne Kontext.
  • Labelrauschen aus dem CMMS: “Fehlercode 17 – Antrieb defekt” für fünf unterschiedliche Ausfallmodi. Opportunistische Tauschaktionen erzeugen zensierte Daten (Komponenten getauscht, bevor sie ausgefallen sind).
  • Bandbreite/Storage falsch dimensioniert: Entweder wird Rohsignal permanent in Gigabyte/Tag weggeschrieben (unbezahlbar), oder es wird so aggressiv aggregiert (RMS pro Minute), dass keine Diagnose mehr möglich ist.
  • Kein Sensor-Health-Monitoring: Drift, Entkopplung, lose Schraube – das Modell lernt auf Müll. Nach drei Monaten kippt die Datenbasis und die False-Positive-Rate explodiert.

Wenn Sie eines davon erkennen: Sie brauchen kein neues “besseres” ML-Modell. Sie brauchen ein robustes Datenerfassungs- und Governancesystem, das die Physik der Maschine respektiert und in Ihre On-Prem-IT passt.

Lösung: Referenzarchitektur für PdM-Datenqualität – von der Verschraubung bis zum Feature
Aus der Praxis hat sich eine Architektur bewährt, die vier Ebenen klar trennt: Sensorik & Montage, deterministische Erfassung am Edge, on-prem Datenspeicher mit Datenverträgen, und ein Feature-/Labeling-Layer als Schnittstelle zu Modellen.

1) Sensorik und Montage (Physik zuerst)

  • Beschleunigung (Vibration):
  • Sensor: Piezoelektrische IEPE-Beschleunigungsaufnehmer, 100 mV/g, 10 kHz nutzbares Band (besser 20–30 kHz, wenn Hüllkurvenanalyse geplant).
  • Montage: Metallisch blanke Fläche, plan gefräst; M5/M8-Gewinde mit Drehmoment gemäß Datenblatt; kein Magnetfuß für Dauerbetrieb an Hochfrequenzdiagnosen.
  • Orientierung: Achsen dokumentieren (radial/axial/tangential); Fotos in die Asset-Doku; Richtung im Datensatz als Vektor speichern.
  • Temperatur:
  • Sensor: PT100/RTD mit Federdruckfühler oder Gewindefühler; direkte Ankopplung ans Lagergehäuse; Wärmeleitpaste; thermisch entkoppelte Kabelführung.
  • Sampling: 1–10 Hz reichen; wichtig ist Stabilität und Kalibrierung (Offset/Spanne).
  • Stromaufnahme (MCSA):
  • Sensor: Hall-Effekt-Stromwandler oder Rogowski-Spule mit bekannter Übertragungsfunktion und Kalibration.
  • Montage: Phasenbezug konsistent dokumentieren; möglichst nah an der Maschine (weniger Störeinflüsse).
  • Zusatz: Tacho/Encoder für Order-Tracking (Drehzahl). Ohne stabilen Drehzahlkanal wird Ordnungsspektrumanalyse zum Ratespiel.

2) Deterministische Erfassung am Edge (Sampling, Zeit, Trigger)

  • Sampling-Faustregeln:
  • Wälzlagerdiagnose mit Hüllkurve: 48 kHz oder 96 kHz pro Achse, 24-Bit-ADC, analoges Anti-Aliasing. Fenster 1–4 s, 50% Überlappung.
  • Motorstromanalyse: 5–10 kHz reichen oft; fundamental 50 Hz plus Sidebands, aber Oberwellen und Inverter-PWM erfordern Reserve.
  • Temperatur: 1–10 Hz; Mittelwert/Median über 1–5 s.
  • Zeitbasis:
  • PTP (IEEE 1588) für Sub-Millisekunden-Zeitstempel auf DAQ und Edge-Gateway. NTP genügt für PLC/CMMS, aber nicht für Sensor-Fusion bei schnellen Signalen.
  • Jedes Segment bekommt Startzeit, Abtastrate, Sample-Count; kein “floating time”.
  • Trigger und Puffer:
  • Ringpuffer mit z. B. 30–60 s Rohsignal, permanenter Feature-Stream (RMS, Peak, Kurtosis, Bandenergie, Hüllkurvenspektrum).
  • Ereignisbasierte Rohdatenspeicherung: Rohdaten nur bei Anomalie-Score > Schwellwert, bei Statuswechsel (Last hoch/runter), oder zyklisch (z. B. 10 min pro Schicht).
  • Edge-Compute:
  • Vorverarbeitung: Entzerrung (Sensor- und Antialias-Übertragungsfunktion), DC-Entfernung, Hanning-Fenster, Spektrum (FFT), Hüllkurvenbildung (Bandpass 3–10 kHz + Demodulation).
  • Feature-Extraktion: RMS, Crest-Faktor, Kurtosis, Spectral Kurtosis, Ordnungsbandenergien, Peaks an BPFO/BPFI/BSF/FTF±Sidebands (lagerabhängig), THD, Slip-bedingte Sidebands im Strom.
  • Health-Monitoring: Rauschpegel, SNR, Verschraubungsindikator (Vergleich hochfrequente Flatness), Achs-Korrelation, Offset-Drift bei Temperatur.
  • Datenformate:
  • Rohsignal: segmentierte Parquet/Feather-Dateien mit Spalten (t, ax, ay, az), Metadaten im Footer (Sensor-ID, Kalibrierfaktoren, Montage).
  • Feature-Stream: Pro Fenster JSON/Protobuf mit Versioniertem Schema.

3) On-Premises Datenspeicher und Datenverträge (Souveränität statt Streaming in US-Cloud)

  • Ingestion:
  • gRPC/HTTPS für Bulk-Daten; OPC UA oder MQTT für Zustände (Betriebsart, Last, Störung).
  • Message Bus (z. B. NATS JetStream/Kafka) für asynchrone Verarbeitung, Backpressure und Replays.
  • Speicherung:
  • Rohdaten: On-Prem-Objektspeicher (z. B. S3-kompatibel wie MinIO) in einer Lake-Struktur (asset_id/year/month/day/segment.parquet).
  • Features/Labels/Metadaten: Relationale/Time-Series-DB (TimescaleDB/Postgres), indiziert nach asset_id, window_start, operating_state.
  • Datenverträge:
  • Strikte Schemas mit Einheiten, Abtastrate, Sensor-Orientierung, Kalibrierung, Messkette. Versionierung und Validierung (z. B. pydantic/JSON Schema).
  • Asset-Stammdaten: Lagersatz (Hersteller, Typ, Abmessungen), Übersetzung, Nenndrehzahl, Invertertyp, Tauschhistorie mit Zeitstempeln.
  • Governance:
  • Sensor-Health-Dashboards (Grenzwerte, Drift, SNR-Trends).
  • Auditierbare Daten-Lifecycle-Regeln: Rohdaten-Retention differenziert (kritische Assets 12 Monate, sonst nur Events), Feature-Archive länger.
  • Sicherheit und Betrieb:
  • Netzwerksegmentierung, kein ausgehender Internetzwang.
  • Deployment auf Bare-Metal/Kubernetes On-Prem. DSGVO- und ITAR/BAFA-Sensibilität berücksichtigen. Keine US-Cloud-Abhängigkeit.
  • Wenn LLMs für Textauswertung von CMMS-Notizen genutzt werden: strikt on-prem, abgesicherte Modelle, Observability/Governance (→ alpitype.de/leistungen/).