Data Engineering: Labels und Rückkanal sind der Engpass

  • Ohne CMMS-Integration fehlt der „Ground Truth“. Wir verknüpfen Events mit Workorders: Maschine, Komponente, Datum, Befund. Zeitfenster werden markiert und dienen als Trainings-/Validierungsbasis.
  • Label-Lag: Wartung wird oft Tage später dokumentiert. Wir lösen das mit Heuristiken (±3–7 Tage), plausibilisieren über Seriennummern/Bauteilwechsel, und fragen im Zweifel händisch nach – besser ein sauberes, kleines Dataset als ein großes, schmutziges.
  • Negativbeispiele erforderlich: Regelmäßig Normalfenster samplen, sonst trainiert man nur auf Anomalien und wundert sich über hohe False-Positives.

Test- und Rollout-Strategie

  • Golden Dataset: 50–100 verifizierte Events unterschiedlicher Typen, plus viel Normalzustand. Offline-Validierung mit Metriken, die den Betrieb abbilden (False-Alarmrate pro Maschinenmonat, Lead Time vor Ausfall, verpasste Ausfälle).
  • Shadow-Mode: Edge rechnet, erzeugt aber keine Wartungsaufträge, nur Telemetrie; Phase 2–6 Wochen.
  • Canary-Ringe: 5% der Maschinen erzeugen echte Tickets mit Mensch-in-the-Loop. Danach Flotte erhöhen.
  • Regressionsschutz: Jede neue Modellversion muss auf Golden Dataset besser oder gleich sein. Kein „hoffentlich im Feld besser“.

Häufige technische Fehlannahmen

  • „Mehr Daten → besseres Modell.“ Nur wenn die Daten synchron, gelabelt und repräsentativ sind. Sonst trainiert man auf Prozesswechsel.
  • „Wir brauchen Deep Learning in der Cloud.“ Für 80% der PdM-Fälle ziehen robuste DSP-Features + leichte Modelle davon – insbesondere unter variabler Drehzahl.
  • „Wir können Samplingrate später hochdrehen.“ Hardware bestimmt Anti-Aliasing/ADC-Qualität. Wer zu niedrig plant, kauft später die Anlage doppelt.
  • „Docker auf Edge reicht als Betriebskonzept.“ Ohne mTLS, Signaturen, Canary und Telemetrie baut man eine Patchhölle.

Kennzahlen und Zielwerte als Orientierung

  • Sampling
  • Vibration Lagerdiagnose: 12,8–51,2 kHz je nach Lager und Drehzahl, 2048–8192 FFT-Punkte.
  • MCSA: 2–10 kHz reichen häufig; netzfrequenzsynchrones Windowing.
  • Latenz
  • Anomaliescore pro 1 s Fenster: <50 ms Edge-Rechenzeit.
  • Event-End-to-End (Edge → Zentrale → CMMS): <5 s für „kritisch“, <60 s für „Wartungsempfehlung“.
  • Bandbreite
  • Health/Features: 10–100 kByte/min/Maschine.
  • Event-Rohfenster: 1–10 MByte je nach Dauer; Rate abhängig vom Prozess, Ziel: <1 pro Tag/Maschine im Normalbetrieb.
  • Zuverlässigkeit
  • False-Alarmrate: besser als 1 pro 50–100 Maschinenmonate nach Tuning.
  • Missed-Event-Rate: <5% für die als „kritisch“ definierten Fehlerklassen.

Souveränität und Compliance ohne US-Cloud

  • On-Prem-Betrieb ist der Default. Objekt-Storage (MinIO), Timeseries (TimescaleDB), Messaging (EMQX/Mosquitto), Orchestrierung (K3s) funktionieren ohne Public Cloud.
  • Updates, Keys, Artefakte verbleiben in der Werk- oder Konzern-PKI/Registry. Modelldateien sind signiert, Artefakte reproduzierbar gebaut.
  • Auditierbarkeit: Jede Entscheidung am Edge wird mit Model-Hash, Feature-Vektor-Signatur und Versionsstempel geloggt. Das reduziert Diskussionen mit Qualitätssicherung und Instandhaltung.

Checkliste für den Start

  • Sensorik: Ist die Samplingrate/Anti-Aliasing-Kette ausreichend? Gemeinsame Zeitbasis vorhanden?
  • Edge-Hardware: CPU-Budget, EMV, Temperaturbereich, Stromversorgung, Speichermedien (industrial grade).
  • Datenstrategie: Welche Features/Health-Scores werden kontinuierlich gesendet? Welche Rohfenster wann?
  • Security: mTLS, Signaturen, interne Registry, Secrets-Management. Keine externen Abhängigkeiten.
  • CMMS/ERP-Integration: Bidirektional geplant? Eindeutige IDs für Maschine/Bauteil?
  • Rolloutplan: Shadow-Mode, Canary, Golden Dataset, Regressionskriterien.

Fazit
Predictive Maintenance wird erst mit einer edge-zentrierten Architektur betriebssicher und wirtschaftlich. Modelle gehören an die Maschine, weil dort die Signale entstehen und die Randbedingungen schwanken. Die Zentrale – idealerweise On-Prem – orchestriert, trainiert nach und integriert in die Instandhaltungsprozesse. Wer Bandbreite, Latenz und Souveränität ernst nimmt, landet zwangsläufig bei diesem hybriden Setup. Alles andere ist PoC-Theater.

Wenn Sie eine solche Architektur ohne Cloud-Abhängigkeit, DSGVO-konform und produktionsreif aufbauen wollen, sprechen Sie uns an. Wir liefern Requirements Engineering, Implementierung und Qualitätssicherung aus einer Hand – inklusive Flottenbetrieb und Modell-Governance (→ alpitype.de/leistungen/).

FAQ

1) Welche Samplingrate brauche ich wirklich für Lagerdiagnosen?

  • Hängt von der Drehzahl und den interessierenden Fehlerfrequenzen ab. Für typische Industrieantriebe sind 12,8–25,6 kHz ein guter Start, 51,2 kHz bei kleinen, schnelllaufenden Lagern. Wichtig: Anti-Aliasing-Filter und ordentliche Sensorbefestigung. Lieber etwas zu hoch und per Decimation runter als zu niedrig und blind.

2) Wie gehe ich mit variabler Drehzahl um?

  • Ohne Drehzahlsignal: Schätzen via dominanter Ordnungen im Spektrum oder via Encoder auf dem Antrieb. Dann Ordnungsanalyse (order tracking) statt fester Frequenzbänder. Alternativ: Merkmale in relativierten Bändern (in Vielfachen der Grundordnung) berechnen.

3) Wie update ich Modelle in air-gapped Netzen?

  • Modelle als signierte Artefakte bündeln, inklusive Compatibility-Matrix (Runtime, Treiber, Board). Updates als Paket auf Wechseldatenträger, Edge prüft Signatur und Kompatibilität, staged rollout per Konfig-Flag. Telemetrie wird beim nächsten Sync übertragen. Keine dynamischen Pip-Installs im Feld.

4) Wie beweise ich ROI und verhindere Alarmmüdigkeit?

  • Metriken: False-Alarmrate pro Maschinenmonat, verpasste kritische Ausfälle, Lead Time, eingesparte Stillstandsminuten. Starten Sie mit wenigen, gut gewählten Fehlerklassen und klaren Tickets. Mensch-in-the-Loop in der Canary-Phase, harte Regressionskriterien vor Flotten-Rollout.

5) Welche Modelle funktionieren am Edge am stabilsten?

  • Für allgemeine Anomalieerkennung: Isolation Forest oder kleine Autoencoder auf Features oder Spektren. Für spezifische Fehler: 1D-CNNs mit INT8-Quantisierung. Für Trends: robuste statistische Modelle (ETS/ARIMA) statt großer LSTMs. Immer kombiniert mit klaren DSP-Features als Guardrails.

Über den Autor
Wir haben PdM-Systeme in Textilfertigung und Bahnbetrieb produktiv ausgerollt. Unser Fokus sind robuste, souveräne Architekturen: Edge-Inferenz, On-Prem-Orchestrierung, CMMS-Integration – ohne US-Cloud-Abhängigkeit. Technische Ownership, nicht PowerPoint.