Data Engineering: Labels und Rückkanal sind der Engpass
- Ohne CMMS-Integration fehlt der „Ground Truth“. Wir verknüpfen Events mit Workorders: Maschine, Komponente, Datum, Befund. Zeitfenster werden markiert und dienen als Trainings-/Validierungsbasis.
- Label-Lag: Wartung wird oft Tage später dokumentiert. Wir lösen das mit Heuristiken (±3–7 Tage), plausibilisieren über Seriennummern/Bauteilwechsel, und fragen im Zweifel händisch nach – besser ein sauberes, kleines Dataset als ein großes, schmutziges.
- Negativbeispiele erforderlich: Regelmäßig Normalfenster samplen, sonst trainiert man nur auf Anomalien und wundert sich über hohe False-Positives.
Test- und Rollout-Strategie
- Golden Dataset: 50–100 verifizierte Events unterschiedlicher Typen, plus viel Normalzustand. Offline-Validierung mit Metriken, die den Betrieb abbilden (False-Alarmrate pro Maschinenmonat, Lead Time vor Ausfall, verpasste Ausfälle).
- Shadow-Mode: Edge rechnet, erzeugt aber keine Wartungsaufträge, nur Telemetrie; Phase 2–6 Wochen.
- Canary-Ringe: 5% der Maschinen erzeugen echte Tickets mit Mensch-in-the-Loop. Danach Flotte erhöhen.
- Regressionsschutz: Jede neue Modellversion muss auf Golden Dataset besser oder gleich sein. Kein „hoffentlich im Feld besser“.
Häufige technische Fehlannahmen
- „Mehr Daten → besseres Modell.“ Nur wenn die Daten synchron, gelabelt und repräsentativ sind. Sonst trainiert man auf Prozesswechsel.
- „Wir brauchen Deep Learning in der Cloud.“ Für 80% der PdM-Fälle ziehen robuste DSP-Features + leichte Modelle davon – insbesondere unter variabler Drehzahl.
- „Wir können Samplingrate später hochdrehen.“ Hardware bestimmt Anti-Aliasing/ADC-Qualität. Wer zu niedrig plant, kauft später die Anlage doppelt.
- „Docker auf Edge reicht als Betriebskonzept.“ Ohne mTLS, Signaturen, Canary und Telemetrie baut man eine Patchhölle.
Kennzahlen und Zielwerte als Orientierung
- Sampling
- Vibration Lagerdiagnose: 12,8–51,2 kHz je nach Lager und Drehzahl, 2048–8192 FFT-Punkte.
- MCSA: 2–10 kHz reichen häufig; netzfrequenzsynchrones Windowing.
- Latenz
- Anomaliescore pro 1 s Fenster: <50 ms Edge-Rechenzeit.
- Event-End-to-End (Edge → Zentrale → CMMS): <5 s für „kritisch“, <60 s für „Wartungsempfehlung“.
- Bandbreite
- Health/Features: 10–100 kByte/min/Maschine.
- Event-Rohfenster: 1–10 MByte je nach Dauer; Rate abhängig vom Prozess, Ziel: <1 pro Tag/Maschine im Normalbetrieb.
- Zuverlässigkeit
- False-Alarmrate: besser als 1 pro 50–100 Maschinenmonate nach Tuning.
- Missed-Event-Rate: <5% für die als „kritisch“ definierten Fehlerklassen.
Souveränität und Compliance ohne US-Cloud
- On-Prem-Betrieb ist der Default. Objekt-Storage (MinIO), Timeseries (TimescaleDB), Messaging (EMQX/Mosquitto), Orchestrierung (K3s) funktionieren ohne Public Cloud.
- Updates, Keys, Artefakte verbleiben in der Werk- oder Konzern-PKI/Registry. Modelldateien sind signiert, Artefakte reproduzierbar gebaut.
- Auditierbarkeit: Jede Entscheidung am Edge wird mit Model-Hash, Feature-Vektor-Signatur und Versionsstempel geloggt. Das reduziert Diskussionen mit Qualitätssicherung und Instandhaltung.
Checkliste für den Start
- Sensorik: Ist die Samplingrate/Anti-Aliasing-Kette ausreichend? Gemeinsame Zeitbasis vorhanden?
- Edge-Hardware: CPU-Budget, EMV, Temperaturbereich, Stromversorgung, Speichermedien (industrial grade).
- Datenstrategie: Welche Features/Health-Scores werden kontinuierlich gesendet? Welche Rohfenster wann?
- Security: mTLS, Signaturen, interne Registry, Secrets-Management. Keine externen Abhängigkeiten.
- CMMS/ERP-Integration: Bidirektional geplant? Eindeutige IDs für Maschine/Bauteil?
- Rolloutplan: Shadow-Mode, Canary, Golden Dataset, Regressionskriterien.
Fazit
Predictive Maintenance wird erst mit einer edge-zentrierten Architektur betriebssicher und wirtschaftlich. Modelle gehören an die Maschine, weil dort die Signale entstehen und die Randbedingungen schwanken. Die Zentrale – idealerweise On-Prem – orchestriert, trainiert nach und integriert in die Instandhaltungsprozesse. Wer Bandbreite, Latenz und Souveränität ernst nimmt, landet zwangsläufig bei diesem hybriden Setup. Alles andere ist PoC-Theater.
Wenn Sie eine solche Architektur ohne Cloud-Abhängigkeit, DSGVO-konform und produktionsreif aufbauen wollen, sprechen Sie uns an. Wir liefern Requirements Engineering, Implementierung und Qualitätssicherung aus einer Hand – inklusive Flottenbetrieb und Modell-Governance (→ alpitype.de/leistungen/).
FAQ
1) Welche Samplingrate brauche ich wirklich für Lagerdiagnosen?
- Hängt von der Drehzahl und den interessierenden Fehlerfrequenzen ab. Für typische Industrieantriebe sind 12,8–25,6 kHz ein guter Start, 51,2 kHz bei kleinen, schnelllaufenden Lagern. Wichtig: Anti-Aliasing-Filter und ordentliche Sensorbefestigung. Lieber etwas zu hoch und per Decimation runter als zu niedrig und blind.
2) Wie gehe ich mit variabler Drehzahl um?
- Ohne Drehzahlsignal: Schätzen via dominanter Ordnungen im Spektrum oder via Encoder auf dem Antrieb. Dann Ordnungsanalyse (order tracking) statt fester Frequenzbänder. Alternativ: Merkmale in relativierten Bändern (in Vielfachen der Grundordnung) berechnen.
3) Wie update ich Modelle in air-gapped Netzen?
- Modelle als signierte Artefakte bündeln, inklusive Compatibility-Matrix (Runtime, Treiber, Board). Updates als Paket auf Wechseldatenträger, Edge prüft Signatur und Kompatibilität, staged rollout per Konfig-Flag. Telemetrie wird beim nächsten Sync übertragen. Keine dynamischen Pip-Installs im Feld.
4) Wie beweise ich ROI und verhindere Alarmmüdigkeit?
- Metriken: False-Alarmrate pro Maschinenmonat, verpasste kritische Ausfälle, Lead Time, eingesparte Stillstandsminuten. Starten Sie mit wenigen, gut gewählten Fehlerklassen und klaren Tickets. Mensch-in-the-Loop in der Canary-Phase, harte Regressionskriterien vor Flotten-Rollout.
5) Welche Modelle funktionieren am Edge am stabilsten?
- Für allgemeine Anomalieerkennung: Isolation Forest oder kleine Autoencoder auf Features oder Spektren. Für spezifische Fehler: 1D-CNNs mit INT8-Quantisierung. Für Trends: robuste statistische Modelle (ETS/ARIMA) statt großer LSTMs. Immer kombiniert mit klaren DSP-Features als Guardrails.
Über den Autor
Wir haben PdM-Systeme in Textilfertigung und Bahnbetrieb produktiv ausgerollt. Unser Fokus sind robuste, souveräne Architekturen: Edge-Inferenz, On-Prem-Orchestrierung, CMMS-Integration – ohne US-Cloud-Abhängigkeit. Technische Ownership, nicht PowerPoint.