Modellwahl nach Signalcharakteristika
- Hohe Bandbreite, lokale Muster (Lagerdefekte, Stoß): 1D-CNN/TCN oder klassische Band-Features + Gradient Boosting. CNN/TCN eignet sich gut für quantisierte Edge-Deployments; 200–500 k Parameter liefern oft ausreichend Trennschärfe ohne GPU.
- Niedrige Bandbreite, glatte Trends (Temperatur): robuste Regressions-/Change-Point-Modelle, EWMA, CUSUM für Drifts.
- Stromsignaturen (Antriebe): THD + Oberwellenverhältnisse -> Gradient Boosting/Random Forest; bei variabler Last ordnungsnormalisierte Merkmale.
- Wenig Labels: Unüberwachte Anomalieerkennung, später Semi-Supervised mit Feedback der Instandhaltung.
Trade-offs: Was man gewinnt und was man dafür aufgibt
Gewinne durch Edge-Inferenz
- Robustheit: Entscheidungen fallen unabhängig von WAN/Cloud. Züge, die 3 h offline sind, bleiben überwacht. Werke mit restriktiven Netzen arbeiten autark.
- Latenz und Determinismus: Reaktionszeiten <100 ms erreichbar; deterministische Pfade ohne schwankende Netzwerkjitter.
- Bandbreite: Nur verdichtete Features und Events gehen ins Backend; Rohdaten selektiv bei Bedarf.
- Souveränität und Compliance: Sensible Prozessdaten verlassen das Werk nicht ungefiltert; keine Abhängigkeit von US-Clouds.
Kosten/Nachteile
- Flottenmanagement: Heterogene Hardware, Softwarestände, Zertifikate, Überwachung – ohne Tooling schnell unbeherrschbar.
- Ressourcenlimits: Speicher/Compute am Edge begrenzt; Modellgrößen und Bibliotheken müssen optimiert werden (Quantisierung, statisches Linking, keine aufgeblähten Runtimes).
- Debugging-Komplexität: Vor-Ort-Reproduktionen, Variation sensorischer Montagen, EMV-Einflüsse. Ohne strukturiertes Telemetrie-Design wird Fehlersuche zäh.
- Software-Updates: Rolling Updates, Safe Rollbacks und kompatible Migrationspfade sind Pflicht – in der Fertigung gibt es keine „wir probieren mal“.
Wann trotzdem zentral (Rechenzentrum, on-prem oder souveräne Cloud)?
- Niedrige Datenraten (1–10 Hz), unkritische Latenz (Minuten), saubere, stabile Netzanbindung.
- Sehr komplexe Modelle (große Sequenzmodelle, Graph-Modelle), die edge-seitig nicht tragfähig sind – dann Features am Rand, schwere Inferenz zentral.
- Explorative Analysen, Root-Cause-Suche, interaktive Dashboards – nicht auf Edge, sondern im gesicherten Backend.
Praxis: Szenarien aus Fertigung und Bahn
Textilfertigung – Spindel- und Antriebsüberwachung
Ausgangslage:
- Ring- und Rotorspinnmaschinen mit mehreren hundert bis tausend rotierenden Einheiten. Typische Ausfälle: Lagerpittings, Unwuchten, Fadenführer-Vibrationen, Überhitzung an Antrieben.
- Sensorik: Beschleunigungssensoren nahe am Lagerschild, Stromaufnahme der Antriebseinheiten, Umgebungstemp. Drehzahl über PLC.
Architekturentscheid:
- Abtastrate Vibration 12 kHz, 2 s Fenster, 50 % Overlap. Strom 2 kHz für Oberwellen. Temperatur 0,5 Hz.
- Edge-Hardware: lüfterloser ARM-IPC mit 4 Kernen (A53/A72), 4–8 GB RAM, industrietauglich, 24 V Versorgung. Ein Gerät pro Maschine, über isolierte Analog-Eingänge/IEPE mit den Sensoren verbunden.
- Feature-Set:
- Vibration: RMS, Crest, Kurtosis, Hüllkurven-FFT in drei Bändern (z. B. 1–2 kHz, 2–4 kHz, 4–6 kHz), sideband energy um Lagerfrequenzen (über Drehzahl normalisiert).
- Strom: THD, 3., 5., 7. Harmonische relativ zur Grundwelle, Ripple vs. Last.
- Temperatur: EWMA und Gradient.
- Modellierung:
- 1D-TCN (quantisiert, ~350 k Parameter) auf normalisierten Hüllkurvensegmenten zur Anomalieerkennung.
- Gradient Boosting auf Hand-Features zur Zustandsklassifikation (OK/Beobachten/Kritisch).
- Inferenzleistung:
- Feature-Pipeline ~15–25 ms pro Fenster (NEON), Modellinferenz ~5–10 ms. Gesamt <40 ms. CPU-Last <35 % auf einem Kern.
- Betriebslogik:
- Anomalie-Score wird über 3–5 Fenster geglättet, Hysterese 10 s. Bei anhaltend „Kritisch“: Maschinen-spezifisches Interlock-Signal setzen (über digitale E/A), Drehzahlreduktion oder Spindelabschaltung; parallel Event via MQTT ins Werk-Backend.
- Ergebnisse aus dem Betrieb:
- Die Quote der Fehlalarme sank nach Einführung drehzahl-normalisierter Features deutlich; ohne Order-Tracking waren Wartungseinsätze bei Lastwechseln zu häufig.
- Der größte Hebel kam nicht vom neuronalen Netz, sondern von sauberer Sensorbefestigung: gelöste Montageschrauben erzeugten dreimal so viele „Anomalien“ wie reale Defekte. Konsequenz: Montage-Checkliste, Anzugsmomente, Epoxid für Sensorfüße.
Worauf es ankam:
- Zeitbasis: PLC-Drehzahl und Sensor-Zeit auf gemeinsame Referenz gemappt; erst danach stimmte die Ordnungsanalyse.
- Edge-Updates: Maschinen laufen im Drei-Schicht-Betrieb. Updates nur im 20-min-Fenster zwischen den Linien verabreden; Blue/Green-Deployment mit lokalem Health-Check. Rollbacks innerhalb von Sekunden per A/B-Partition.
Bahn – Achslager und Antrieb
Ausgangslage:
- Überwachung von Achslagerzuständen und Traktionsmotoren; Ziel: frühzeitige Warnung vor Erwärmung/Vibrationssignaturen, die auf beginnende Schäden hindeuten.
- Sensorik: 3-Achsen-Beschleuniger an den Lagergehäusen, Temperaturfühler, optionale Stromsensorik der Antriebe. Abtastrate 512–1024 Hz stabil, höhere Raten nur punktuell. GNSS verfügbar, Funk nicht durchgehend.
Architekturentscheid:
- Edge-Computer EN50155-zertifiziert, x86 low-power mit NVMe für Ringpuffer. GNSS als Zeitquelle, PTP als Fallback im Depot.
- Vorverarbeitung: 4 s Fenster, 75 % Overlap bei Verdacht (Lastereignisse), sonst 25 %. Bandpass 5–250 Hz für Fahrwerk.
- Feature-Set:
- Vibration: bandbegrenzte RMS, Crest, Kurtosis, Spektralenergie in 5–10 festgelegten Bändern (Radordnungen), Envelope demodulation um Lagerfrequenzen.
- Temperatur: EWMA + Alarm bei Anstieg >ΔT/Δt Schwellwert, relativ zur Umgebung.
- Modellierung:
- Unüberwachter Autoencoder auf band-pass-gefilterten Signalen (kompakt, quantisiert).
- Für Temperaturalarm einfache Schwellen und Change-Point-Detection – robust, erklärbar.
- Kommunikation:
- Während Fahrt: lokale Entscheidungen; Events puffern.
- Im Depot/WLAN: Synchronisierung von Features/Events, selektiver Rohdatenupload bei Alarmen (z. B. letzte 10 s je Sensor, verlustfrei komprimiert).
- Betriebserkenntnisse:
- Ohne strikte Trennung von „Fahren/Geradeaus“, „Kurve“, „Bremsen“ produziert jedes Modell Artefakte. Lösung: Zustandsdetektor (aus Gyro + Raddrehzahl) wählt pro Betriebsmodus die passenden Modelle/Schwellen.
- Lokale Hysterese plus Meldungsbestätigung durch Werkstatt reduzierte Eskalationskaskaden. Zentrum bekommt erst „verifizierte“ Alarme.
Worauf es ankam:
- Autarker Betrieb: 48–72 h Puffer an Bord, read-only Systempartition, Watchdog und automatischer Neustart bei Ressourcen-Leaks.
- Sicherheitskette: Überwachung ist nicht Safety-Funktion, interagiert aber mit Betriebsprozessen. Keine direkten Eingriffe in Bremse/Traktion – nur Meldungen an Leitsystem, klarer Prozess zur Geschwindigkeitsreduktion nach menschlicher Entscheidung.
Engineering-Details, die Projekte machen oder brechen