Trade-offs: Was man gewinnt, was man aufgibt
Vorteile Edge
- Geringe Latenz: Ereignisse in Millisekunden erkennbar.
- Massive Bandbreiteneinsparung: 100× weniger Daten, nur relevante Ausschnitte.
- Datensouveränität: Sensible Prozesssignale verlassen das Werk nicht; DSGVO- und IP-Risiken minimiert.
- Robuste Offline-Fähigkeit: Funktioniert bei Netzstörungen; besonders im Bahnkontext entscheidend.
Kosten/Nachteile Edge
- Betriebsaufwand: Flottenmanagement für hunderte Edge-Knoten, Security-Patching, Monitoring.
- Heterogenität: Unterschiedliche Hardware, Treiber, EMV-Umgebungen erhöhen Testaufwand.
- Begrenzte Rechenleistung: Stellt Anforderungen an Modellkompaktheit und DSP-Effizienz.
- Debugging-Komplexität: Fehlerreproduktion erfordert Zugriff auf exakte Rohfenster und Zustände.
Hybride Kompromisse
- „Edge-first, Central-refine“: Erstklassige Wahl. Grobe Anomalie und Feature-Extraktion am Edge, periodische zentrale Modellverbesserung und RUL-Verfeinerung.
- „Burst to Central“: Wenn Bandbreite verfügbar ist, werden regelmäßig repräsentative Rohfenster übertragen, um das zentrale Modell zu nähren.
- „Rules as Guardrails“: Einfache deterministische Regeln schützen vor ML-Fehlalarmen (z. B. Sperren bei Anfahrvorgängen, definierte Prozesszustände).
Praxis: Drei Szenarien und was wirklich funktioniert
1) Textilfertigung: Lagerschäden an Streckwerken/Spinnstellen
Setup
- Sensorik: 3-Achsen-IEPE-Beschleunigungssensor, 25,6 kHz, magnetisch montiert an Lagerbock; optional Hall-Sensor für Drehzahl (2000–8000 rpm).
- Edge: ARM A53 IPC, 2–4 GB RAM, lokal Docker. DSP in C++ (FFTW), Inferenz ONNX Runtime INT8.
- Daten: 4096-Sample-Fenster (≈160 ms) mit 50% Overlap, Hann-Fensterung. Feature-Set: bandbegrenzte RMS (1–5 kHz), Crest-Factor, Kurtosis, Envelopespektrum auf 100–1000 Hz.
Modell
- Anomalieerkennung per Autoencoder (1D-CNN, ~150k Parameter) auf normierten Spektren; Score = Rekonstruktionsfehler. Zusätzlich Klassifikator (Gradient Boosting) auf Hand-Features zur Trennung Lager/Unwucht/Zahnriemen.
- Triggerlogik: Score z-Score >3 über 10 aufeinanderfolgende Fenster ODER plötzliche Kurtosis-Sprünge >5σ.
Ergebnis in der Praxis
- Frühwarnzeit: 2–4 Wochen vor spürbarem Geräusch; bei hoher Last teils früher.
- False-Positive-Rate: initial 1:20 Maschinenmonate; nach Einführung von Prozesszustands-Whitelist (nur in steady-state) und Edge-Drehzahlkompensation 1:80 Maschinenmonate.
- Rechenbudget: 18–25 ms Inferenz pro Fenster. CPU-Gesamt <35% auf Quad-A53.
Fallstricke
- Magnetfuß-Montage driftet über Monate → regelmäßige Montagesichtprüfung und Sensorkalibrierung einplanen.
- Frequenzsprünge bei Rezeptwechseln → State Machine am Edge; keine Auswertung in Ramp-up/Ramp-down.
2) Bahn: Traktionsmotor und Getriebe auf dem Fahrzeug
Setup
- Sensorik: Stromabnahme (Hall/Shunt) pro Phase mit 10 kHz, Beschleunigungssensor am Achslager 3,2 kHz, Temperatur an Getriebe.
- Edge: Rugged x86-IPC mit LTE; persistenter lokaler Speicher (mind. 256 GB, wear-leveling beachten).
- Connectivity: Opportunistisch. MQTT via TLS, Store-and-forward. OTA-Updates nur im Depot-WLAN.
Pipeline
- On-Edge:
- MCSA: Harmonische und Seitenbänder, Feature-Vektor je 1 s.
- Vibration: Order-Tracking basierend auf Tacho/geschätzter Drehzahl, Spectral Kurtosis zur Schlagstellendetektion.
- Temperaturtrend: Bayes-Filter mit Last- und Außentemperatur-Kompensation.
- Zentral: RUL-Schätzung mit Survival-Analytik (Weibull-Gemische) basierend auf Health-Score-Historie und realen Ausfällen/Überholungen.
Ergebnis
- Datenvolumen: 10 GB bei Rohdaten.
- Betrieb: Relevante Rohfenster (±10 s) um Ereignisse werden synchronisiert; restliche Rohdaten bleiben on-vehicle und werden zyklisch überschrieben.
- Nutzen: Reduzierte außerplanmäßige Depotaufenthalte; Schlagstellen wurden 1–2 Umläufe früher erkannt als mit Schwellenverfahren.
Fallstricke
- Funkabdeckung: Niemals von permanentem Uplink ausgehen; jedes Modul muss „Dark Operation“ können.
- Synchronisation: Ohne verlässliche Drehzahlmessung werden Ordnungsanalysen unzuverlässig → fallback auf bandbegrenzte Energie + statistische Detektoren.
3) Montagefertigung: Stromaufnahme und Temperatur in Pressen/Roboterzellen
Setup
- Sensorik: Phasenstrom, Intern-Temperatur, Schmiermitteltemperatur. Sampling 1 kHz (Strom), 1 Hz (Temperatur).
- Edge: Intel NUC, Docker/K3s, auch für mehrere Zellen aggregierend.
Pipeline
- Features: Zyklusweise Energie, Spitzenstrom, Anstiegszeiten, Temperatur-Delta pro Schicht.
- Modell: Isolation Forest für Zyklusanomalien, plus einfache Change-Point-Detection (CUSUM) auf Temperatur-Trends.
- Integration: Health Score > Schwelle → Ereignis an CMMS mit konkreter Zelle/Komponente. Rückmeldung der Wartung schließt den Loop.
Ergebnis
- Geringe Latenzanforderung, sehr robust. Falschalarme hauptsächlich durch Prozesswechsel – gelöst mit Whitelisting bekannter Programme (OPC UA Tag „ProgramID“).
Technische Bausteine, die sich bewährt haben
- Messaging: MQTT (EMQX/Mosquitto) lokal, QoS1/2 nur, wo nötig. Retained-Topics für Konfiguration, Last-Will für Edge-Verlust.
- Orchestrierung: K3s für größere Flotten, ansonsten systemd + containerd genügt. Keep it boring.
- Persistenz: TimescaleDB für aggregierte Features/Health, MinIO für Rohfenster, PostgreSQL für Konfiguration/Modelle.
- Inferenz-Laufzeiten: ONNX Runtime + OpenVINO auf x86, TensorRT auf Jetson, TFLite auf ARM ohne GPU. Kein JIT im Feld, nur vorcompilierte Artefakte.
- Sicherheit: mTLS mit werksinterner PKI, signierte Modelldateien, nur Pull aus interner Registry. Keine externen Abhängigkeiten/US-Cloud (→ alpitype.de/leistungen/).
Edge vs. Cloud: Entscheidungsleitfaden
- Reine Edge-Inferenz:
- Wenn Latenz <100 ms gefordert ist.
- Wenn Bandbreite limitiert/teuer ist.
- Wenn Daten das Werk nicht verlassen dürfen.
- Hybride Edge+On-Prem:
- Standardfall. Edge liefert Health/Events, Zentrale trainiert/verfeinert, orchestriert Flotte und integriert CMMS/ERP.
- Zentrale Cloud-Analyse:
- Nur sinnvoll, wenn Daten nicht kritisch sind, Bandbreite billig/verfügbar ist, und Latenz zweitrangig. In der DACH-Industrie selten und meist nur für sekundäre Analysen oder überbetriebliche Benchmarks gewollt.
Auswahl und Tuning der Modelle unter Edge-Budgets
- Start mit DSP + interpretierten Features: RMS, Crest, Kurtosis, bandbegrenzte Energien. Diese Baseline ist robust, erklärt sich gut und läuft überall.
- Für spezifische Fehlerbilder 1D-CNNs mit:
- Kernelgrößen 3–7, 3–5 Convolution-Blöcke, Depthwise-Separable Convs sparen Rechenzeit.
- Quantisierung INT8, Kalibrierung mit repräsentativen Fenstern (auch Grenzzustände).
- Dropout moderat (0.1–0.2), zu starkes Regularisieren reduziert Ansprechverhalten.
- Anomalie statt RUL am Edge: RUL lokal zu schätzen verführt, aber driftet schnell. Besser: Edge liefert saubere, stabile Health-Scores; RUL zentral, weil dort Kontext (Witterung, Lastprofile, Flottenvergleich) einfließt.