Trade-offs: Was man gewinnt, was man aufgibt
Vorteile Edge

  • Geringe Latenz: Ereignisse in Millisekunden erkennbar.
  • Massive Bandbreiteneinsparung: 100× weniger Daten, nur relevante Ausschnitte.
  • Datensouveränität: Sensible Prozesssignale verlassen das Werk nicht; DSGVO- und IP-Risiken minimiert.
  • Robuste Offline-Fähigkeit: Funktioniert bei Netzstörungen; besonders im Bahnkontext entscheidend.

Kosten/Nachteile Edge

  • Betriebsaufwand: Flottenmanagement für hunderte Edge-Knoten, Security-Patching, Monitoring.
  • Heterogenität: Unterschiedliche Hardware, Treiber, EMV-Umgebungen erhöhen Testaufwand.
  • Begrenzte Rechenleistung: Stellt Anforderungen an Modellkompaktheit und DSP-Effizienz.
  • Debugging-Komplexität: Fehlerreproduktion erfordert Zugriff auf exakte Rohfenster und Zustände.

Hybride Kompromisse

  • „Edge-first, Central-refine“: Erstklassige Wahl. Grobe Anomalie und Feature-Extraktion am Edge, periodische zentrale Modellverbesserung und RUL-Verfeinerung.
  • „Burst to Central“: Wenn Bandbreite verfügbar ist, werden regelmäßig repräsentative Rohfenster übertragen, um das zentrale Modell zu nähren.
  • „Rules as Guardrails“: Einfache deterministische Regeln schützen vor ML-Fehlalarmen (z. B. Sperren bei Anfahrvorgängen, definierte Prozesszustände).

Praxis: Drei Szenarien und was wirklich funktioniert

1) Textilfertigung: Lagerschäden an Streckwerken/Spinnstellen
Setup

  • Sensorik: 3-Achsen-IEPE-Beschleunigungssensor, 25,6 kHz, magnetisch montiert an Lagerbock; optional Hall-Sensor für Drehzahl (2000–8000 rpm).
  • Edge: ARM A53 IPC, 2–4 GB RAM, lokal Docker. DSP in C++ (FFTW), Inferenz ONNX Runtime INT8.
  • Daten: 4096-Sample-Fenster (≈160 ms) mit 50% Overlap, Hann-Fensterung. Feature-Set: bandbegrenzte RMS (1–5 kHz), Crest-Factor, Kurtosis, Envelopespektrum auf 100–1000 Hz.

Modell

  • Anomalieerkennung per Autoencoder (1D-CNN, ~150k Parameter) auf normierten Spektren; Score = Rekonstruktionsfehler. Zusätzlich Klassifikator (Gradient Boosting) auf Hand-Features zur Trennung Lager/Unwucht/Zahnriemen.
  • Triggerlogik: Score z-Score >3 über 10 aufeinanderfolgende Fenster ODER plötzliche Kurtosis-Sprünge >5σ.

Ergebnis in der Praxis

  • Frühwarnzeit: 2–4 Wochen vor spürbarem Geräusch; bei hoher Last teils früher.
  • False-Positive-Rate: initial 1:20 Maschinenmonate; nach Einführung von Prozesszustands-Whitelist (nur in steady-state) und Edge-Drehzahlkompensation 1:80 Maschinenmonate.
  • Rechenbudget: 18–25 ms Inferenz pro Fenster. CPU-Gesamt <35% auf Quad-A53.

Fallstricke

  • Magnetfuß-Montage driftet über Monate → regelmäßige Montagesichtprüfung und Sensorkalibrierung einplanen.
  • Frequenzsprünge bei Rezeptwechseln → State Machine am Edge; keine Auswertung in Ramp-up/Ramp-down.

2) Bahn: Traktionsmotor und Getriebe auf dem Fahrzeug
Setup

  • Sensorik: Stromabnahme (Hall/Shunt) pro Phase mit 10 kHz, Beschleunigungssensor am Achslager 3,2 kHz, Temperatur an Getriebe.
  • Edge: Rugged x86-IPC mit LTE; persistenter lokaler Speicher (mind. 256 GB, wear-leveling beachten).
  • Connectivity: Opportunistisch. MQTT via TLS, Store-and-forward. OTA-Updates nur im Depot-WLAN.

Pipeline

  • On-Edge:
  • MCSA: Harmonische und Seitenbänder, Feature-Vektor je 1 s.
  • Vibration: Order-Tracking basierend auf Tacho/geschätzter Drehzahl, Spectral Kurtosis zur Schlagstellendetektion.
  • Temperaturtrend: Bayes-Filter mit Last- und Außentemperatur-Kompensation.
  • Zentral: RUL-Schätzung mit Survival-Analytik (Weibull-Gemische) basierend auf Health-Score-Historie und realen Ausfällen/Überholungen.

Ergebnis

  • Datenvolumen: 10 GB bei Rohdaten.
  • Betrieb: Relevante Rohfenster (±10 s) um Ereignisse werden synchronisiert; restliche Rohdaten bleiben on-vehicle und werden zyklisch überschrieben.
  • Nutzen: Reduzierte außerplanmäßige Depotaufenthalte; Schlagstellen wurden 1–2 Umläufe früher erkannt als mit Schwellenverfahren.

Fallstricke

  • Funkabdeckung: Niemals von permanentem Uplink ausgehen; jedes Modul muss „Dark Operation“ können.
  • Synchronisation: Ohne verlässliche Drehzahlmessung werden Ordnungsanalysen unzuverlässig → fallback auf bandbegrenzte Energie + statistische Detektoren.

3) Montagefertigung: Stromaufnahme und Temperatur in Pressen/Roboterzellen
Setup

  • Sensorik: Phasenstrom, Intern-Temperatur, Schmiermitteltemperatur. Sampling 1 kHz (Strom), 1 Hz (Temperatur).
  • Edge: Intel NUC, Docker/K3s, auch für mehrere Zellen aggregierend.

Pipeline

  • Features: Zyklusweise Energie, Spitzenstrom, Anstiegszeiten, Temperatur-Delta pro Schicht.
  • Modell: Isolation Forest für Zyklusanomalien, plus einfache Change-Point-Detection (CUSUM) auf Temperatur-Trends.
  • Integration: Health Score > Schwelle → Ereignis an CMMS mit konkreter Zelle/Komponente. Rückmeldung der Wartung schließt den Loop.

Ergebnis

  • Geringe Latenzanforderung, sehr robust. Falschalarme hauptsächlich durch Prozesswechsel – gelöst mit Whitelisting bekannter Programme (OPC UA Tag „ProgramID“).

Technische Bausteine, die sich bewährt haben

  • Messaging: MQTT (EMQX/Mosquitto) lokal, QoS1/2 nur, wo nötig. Retained-Topics für Konfiguration, Last-Will für Edge-Verlust.
  • Orchestrierung: K3s für größere Flotten, ansonsten systemd + containerd genügt. Keep it boring.
  • Persistenz: TimescaleDB für aggregierte Features/Health, MinIO für Rohfenster, PostgreSQL für Konfiguration/Modelle.
  • Inferenz-Laufzeiten: ONNX Runtime + OpenVINO auf x86, TensorRT auf Jetson, TFLite auf ARM ohne GPU. Kein JIT im Feld, nur vorcompilierte Artefakte.
  • Sicherheit: mTLS mit werksinterner PKI, signierte Modelldateien, nur Pull aus interner Registry. Keine externen Abhängigkeiten/US-Cloud (→ alpitype.de/leistungen/).

Edge vs. Cloud: Entscheidungsleitfaden

  • Reine Edge-Inferenz:
  • Wenn Latenz <100 ms gefordert ist.
  • Wenn Bandbreite limitiert/teuer ist.
  • Wenn Daten das Werk nicht verlassen dürfen.
  • Hybride Edge+On-Prem:
  • Standardfall. Edge liefert Health/Events, Zentrale trainiert/verfeinert, orchestriert Flotte und integriert CMMS/ERP.
  • Zentrale Cloud-Analyse:
  • Nur sinnvoll, wenn Daten nicht kritisch sind, Bandbreite billig/verfügbar ist, und Latenz zweitrangig. In der DACH-Industrie selten und meist nur für sekundäre Analysen oder überbetriebliche Benchmarks gewollt.

Auswahl und Tuning der Modelle unter Edge-Budgets

  • Start mit DSP + interpretierten Features: RMS, Crest, Kurtosis, bandbegrenzte Energien. Diese Baseline ist robust, erklärt sich gut und läuft überall.
  • Für spezifische Fehlerbilder 1D-CNNs mit:
  • Kernelgrößen 3–7, 3–5 Convolution-Blöcke, Depthwise-Separable Convs sparen Rechenzeit.
  • Quantisierung INT8, Kalibrierung mit repräsentativen Fenstern (auch Grenzzustände).
  • Dropout moderat (0.1–0.2), zu starkes Regularisieren reduziert Ansprechverhalten.
  • Anomalie statt RUL am Edge: RUL lokal zu schätzen verführt, aber driftet schnell. Besser: Edge liefert saubere, stabile Health-Scores; RUL zentral, weil dort Kontext (Witterung, Lastprofile, Flottenvergleich) einfließt.