Trade‑offs: Was man gewinnt – und was man aufgibt

  • Latenz vs. Flexibilität:
  • Pro Edge: Millisekunden bis wenige 100 ms Entscheidung, robust gegen Netzausfälle.
  • Contra: Mehr Variantenvielfalt in der Flotte, sorgfältiges Deployment nötig.
  • Bandbreite vs. Transparenz:
  • Pro Edge: Zwei bis drei Größenordnungen weniger Datenvolumen im Uplink; praktikabel bei 100+ Maschinen/Zügen.
  • Contra: Forensik hängt von guter Event‑Pufferung ab. Wer nie Rohfenster schickt, steht im Post‑Mortem ohne Beweise da.
  • Genauigkeit vs. Rechenbudget:
  • Pro Edge: Leichte Modelle sind oft “gut genug”. Stabilität gewinnt gegen letzte Prozentpunkte Genauigkeit.
  • Contra: Sehr komplexe Ensembles / tiefe Netze passen ggf. nicht auf kleine ARM‑Knoten; dann Hybrid: schwere Entscheidung zentral, aber nur bei geplanten Analysen.
  • Standardisierung vs. Domänenspezifik:
  • Pro Edge: Domänenspezifische Features (z. B. Ordnungsanalyse) sind näher am Prozess und robuster gegen Drift.
  • Contra: Mehr Engineering‑Aufwand als “Rohdaten -> generisches Deep Learning”.
  • Betrieb vs. PoC‑Tempo:
  • Pro Edge: Produktionsreife von Anfang an (Observability, OTA, Rollback).
  • Contra: PoC dauert länger, weil man Deployment‑Wege baut – zahlt sich aber bei der Skalierung aus.

Praxisbeispiel 1: Textilfertigung – Lagerschaden am Hochgeschwindigkeitswebstuhl
Ausgangslage

  • 800–1.200 U/min, drehzahlvariable Profile je Produkt. Kritische Lager laufen bei hohen Flankenbeschleunigungen. Stromaufnahme des Hauptantriebs korreliert mit mechanischen Problemen.
  • Netzwerkinfrastruktur der Halle ist alt, WAN begrenzt. Externe Cloud ist ausgeschlossen; Werksvorgabe On‑Prem only.

Implementierung

  • Sensorik: 2× MEMS‑Beschleuniger pro Lagerblock (±16 g, 25 kHz), PT100 an Lagergehäuse, Stromzange am Antrieb (2 kHz).
  • Edge‑Hardware: Lüfterloser x86‑IPC mit 4‑Kern‑CPU; PTP‑fähige NIC; lokale NVMe 128 GB für Ringpuffer.
  • Vorverarbeitung:
  • Fenster 2048 Samples @25 kHz (≈81,9 ms), 50 % Overlap.
  • Hüllkurvenanalyse mit Bandpass 1–5 kHz; FFT‑Leistung in definierter Bandmaske.
  • Zeitsignal: RMS, Kurtosis, Crest‑Faktor, Impulsrate.
  • Order‑Tracking über Drehzahlsignal; Normalisierung der Features auf Ordnungen statt absolute Hz.
  • Modell:
  • Autoencoder (1D‑CNN, 100k Parameter, INT8), auf fehlerfreien Daten der letzten 8 Wochen trainiert.
  • Gradient‑Boosted Trees auf handgemachten Features als Second‑Opinion‑Klassifikator.
  • Fusionslogik: Score‑Ensemble mit drehzahlabhängigem Schwellwert.
  • Inferenz:
  • Latenz ca. 120–150 ms ab Fensterende, CPU‑Last <20 %.
  • Edge-Bescheide triggern SPS‑Flag für Reduktion der Geschwindigkeit um 10 % bei “Warnung”, Stop bei “Alarm” plus optische Signale.
  • Uplink:
  • Normalbetrieb: Health‑Index (0–1), Feature‑Mittelwerte jede 5 s via MQTT; ca. <5 kB/s pro Maschine.
  • Ereignis: Rohfenster 10 s vor/nach Alarm, gz‑komprimiert, einmalig; im Schnitt 30–50 MB je Event.
  • Ergebnisse:
  • Datenreduktion um ~10.000× verglichen mit Dauerstreaming der Rohdaten.
  • Falschalarme initial hoch durch Produktwechsel; gelöst durch Ordnungsanalyse und produktabhängige Baselines (Kontext aus ERP: Auftragsnummer → Rezeptur).
  • Technischer Lerneffekt: Schraubensicherung und Kabelführung sind nicht “Detailarbeit” – Vibrationsartefakte durch lose Halter sind die Fehlerquelle Nr. 1. Wir haben mechanische QA in den Deploy‑Runbook aufgenommen.
  • Betrieb:
  • OTA‑Rollout in 10er‑Batches nachts; Shadow‑Inferenz für 2 Wochen parallel; automatisches Rollback bei Abweichung >20 % in Score‑Quantilen.

Praxisbeispiel 2: Bahn – Flachstellen- und Lagerdiagnose im Flottenbetrieb
Ausgangslage

  • Flotte von Triebzügen, Sensorik pro Drehgestell: Vibration (10 kHz), Körperschall, Temperatur; Fahrzeuggeschwindigkeit aus Fahrzeugbus.
  • LTE‑Konnektivität lückenhaft, Depots mit WLAN/ETH‑Andockpunkten. Sicherheits- und Zulassungsanforderungen schließen Public‑Cloud aus.

Implementierung

  • Edge‑Knoten: Ruggedized ARM‑Box pro Wagen, 4 GB RAM, 64 GB eMMC. Zeit via GNSS‑disziplinierter PTP‑Grandmaster im Zugverbund.
  • Vorverarbeitung:
  • Ereignisdetektion für Stoßimpulse; Zeit‑ und Frequenzfeatures ähnlich wie oben.
  • Geschwindigkeitsskalierung: Normierung der Spektren auf Ordnungen; Segmentierung nur bei v > 20 km/h.
  • Dynamische Schwellen pro Streckenabschnitt (Gleisqualität variiert); Strecken‑IDs aus Fahrplan/Positionsdaten im Depot gemappt.
  • Modell:
  • Klassifikator für Flachstellen (Impulsfolge, Energieverteilung), separater One‑Class‑Anomaliedetektor für Lagerdegradation.
  • Ensemble‑Entscheidung liefert Schweregrad 0–3 und empfohlenen Zeithorizont bis Inspektion.
  • Kommunikation:
  • Online: Minimal‑Telemetrie im 30‑s‑Raster (Zustandsindex je Achse).
  • Depot: Bulk‑Upload von Eventfenstern und Logs via WLAN; Synchronisation gegen On‑Prem‑Cluster im Werk.
  • Integration:
  • CMMS‑Schnittstelle: Automatisches Erstellen von Arbeitsaufträgen mit Fahrzeug‑, Achs‑ und Kilometerstandangabe; SLA‑Logik für Fristen.
  • Werkzeuge für Instandhalter: Event‑Viewer mit Zeitsignal/FFT, Kontext (Geschwindigkeit, Temperatur), Vergleich historischer Events.
  • Ergebnisse:
  • Keine Produktiv‑Abhängigkeit vom Mobilfunk. Ereignisdaten stehen spätestens im Depot zur Verfügung.
  • Verbesserung der Trefferquote durch streckenabhängige Baselines; anfängliche Fehlalarme auf “rauen” Gleisabschnitten sanken nach Einführung von Segment‑Profilen erheblich.
  • Ein wichtiger Betriebsaspekt: Autoskalierende Puffer, um auch bei zwei Wochen Depot‑Ausfall keine Daten zu verlieren. Speicherbudget pro Wagen: ca. 10–20 GB nur für forensische Windows.

Technische Leitplanken und Empfehlungen

  • Wenn eine der folgenden Bedingungen wahr ist, gehört die Inferenz an die Maschine:
  • Reaktionszeit 1 % der Zeit.
  • Rohdatenrate >1 MB/s langfristig.
  • Strikte Datensouveränität/Regulatorik gegen externe Clouds.
  • Trennung von Rollen:
  • Edge: deterministisch, begrenzte Variabilität, debuggbar ohne Internet.
  • Zentral: Experimentieren, Retraining, Auswertung, Governance.
  • Quantisierung und Portabilität:
  • Modelle im ONNX‑Format und quantisiert bereitstellen. Edge‑Runtime klar definieren (z. B. OnnxRuntime mit spezieller EP). Keine exotischen Ops, die nur auf dem Entwickler‑Laptop existieren.
  • Feature‑Engineering schlägt “blindes” Deep Learning:
  • Order Tracking bei variabler Drehzahl ist der Unterschied zwischen robust und instabil.
  • Kurtosis/Crest‑Faktor geben schnelle Hinweise auf Impulsfehler, Hüllkurvenanalyse hebt Lagermodulationen hervor. Diese einfachen Features sind Edge‑tauglich und gut erklärbar.
  • Synchronisation und Drift:
  • Ohne stabile Zeitbasis driftet alles auseinander. Monitoring für Clock‑Offset einbauen.
  • Konzeptdrift: Score‑Verteilungen überwachen, saisonale/produktabhängige Effekte modellieren, Shadow‑Tests vor Freischaltung.
  • Sicherheit by default:
  • Nur ausgehende Verbindungen, minimale Angriffsfläche.
  • Zertifikatsrotation automatisieren. Keine “ewigen” Secrets im Image.