5) MLOps am Edge: wie man Modelle im Feld kontrolliert
- Versions- und Rollout-Strategie:
- Jedes Modell ist ein versioniertes, signiertes Artefakt mit klarer Input/Output-Spezifikation.
- Canary- und A/B-Rollouts auf Teilflotten, mit automatisiertem Rollback bei KPIs-Verschlechterung.
- Observability:
- Statistiken pro Feature (Mittelwert, Varianz, PSI/Drift-Kennzahlen), Auslastung, Latenz, Dropped Windows.
- Audit-Log: Welches Modell hat welchen Alarm ausgelöst, auf welchen Features, mit welchen Parametern? Ohne diese Nachvollziehbarkeit gibt es keine Akzeptanz im Betrieb.
- Retraining-Loop:
- Training/Experimentierung zentral (on-prem Cluster). Edge liefert nur Events + kuratierte Rohdaten-Snips. Keine Wild-West-Online-Lernexperimente direkt an der Maschine.
6) Integration in CMMS/ERP: Nutzen entsteht erst im Prozess
- Ereignisse werden in eine saubere Domäne übersetzt: Asset-ID, Komponente (ISO 14224 Taxonomie bewährt), Fehlerhypothese, Evidenz (Spektrum, Zeitreihe), empfohlene Aktion.
- Fehler-Persistenz und Hysterese: Ein Alarm wird erst nach z. B. drei aufeinanderfolgenden Zyklen scharf. „Flatteralarme“ zerstören Vertrauen.
- Tickets automatisch erzeugen, aber „review required“-Gate für den Instandhaltungsmeister. Rückmeldung aus dem CMMS (work done / root cause) ist Trainingsgold für spätere Supervised-Modelle.
- Schnittstellen: REST/GraphQL on-prem, keine ausgehenden Verbindungen in US-Cloud-Dienste. Das ist nicht Ideologie, sondern Risikomanagement. (→ alpitype.de/leistungen/)
Trade-offs: Was man gewinnt und was man dafür aufgibt
Vorteile der Edge-Inferenz:
- Determinismus und Latenz: Sub-100-ms-Pfade sind realistisch, auch bei Netzproblemen.
- Bandbreite: 1000× weniger Datenverkehr durch Event-basiertes Senden.
- Resilienz: Auch bei WAN-Ausfall bleibt der Schutz aktiv; Alarme laufen lokal weiter.
- Souveränität: Daten verlassen das Werk/den Zug nicht unkontrolliert; regulatorische und vertragliche Vorgaben werden eingehalten.
Nachteile bzw. Kosten:
- Flottenmanagement: 20–2000 Edge-Knoten upzudaten, zu überwachen und zu patchen braucht Disziplin und Automatisierung.
- Debuggability: Fehlersuche verteilt über Gerät, Netzwerk, Backend – ohne gutes Telemetrie-Design wird das schmerzhaft.
- Hardware-Budget: Pro Asset fallen einmalige Kosten für robuste Edge-Computer und Sensorik an. Meist amortisiert durch vermiedene Cloud-Traffic- und Egress-Kosten, aber CapEx bleibt CapEx.
Vorteile der Cloud-zentrierten Analyse (on-prem-Cloud eingeschlossen):
- Vereinfachtes Betriebsmodell: Eine zentrale Plattform, homogenes Update.
- Schwere Jobs: Training, hyperparametrische Suche, lange Historienauswertung – zentral ist sinnvoller.
- Kollaboration: Datenwissenschaft, Instandhaltung, Betrieb sehen denselben „Single Source of Truth“ – vorausgesetzt, sie ist on-prem erreichbar.
Nachteile der Cloud-Only-Idee:
- Latenz und Verfügbarkeit sind Fremdvariablen.
- Sicherheitszertifizierung in produktionsnahen Netzen wird aufwändig.
- Laufende Kosten (Traffic, Egress, Managed-Services) sind schwer kalkulierbar und im Worst Case höher als Edge-CapEx.
In der Praxis fahren wir hybride Architekturen: Feature-Engineering + Erstinferenz am Edge, Training + Flottensteuerung + Langzeitanalyse zentral (on-prem). Cloud im Public-Sinne wird nur genutzt, wenn es keine Souveränitätsbedenken gibt und die Latenzanforderungen es erlauben.
Praxis: Lessons learned aus Textil und Bahn
Textilfertigung: Spinnereien und Webmaschinen
- Herausforderung:
- Spindeln laufen 12.000–20.000 U/min, Drehzahl variiert mit Material und Auftrag. Klassische FFT ohne Ordnungsanalyse führt zu wandernden Peaks und Fehlalarmen.
- Sensor-Montage ist heikel: Dünnwandige Gehäuse führen zu Basisbiegeeffekten, die hochfrequente Signale verfälschen. Magnetfüße sind bequem, aber schlecht für >5 kHz Diagnostik.
- Lösung:
- Tacho-Abgriff am Antrieb, resampling auf Winkel (Order Tracking). Damit werden Lagerdefektfrequenzen stationär und detektierbar.
- Envelope-Analyse im Band 5–15 kHz für Wälzlager; spektrale Kurtosis zur Bandwahl. Features: Hüllkurven-RMS, Peaks bei BPFI/BPFO/Harmonics, Seitenbänder mit Abstand der Rotationsordnung.
- Klein gehaltenes Modell: Gradient Boosted Trees auf ~30 handgebauten Features, quantisiert und am Edge ausgeführt. Kein Blackbox-CNN notwendig.
- Alarmlogik mit Persistenz über drei Produktionszyklen; zusätzlich Auftragswechsel als Reset-Event, um Kontextwechsel sauber zu behandeln.
- Ergebnis:
- >90% Reduktion der Fehlalarme gegenüber einer naiven FFT+Schwellwert-Lösung.
- Rohdaten-Export nur bei Ereignissen; täglicher Traffic pro Maschine 100 GB.
- Integration mit CMMS: Automatisiertes Ticket mit Komponententyp, Defekthypothese, verlinkter Spektrums-PNG aus dem Edge.
Bahnbetrieb: Traktionsmotoren und Getriebe
- Herausforderung:
- Funklöcher, harte Umweltbedingungen (Temperatur, Vibration), sporadische Energiezyklen. Zugriff auf TCMS-Signale ist möglich, aber mit strengen Sicherheits- und Zertifizierungsauflagen verbunden.
- Lastprofile ändern sich stark (Steigungen, Anfahrten). Klassische Schwellen sind unbrauchbar.
- Lösung:
- Nutzung vorhandener Stromsensorik (MCSA), Abtasten 10 kHz, Spektrogramme werden nicht übertragen, sondern am Edge in Kennzahlen verdichtet: Seitenbandenergie um Netz-/PWM-Grundfrequenzen, Schlupfbandbreiten, harmonische Muster.
- Hybridmodell: Anomalieerkennung (Isolation Forest) zur Frühwarnung + regelbasierte Detektoren für bekannte Fehlerbilder (z. B. defekte Zahnflanken → Seitenband-Peaks in Ordnungen 1× bis 3× Rotationsfrequenz). Modelle laufen in C++/Rust-Services mit harter Latenzgarantie.
- Store-and-forward: Ereignisfenster ±60 s werden im Zug gepuffert und über Depot-WLAN nachts in den on-prem Objektspeicher gekippt. KPIs gehen periodisch via MQTT, wenn Netz vorhanden.
- Sicherheitsarchitektur gemäß IEC 62443: Zonen/Conduits, ausgehende Verbindungen, mutual TLS, signierte Updates.
- Ergebnis:
- Frühere Detektion von beginnenden Lager- und Zahnradschäden, planbare Tauschfenster.
- Kein betriebskritischer Pfad hängt am Mobilfunk. Bei Netzausfall bleibt die Anomaliedetektion aktiv.
Fertigung allgemein: Druckluft und Hilfsaggregate
- Herausforderung:
- Stark schwankende Lasten, aber niedrige Frequenzinhalte. Hier sind hohe Abtastraten unnötig.
- Lösung:
- Edge aggregiert 1-Hz-KPIs (Druck, Temperatur, Stromaufnahme, Einschaltdauer) und berechnet einfache Drift-/Wirkungsgradkennzahlen. Alarme werden per MQTT an das on-prem Backend gegeben, das die Work Orders erstellt.
- Ergebnis:
- Mit minimaler Edge-Rechenleistung werden echte Energiekosten- und Ausfallrisiken transparent, ohne Cloud-Abhängigkeit.