• Protokolle:
  • MQTT 5.0 für Events/Features (QoS 1–2, mTLS, Retained‑Messages für Konfig)
  • OPC UA PubSub für OT‑seitige Daten und Kontext, klar versioniert
  • Zeit und Trigger:
  • PTP mit Hardware‑Timestamping (Intel i210/i225 NICs), Sync‑Puls für mehrere ADCs
  • Für kHz‑Domänen reichen oft ±1 ms; für Ordnungsanalyse Sync zur Drehzahl unabdingbar
  • Feature‑Drift‑Monitoring:
  • Population Stability Index (PSI) pro Feature‑Bucket; Alert bei PSI > 0,2
  • KL‑Divergenz für kontinuierliche Merkmalsverteilungen
  • Edge‑Update‑Sicherheit:
  • Signierte Artefakte (Sigstore/Cosign), SBOM je Container
  • A/B‑Slots, Health‑Checks, automatisches Rollback
  • SSD‑Lebensdauer:
  • Ringpuffer als voralloziertes, append‑only File
  • LZ4 statt Zstd für hohe Schreibrate, wenn CPU knapp
  • noatime, journald‑Rate‑Limit, Log‑Rotation streng
  • Determinismus:
  • CPU‑Affinity für Sampling/Signalverarbeitung
  • C‑Implementierungen (CMSIS‑DSP, FFTW) mit festem Seed; Float‑Determinismus beachten
  • Governance/Observability:
  • Pro Knoten: Inferenzlatenz, Scores, Input‑Statistiken, Fehlerraten; zentral aggregiert
  • Änderungen an Schwellen/Modellen auditierbar; A/B‑Vergleiche; Canary‑Rollouts
  • Hier zahlt sich eine Plattform wie Alpi‑M aus: Observability & Governance für ML‑Pipelines on‑prem, ohne US‑Cloud‑Abhängigkeit (→ alpitype.de/leistungen/)

Wann Edge nicht reicht – und wie der Hybrid aussieht

  • Komplexe Diagnostik, die GPU‑Leistung oder große Speichermodelle benötigt: Spektrogramm‑Transformer oder große Autoencoder können on‑prem im Rechenzentrum laufen.
  • Flottenweite Korrelationen: Über Betriebsmittel, Schichten, Standorte hinweg – das machen Sie zentral, aber auf Features/Ereignissen, nicht auf Rohdaten.
  • Langfristige RUL‑Schätzung: Lernen zentral, exportieren eine kompakte Edge‑Variante (z. B. quantisiertes Surrogat), die online nur verfeinert.
  • Vorgehen:
  • Edge extrahiert standardisierte Features + Event‑Snippets
  • On‑Prem Core trainiert/validiert, schreibt signierte Artefakte ins Registry
  • Edge zieht Updates kontrolliert; Observability misst Impact; Rollback bei Regression

Akzeptanzkriterien, die Ihnen in der Realität helfen

  • Max. 1 False Positive pro Maschine/Monat
  • Missed‑Detection‑Rate <5 % für kritisch definierte Fehlerfamilien
  • End‑to‑end Latenz (Fensterende bis Alarm) <1 s
  • Edge‑Update‑Rollback <60 s, ohne Aggregatstillstand
  • Bandbreite <100 MB/Tag/Maschine außerhalb von Störfällen
  • Nachvollziehbarkeit: Jede Alarmentscheidung reproduzierbar aus Feature‑Snapshot+Modellhash

Mein Fazit aus Projekten in Textil und Bahn

Bringen Sie die Inferenz an die Maschine. Nicht, weil es „modern“ ist, sondern weil nur so Bandbreite, Latenz, Souveränität und Robustheit gleichzeitig erfüllt werden. Setzen Sie auf gutes Feature Engineering, saubere Zeitbasen und ein hartes Governance‑Gerüst. Cloud ist ein Werkzeug, kein Ort für Ihre Rohdaten – in Europa und in sensiblen Industrien erst recht. Wenn Sie das ernst nehmen, sind 80 % der PdM‑„Probleme“ plötzlich lösbar – und Sie diskutieren wieder über Instandhaltungskennzahlen statt über Firewalls.

Wenn Sie dafür einen Partner suchen, der nicht nur „KI“ sagt, sondern produktionsreife Systeme baut – on‑prem, DSGVO‑konform, ohne US‑Cloud‑Abhängigkeit – sprechen Sie mit uns (→ alpitype.de/leistungen/).

FAQ

1) Wie erkenne ich Drift, wenn ich keine Labels habe?

  • Über statistische Metriken wie PSI und KL‑Divergenz auf Feature‑Distributionen, getrennt nach Betriebszuständen. Triggern Sie „gelb“ bei Drift und planen Sie eine Inspektion oder ein kontrolliertes Retraining. Wichtig: Drift ≠ Fehler; erst Kontext macht es verwertbar.

2) OPC UA oder MQTT für Edge‑Events?

  • Beides. OPC UA für strukturierte OT‑Daten/Modelle nahe an der Maschine, inklusive Discovery und Typ‑System. MQTT für schlanke, robuste, WAN‑taugliche Telemetrie/Events mit QoS und Retain. Brücken Sie in Ihrem On‑Prem‑Core. Für harte Latenz/Determinismus in der Zelle: OPC UA PubSub über UDP.

3) Kann ich Deep Learning auf dem Edge sinnvoll einsetzen?

  • Ja, aber leichtgewichtig und quantisiert. 1D‑CNN/Autoencoder mit <1 Mio. Parametern laufen als INT8 auf ARM‑Cores. Große Spektrogramm‑Transformer gehören on‑prem. In der Praxis schlagen gut gebaute klassische Features + kleiner AE oft „große“ Netze im Edge‑Budget.

4) Wie rolle ich Modelle sicher auf 500 Edge‑Knoten aus?

  • Artefakte signieren, Versionen strikt tracken, Canary auf 1–5 % der Flotte, automatisches Health‑Signal, A/B‑Slots mit schnellem Rollback. Zertifikate im TPM, mTLS für Pull vom on‑prem Registry. Telemetrie zentral auswerten (Latenz, Score‑Shift, Fehlerquote), dann breit ausrollen.

5) Wie verhindere ich das „SSD‑Sterben“ durch Dauerschreiben?

  • Ringpuffer voralloziieren, Logs drosseln, noatime, Kompression mit Blick auf CPU‑Budget (LZ4), nur Events persistieren, alles andere in RAM‑Puffern halten. Überwachen Sie Schreibvolumina und planen Sie TBW‑Reserven. Container‑Logs: max‑size/rotate setzen.

Über AlpiType

Wir bauen industrielle KI‑Systeme, keine POCs. Mit Fokus auf Souveränität, On‑Prem‑Betrieb und Governance. In Textil, Bahn, Fertigung und weiteren Branchen liefern wir produktionsreife PdM‑Lösungen – von Anforderung über Architektur und Softwareentwicklung bis Qualitätssicherung. Produktseitig unterstützen wir die Observability & Governance Ihrer ML‑Infrastruktur mit Alpi‑M – on‑prem, DSGVO‑konform, ohne US‑Cloud‑Abhängigkeit (→ alpitype.de/leistungen/).