7) Latenzmanagement auf dem Edge: P99 schlägt Durchschnitt

  • Pipelining: Frames durchlaufen Stufen (Capture, Preproc, Inferenz, Postproc) in einer Producer-Consumer-Pipeline mit bounded queues. Die Queue-Tiefe ist kritisch: zu tief = p99-Katastrophe. Lieber droppen als Schlange wachsen lassen.
  • Deadline-first Scheduling: Frames mit kürzerer Restzeit zuerst bearbeiten (Earliest Deadline First). Verhindert, dass ältere Frames jüngere überholen.
  • Warm-up: Modelle warmhalten, keine Power-Gating-Spitzen. Jede Kaltschicht startet in Shadow-Mode, bis p95 Latenz stabil ist.
  • Tail-Latenzmetriken: Messen und alarmieren auf p99 von Inferenz, Preproc und Übergabe getrennt. Nur so finden Sie Ausreißerquellen (z.B. sporadische NIC-IRQ-Stürme).

8) Modellierung: Genauigkeit vs. Taktzeit bewusst handeln

  • Binäre OK/NOK-Klassifikation schlägt vollumfängliches Segmentieren, wenn das Business-Ziel nur Ausschuss-Entscheidungen braucht. Postprocessing schrumpft.
  • Objekt-Detektion: NMS ist tail-latency-gefährlich. Alternativen: Center-based Decoder, Soft-NMS mit fixem Iterationsbudget oder kleine „head“-Netze mit linearem Decoder.
  • Quantisierung: INT8 mit Kalibrierung liefert oft 2–4x Speedup bei wenig Genauigkeitsverlust. Akzeptanzkritisch: wiederkehrende Latcheffekte vermeiden, also Kalibrierset repräsentativ halten.
  • Mehrere kleine Modelle > ein großes: Splitten nach Fehlerklassen, wenn es die Datenlage zulässt. Parallelisierung auf der GPU reduziert p99.

9) Übergabe-Logik in der SPS: Zustandsautomat statt „if score > 0.8 then NOK“
Statt nackter Schwellwerte nutzen wir in der SPS:

  • Hysterese: Zwei Grenzwerte für Rising/Falling, um Flip-Flop bei 0.79/0.81 zu verhindern.
  • Debounce-Zähler: Ein NOK wird erst nach k aufeinanderfolgenden NOKs scharf (abhängig von Prozess).
  • Mindestqualität: quality_flags müssen OK sein, sonst UNKNOWN. UNKNOWN wird behandelt wie definierter Fallback.
  • Sequenzprüfung: if seq != last_seq + 1 then Goto Fallback Pfad + Diagnosezähler hoch.

So entsteht deterministisches Verhalten, obwohl die Quelle probabilistisch ist.

10) Governance on-prem: Modelle wie Firmware behandeln
Wir sind kein Fan davon, Modelle wie flüchtige Assets zu behandeln. Für Produktionsumgebungen gilt:

  • Signierte Artefakte: Modelle (ONNX/TensorRT) und Preprocessing-Konfigs werden signiert. Der Edge lädt nur whitelisted Artefakte mit bekannter Fingerprint.
  • Reproduzierbare Builds: Container-Images sind deterministisch (fixierte Base, CUDA/TensorRT-Versionen gepinnt). Kein „pip install“ in der Linie.
  • Akzeptanztests vor Rollout:
  • Funktion: Fester Validierungsdatensatz mit deterministischer Metrik (z.B. F1@per-class).
  • Latenz: Benchmark auf Zielhardware unter Produktionslast (p50/p95/p99).
  • Robustheit: Jitter-Injektion in Capture/Netzwerk.
  • Rückroll-Test: Sofortiges Downgrade ohne Taktunterbrechung.
  • Shadow- und Blau/Grün-Deployment: Neues Modell läuft erst shadowed; bei Freigabe schaltet die SPS den „approved_model“ um (z.B. per Steuerwort), während das alte Modell weiter bereitsteht.
  • Observability: Zeitreihen zu Latenz, Dropped Frames, Sequence-Gaps, Score-Drift. Logs sind on-prem, DSGVO-konform. Keine Telemetrie außer Haus.

Für LLM-basierte Assistenzsysteme (z.B. für Werkerdokumentation, Störungsleitfäden) gelten ähnliche Governance-Prinzipien, ergänzt um Prompt-/Antwort-Logging, Rollback von Tooling-Policies und Zugriffssteuerung. Ohne Observability ist eine Produktionsintegration fahrlässig. (→ alpitype.de/leistungen/)

11) Praxisbeispiele aus Projekten

  • Visuelle Montageprüfung bei 120 Teilen/min
  • Problem: Orientierung und Vollständigkeit kleiner Bauteile, glänzende Oberflächen, stark schwankende Reflektionen.
  • Setup: Zwei synchron getriggerte GigE-Kameras, Stroboskoplicht, Edge-IPC mit RTX-GPU. PTP-Sync für Kamera und SPS.
  • Modell: Zwei kleine Detektoren (Teile-Orientierung, Teile-Vollständigkeit), INT8-quantisiert, zusammen p95 18 ms, p99 27 ms.
  • Handshake: Profinet IO, Telegrammzyklus 1 ms. Nachricht mit seq, deadline, decision, score, quality. TTL 80 ms.
  • SPS-Logik: Hysterese, Debounce=2, UNKNOWN führt zu mechanischer Ausschleusung in manuellen Check, Linie läuft weiter.
  • Ergebnis in Betrieb: Wegfall sporadischer Bandstopps. Hauptursache vor Projekt: Nachlaufende Frames ohne Deadlineprüfung fütterten veraltete Entscheidungen in die SPS.
  • Textilfertigung – Predictive Maintenance an Nadelmaschinen
  • Problem: Vibrationssensorik liefert hochfrequente Daten; Ziel ist frühzeitige Anomalieerkennung ohne Fehlalarme.
  • Setup: Edge-Controller nahe Maschine, Feature-Extraktion (STFT, spektrale Peaks), leichter Anomaliedetektor. Entscheidungen werden per OPC UA an die Linien-SPS publiziert—keine Echtzeit nötig, aber deterministische Aggregationsfenster.
  • Governance: On-prem Feature-/Modell-Registry, signierte Updates. Shadow-Fase über 6 Wochen zur Driftbeobachtung.
  • Bin-Picking mit KI-gesteuerter Greiferwahl
  • Problem: Auswahl des passenden Greifpunkts unter Zeitdruck, Greiferwechsel kostet 300 ms.
  • Setup: 3D-Kamera, Inferenz für Greifpunkt plus Qualitätsvektor. SPS bekommt top-1 und top-2 Greifpunkt mit Deadlines. Fallback-Regel: Wenn top-1 Quality < Schwelle oder Deadline überschritten, nutze top-2; sonst Standard-Greifer.
  • Ergebnis: Greiferwechsel nur noch bei Bedarf; Linie blieb deterministisch dank Deadline/Qualitäts-Handshake.

12) Teststrategie: HIL, deterministische Replays, Fehler provozieren

  • Hardware-in-the-Loop (HIL): SPS-Programm und Edge laufen wie in der Linie, Kamera wird durch deterministische Replays ersetzt. Netzwerktiming wird synthetisch gestört (Paketverluste, Burst-Jitter).
  • Freeze-Time-Replays: Gleiche Capture-Timestamps, identische Reihenfolge, so dass Latenz- und Entscheidungsvergleiche reproduzierbar sind.
  • Negative Tests: Überlange Belichtung, absichtliche Blendung, GPU-Drosselung. Ziel: Fallback greift, Linie bleibt stabil.
  • Audit Trails: Jede produktive NOK-Entscheidung ist später mit Bild, Modell-Fingerprint und Parametern nachvollziehbar.

13) Edge vs. zentrale KI-Services: bewusst trennen

  • Edge-Inferenz: Latenz, deterministische Übergabe, Prozessnähe. Keine Abhängigkeit von WAN/Cloud.
  • Zentrale Services on-prem: Trainingscluster, Label-Server, Feature Stores, Metrikdatenbank. Kommunikation asynchron, batch-orientiert, entkoppelt vom Takt.
  • Kein Mischmasch: Produktionsentscheidung darf nicht auf einen zentralen Service warten. Telemetrie und Training dürfen niemals die Echtzeit einschränken.