Monitoring und Observability: P50 ist Kosmetik, P99 regiert

  • Metriken pro Kamera/Variante:
  • Latenz-Histogramme (Capture, Pre, Infer, Post, Handshake) mit P50/P95/P99
  • Queue-Tiefen, Dropped Frames, Watchdog-Events
  • Entscheidungsraten (OK/NOK/Unknown), False Reject/Accept gegen Stichproben-Ground-Truth
  • Daten-/Kontextdrift: Verteilungen von Helligkeit, Textur-Embeddings, Feature-Drift (KL-Divergenz, PSI)
  • Telemetrie: Prometheus-Endpoints, Grafana-Dashboards on-prem. Logs strukturiert (JSON), zentral via Loki/ELK. Keine personenbezogenen Daten, keine Seriennummern ohne Zweck – Datenschutz gilt auch in der Fabrik.
  • Alarmierung: Regeln auf P95/P99 und Watchdog, nicht nur auf „Service down“. Trends (latente Drift) sind wichtiger als Singularereignisse.

Datenstrategie: Ringpuffer statt Datensee

  • On-Edge-Ringpuffer: NVMe-Ring für Rohbilder und Crop-ROIs der letzten X Stunden/Tage, inklusive Metadaten (Variante, Entscheidung, Konfidenz, Timing). Speicherverbrauch pro Kamera kalkulieren und harte Grenzen setzen.
  • Sampling für Labeling: Aktiv lernend samplen – Fälle mit niedriger Konfidenz, Edge-Cases aus Produktionswechseln, saisonale Materialänderungen. Kein blindes Vollarchiv.
  • Export: Zeitfenster in Schichtwechseln, über gesicherte, signierte Pakete (z. B. OSTree/rsync mit Hash-Prüfung) ins On-Prem-Trainingscluster. Kein Internetzwang, keine Cloudabhängigkeit.

Deployment und Updates ohne Linienstillstand

  • Packaging: OCI-Container mit minimalen Base-Images, GPU-Runtime vorbereitet (NVIDIA Container Toolkit). Read-only RootFS, App-Config via deklarativer YAML; Secrets im lokalen Vault.
  • Orchestrierung: K3s oder Systemd-Services je nach Komplexität. Für 1–3 Services ist Systemd oft robuster. Für Flotten: K3s mit node-selectors pro Station.
  • Signaturen und SBOM: Images signieren (cosign), SBOM generieren, Policies in Admission (selbst gehostet) prüfen. In der Industrieumgebung ist Supply-Chain-Sicherheit kein Luxus.
  • Update-Strategie: A/B-Partitionen (RAUC/Mender), Canary-Deployment stationenweise, Rollback automatisch bei Health-Check-Verlust. Updates geplant im SMED-Fenster, nicht „freitags nach 16 Uhr“.
  • Kompatibilität: Modellversionen als Teil der Contract-ID zwischen Vision und SPS (z. B. ModelMajor in einem Register). Bricht der Contract, startet kein Update.

Validierung: Akzeptanzkriterien wie bei Messmitteln, nicht wie bei Apps

  • Abnahmeplan: Messsystemanalyse analog Gage R&R – Wiederholbarkeit und Reproduzierbarkeit der Vision-Entscheidung über Schichten, Bediener, Materialchargen.
  • Testmatrizen: Varianten- und Störfallmatrix (Belichtung ±20 %, Verschmutzung, Förderbandgeschwindigkeit ±10 %, Vibration). Jede Zeile hat ein Ziel-KPI (z. B. False Reject < 0.5 %).
  • Traceability: Trainingsdaten-Herkunft, Label-Qualität (Double-Label, Konfliktquote), Preprocessing-Hashes, TensorRT-Engine-Hashes. Ohne Traceability ist jedes Audit ein Risiko.
  • Dokumentation: Funktionsspezifikation, Schnittstellenbeschreibung (SPS), Latenzbudgets, Fehlermodi- und Auswirkungen-Analyse (FMEA), Abnahmeprotokolle. „Modell hat 95 % Accuracy“ ist kein Abnahmekriterium.

Edge vs. Zentrales Edge-Cluster vs. Cloud

  • Edge pro Station: Wenn Zykluszeiten <200 ms sind oder das Bild vor Ort entsteht (kurze Trigger-Deterministik, lokale Beleuchtungssteuerung), gewinnt der dedizierte Edge-Knoten. Minimaler Jitter, geringe Abhängigkeiten.
  • Zentrales Edge-Cluster: Sinnvoll, wenn viele Kameras mit heterogener Auslastung existieren und das Netzwerk TSN-fähig ist (10/25 GbE, PTP end-to-end). Dann laufen Capture nahe der Kamera, Inferenz im Cluster (RPC über RDMA/ZeroMQ mit QoS).
  • Cloud: Produktionsinferenz scheidet in aller Regel aus – Latenz, Jitter, Verfügbarkeit, und Souveränität. Cloud bleibt für Offline-Training, Experimentmanagement, falls Datenhoheit/DSGVO-konform replizierbar; dennoch bevorzugen wir On-Prem-Trainingscluster. Souveränität ermöglicht Intelligenz – nicht umgekehrt.

Konkrete Praxis-Szenarien

  • Druckguss-Teile, Oberflächendefekte: Hoher Glanz, wechselnde Reflexe. Lösung: Polarisationsoptik, Cross-Polarisation, ROI auf kritische Kanten, Segmentationskopf mit INT8. Trigger aus SPS, Strobe 20 µs. Ergebnis: stabile P99<100 ms durch aggressive ROI und quantisierte Post-Processing-Kerne. False Rejects minimiert durch kostenbasierte Schwellen je Gehäusetyp.
  • Leiterplattenmontage (THT Missing/Skew): Mehrere Kameras, parallele Trigger entlang der Linie. Lösung: Orchestrierung mit K3s, jede Kamera eigener Pod, zentraler Zeitserver (PTP). Resultataggregation in 15 ms. Entscheidungssignale pro Station über Profinet, Variantenverwaltung aus MES per OPC UA asynchron (nicht im Echtzeitpfad).
  • Textilfertigung, Fadenspannung/Gewebeanomalien: Kontinuierliche Bahn, hohe Geschwindigkeit. Lösung: Encoder-gekoppelter Trigger, Rolling-ROI entlang der Bahn, leichter CNN-Backbone, kontinuierliche Driftüberwachung der Textur-Embeddings. Bei Driftwarnung automatische Erhöhung der Samplingrate für manuelle Kontrolle.

Fehlermodi, die wir wiederholt gesehen haben (und wie man sie verhindert)

  • Python im Hot Path: GIL-Stalls und Garbage Collector verursachen P99-Ausreißer. Verhindern: C++-Hot-Path, Python nur für Orchestrierung.
  • „OPC UA reicht schon“: Polling-Latenz und Jitter bringen Handshakes durcheinander. Verhindern: IO-Echtzeitprotokoll für Resultate, OPC UA für Stammdaten.
  • „Mittelwert sieht gut aus“: P99 kollabiert bei Backpressure. Verhindern: Backpressure-Signale an SPS, harte Abbrüche statt wachsender Queues.
  • USB-Hubs und lange Kabel: Sporadische Resets, Frame-Drops. Verhindern: Industrielle Kamerainterfaces, geprüfte Kabellängen, Verriegelungen.
  • Unrepräsentative INT8-Kalibrierung: Drift nach Schichtwechsel (neue Charge, andere Reflektion). Verhindern: Kalibriersets aus allen Schichten/Materialien; laufendes Recalibration-Programm.

Governance der KI-Artefakte on-prem

  • Versionsverwaltung: Modelle, Pre-/Postprozessoren und Kalibrierdateien versioniert als atomare Einheiten. Jede Produktionsstation pinnt auf explizite Versionen.
  • Audit-Trails: Entscheidung + Modellhash + Pipelinehash + Sensorkontext. Ohne diesen Hash-Verbund sind Ursachenanalysen Kaffeesatzleserei.
  • Zugriffsmodelle: Rollenbasiert, getrennt nach „bedienen“, „parametrisieren“, „deployen“. Kein SSH in der Linie, sondern deklarative, genehmigte Changes. On-prem-Registry; keine US-Cloud-Abhängigkeit. (→ alpitype.de/leistungen/)

Mein Fazit
In der Fabrik zählt deterministisches Verhalten, nicht Model-Buzzwords. Wer Inline-Inspektion ernsthaft produktiv bringen will, plant von der SPS abwärts: Handshake, Trigger, harte Latenzbudgets, P99 statt Mittelwert, Fail-Safe-Pfade. Edge ist unter diesen Randbedingungen keine Philosophiefrage, sondern eine technische Notwendigkeit. Und Souveränität – Daten, Modelle, Deployments – ist die Voraussetzung, um diese Systeme zu beherrschen. Souveränität ermöglicht Intelligenz.

FAQ