Imported Post 2026-04-15 00:17:31

Monitoring und Observability: P50 ist Kosmetik, P99 regiert

Metriken pro Kamera/Variante:

Latenz-Histogramme (Capture, Pre, Infer, Post, Handshake) mit P50/P95/P99

Queue-Tiefen, Dropped Frames, Watchdog-Events

Entscheidungsraten (OK/NOK/Unknown), False Reject/Accept gegen Stichproben-Ground-Truth

Daten-/Kontextdrift: Verteilungen von Helligkeit, Textur-Embeddings, Feature-Drift (KL-Divergenz, PSI)

Telemetrie: Prometheus-Endpoints, Grafana-Dashboards on-prem. Logs strukturiert (JSON), zentral via Loki/ELK. Keine personenbezogenen Daten, keine Seriennummern ohne Zweck – Datenschutz gilt auch in der Fabrik.

Alarmierung: Regeln auf P95/P99 und Watchdog, nicht nur auf „Service down“. Trends (latente Drift) sind wichtiger als Singularereignisse.

Datenstrategie: Ringpuffer statt Datensee

On-Edge-Ringpuffer: NVMe-Ring für Rohbilder und Crop-ROIs der letzten X Stunden/Tage, inklusive Metadaten (Variante, Entscheidung, Konfidenz, Timing). Speicherverbrauch pro Kamera kalkulieren und harte Grenzen setzen.

Sampling für Labeling: Aktiv lernend samplen – Fälle mit niedriger Konfidenz, Edge-Cases aus Produktionswechseln, saisonale Materialänderungen. Kein blindes Vollarchiv.

Export: Zeitfenster in Schichtwechseln, über gesicherte, signierte Pakete (z. B. OSTree/rsync mit Hash-Prüfung) ins On-Prem-Trainingscluster. Kein Internetzwang, keine Cloudabhängigkeit.

Deployment und Updates ohne Linienstillstand

Packaging: OCI-Container mit minimalen Base-Images, GPU-Runtime vorbereitet (NVIDIA Container Toolkit). Read-only RootFS, App-Config via deklarativer YAML; Secrets im lokalen Vault.

Orchestrierung: K3s oder Systemd-Services je nach Komplexität. Für 1–3 Services ist Systemd oft robuster. Für Flotten: K3s mit node-selectors pro Station.

Signaturen und SBOM: Images signieren (cosign), SBOM generieren, Policies in Admission (selbst gehostet) prüfen. In der Industrieumgebung ist Supply-Chain-Sicherheit kein Luxus.

Update-Strategie: A/B-Partitionen (RAUC/Mender), Canary-Deployment stationenweise, Rollback automatisch bei Health-Check-Verlust. Updates geplant im SMED-Fenster, nicht „freitags nach 16 Uhr“.

Kompatibilität: Modellversionen als Teil der Contract-ID zwischen Vision und SPS (z. B. ModelMajor in einem Register). Bricht der Contract, startet kein Update.

Validierung: Akzeptanzkriterien wie bei Messmitteln, nicht wie bei Apps

Abnahmeplan: Messsystemanalyse analog Gage R&R – Wiederholbarkeit und Reproduzierbarkeit der Vision-Entscheidung über Schichten, Bediener, Materialchargen.

Testmatrizen: Varianten- und Störfallmatrix (Belichtung ±20 %, Verschmutzung, Förderbandgeschwindigkeit ±10 %, Vibration). Jede Zeile hat ein Ziel-KPI (z. B. False Reject < 0.5 %).

Traceability: Trainingsdaten-Herkunft, Label-Qualität (Double-Label, Konfliktquote), Preprocessing-Hashes, TensorRT-Engine-Hashes. Ohne Traceability ist jedes Audit ein Risiko.

Dokumentation: Funktionsspezifikation, Schnittstellenbeschreibung (SPS), Latenzbudgets, Fehlermodi- und Auswirkungen-Analyse (FMEA), Abnahmeprotokolle. „Modell hat 95 % Accuracy“ ist kein Abnahmekriterium.

Edge vs. Zentrales Edge-Cluster vs. Cloud

Edge pro Station: Wenn Zykluszeiten <200 ms sind oder das Bild vor Ort entsteht (kurze Trigger-Deterministik, lokale Beleuchtungssteuerung), gewinnt der dedizierte Edge-Knoten. Minimaler Jitter, geringe Abhängigkeiten.

Zentrales Edge-Cluster: Sinnvoll, wenn viele Kameras mit heterogener Auslastung existieren und das Netzwerk TSN-fähig ist (10/25 GbE, PTP end-to-end). Dann laufen Capture nahe der Kamera, Inferenz im Cluster (RPC über RDMA/ZeroMQ mit QoS).

Cloud: Produktionsinferenz scheidet in aller Regel aus – Latenz, Jitter, Verfügbarkeit, und Souveränität. Cloud bleibt für Offline-Training, Experimentmanagement, falls Datenhoheit/DSGVO-konform replizierbar; dennoch bevorzugen wir On-Prem-Trainingscluster. Souveränität ermöglicht Intelligenz – nicht umgekehrt.

Konkrete Praxis-Szenarien

Druckguss-Teile, Oberflächendefekte: Hoher Glanz, wechselnde Reflexe. Lösung: Polarisationsoptik, Cross-Polarisation, ROI auf kritische Kanten, Segmentationskopf mit INT8. Trigger aus SPS, Strobe 20 µs. Ergebnis: stabile P99<100 ms durch aggressive ROI und quantisierte Post-Processing-Kerne. False Rejects minimiert durch kostenbasierte Schwellen je Gehäusetyp.

Leiterplattenmontage (THT Missing/Skew): Mehrere Kameras, parallele Trigger entlang der Linie. Lösung: Orchestrierung mit K3s, jede Kamera eigener Pod, zentraler Zeitserver (PTP). Resultataggregation in 15 ms. Entscheidungssignale pro Station über Profinet, Variantenverwaltung aus MES per OPC UA asynchron (nicht im Echtzeitpfad).

Textilfertigung, Fadenspannung/Gewebeanomalien: Kontinuierliche Bahn, hohe Geschwindigkeit. Lösung: Encoder-gekoppelter Trigger, Rolling-ROI entlang der Bahn, leichter CNN-Backbone, kontinuierliche Driftüberwachung der Textur-Embeddings. Bei Driftwarnung automatische Erhöhung der Samplingrate für manuelle Kontrolle.

Fehlermodi, die wir wiederholt gesehen haben (und wie man sie verhindert)

Python im Hot Path: GIL-Stalls und Garbage Collector verursachen P99-Ausreißer. Verhindern: C++-Hot-Path, Python nur für Orchestrierung.

„OPC UA reicht schon“: Polling-Latenz und Jitter bringen Handshakes durcheinander. Verhindern: IO-Echtzeitprotokoll für Resultate, OPC UA für Stammdaten.

„Mittelwert sieht gut aus“: P99 kollabiert bei Backpressure. Verhindern: Backpressure-Signale an SPS, harte Abbrüche statt wachsender Queues.

USB-Hubs und lange Kabel: Sporadische Resets, Frame-Drops. Verhindern: Industrielle Kamerainterfaces, geprüfte Kabellängen, Verriegelungen.

Unrepräsentative INT8-Kalibrierung: Drift nach Schichtwechsel (neue Charge, andere Reflektion). Verhindern: Kalibriersets aus allen Schichten/Materialien; laufendes Recalibration-Programm.

Governance der KI-Artefakte on-prem

Versionsverwaltung: Modelle, Pre-/Postprozessoren und Kalibrierdateien versioniert als atomare Einheiten. Jede Produktionsstation pinnt auf explizite Versionen.

Audit-Trails: Entscheidung + Modellhash + Pipelinehash + Sensorkontext. Ohne diesen Hash-Verbund sind Ursachenanalysen Kaffeesatzleserei.

Zugriffsmodelle: Rollenbasiert, getrennt nach „bedienen“, „parametrisieren“, „deployen“. Kein SSH in der Linie, sondern deklarative, genehmigte Changes. On-prem-Registry; keine US-Cloud-Abhängigkeit. (→ alpitype.de/leistungen/)

Mein Fazit
In der Fabrik zählt deterministisches Verhalten, nicht Model-Buzzwords. Wer Inline-Inspektion ernsthaft produktiv bringen will, plant von der SPS abwärts: Handshake, Trigger, harte Latenzbudgets, P99 statt Mittelwert, Fail-Safe-Pfade. Edge ist unter diesen Randbedingungen keine Philosophiefrage, sondern eine technische Notwendigkeit. Und Souveränität – Daten, Modelle, Deployments – ist die Voraussetzung, um diese Systeme zu beherrschen. Souveränität ermöglicht Intelligenz.

FAQ