Monitoring und Observability: P50 ist Kosmetik, P99 regiert
- Metriken pro Kamera/Variante:
- Latenz-Histogramme (Capture, Pre, Infer, Post, Handshake) mit P50/P95/P99
- Queue-Tiefen, Dropped Frames, Watchdog-Events
- Entscheidungsraten (OK/NOK/Unknown), False Reject/Accept gegen Stichproben-Ground-Truth
- Daten-/Kontextdrift: Verteilungen von Helligkeit, Textur-Embeddings, Feature-Drift (KL-Divergenz, PSI)
- Telemetrie: Prometheus-Endpoints, Grafana-Dashboards on-prem. Logs strukturiert (JSON), zentral via Loki/ELK. Keine personenbezogenen Daten, keine Seriennummern ohne Zweck – Datenschutz gilt auch in der Fabrik.
- Alarmierung: Regeln auf P95/P99 und Watchdog, nicht nur auf „Service down“. Trends (latente Drift) sind wichtiger als Singularereignisse.
Datenstrategie: Ringpuffer statt Datensee
- On-Edge-Ringpuffer: NVMe-Ring für Rohbilder und Crop-ROIs der letzten X Stunden/Tage, inklusive Metadaten (Variante, Entscheidung, Konfidenz, Timing). Speicherverbrauch pro Kamera kalkulieren und harte Grenzen setzen.
- Sampling für Labeling: Aktiv lernend samplen – Fälle mit niedriger Konfidenz, Edge-Cases aus Produktionswechseln, saisonale Materialänderungen. Kein blindes Vollarchiv.
- Export: Zeitfenster in Schichtwechseln, über gesicherte, signierte Pakete (z. B. OSTree/rsync mit Hash-Prüfung) ins On-Prem-Trainingscluster. Kein Internetzwang, keine Cloudabhängigkeit.
Deployment und Updates ohne Linienstillstand
- Packaging: OCI-Container mit minimalen Base-Images, GPU-Runtime vorbereitet (NVIDIA Container Toolkit). Read-only RootFS, App-Config via deklarativer YAML; Secrets im lokalen Vault.
- Orchestrierung: K3s oder Systemd-Services je nach Komplexität. Für 1–3 Services ist Systemd oft robuster. Für Flotten: K3s mit node-selectors pro Station.
- Signaturen und SBOM: Images signieren (cosign), SBOM generieren, Policies in Admission (selbst gehostet) prüfen. In der Industrieumgebung ist Supply-Chain-Sicherheit kein Luxus.
- Update-Strategie: A/B-Partitionen (RAUC/Mender), Canary-Deployment stationenweise, Rollback automatisch bei Health-Check-Verlust. Updates geplant im SMED-Fenster, nicht „freitags nach 16 Uhr“.
- Kompatibilität: Modellversionen als Teil der Contract-ID zwischen Vision und SPS (z. B. ModelMajor in einem Register). Bricht der Contract, startet kein Update.
Validierung: Akzeptanzkriterien wie bei Messmitteln, nicht wie bei Apps
- Abnahmeplan: Messsystemanalyse analog Gage R&R – Wiederholbarkeit und Reproduzierbarkeit der Vision-Entscheidung über Schichten, Bediener, Materialchargen.
- Testmatrizen: Varianten- und Störfallmatrix (Belichtung ±20 %, Verschmutzung, Förderbandgeschwindigkeit ±10 %, Vibration). Jede Zeile hat ein Ziel-KPI (z. B. False Reject < 0.5 %).
- Traceability: Trainingsdaten-Herkunft, Label-Qualität (Double-Label, Konfliktquote), Preprocessing-Hashes, TensorRT-Engine-Hashes. Ohne Traceability ist jedes Audit ein Risiko.
- Dokumentation: Funktionsspezifikation, Schnittstellenbeschreibung (SPS), Latenzbudgets, Fehlermodi- und Auswirkungen-Analyse (FMEA), Abnahmeprotokolle. „Modell hat 95 % Accuracy“ ist kein Abnahmekriterium.
Edge vs. Zentrales Edge-Cluster vs. Cloud
- Edge pro Station: Wenn Zykluszeiten <200 ms sind oder das Bild vor Ort entsteht (kurze Trigger-Deterministik, lokale Beleuchtungssteuerung), gewinnt der dedizierte Edge-Knoten. Minimaler Jitter, geringe Abhängigkeiten.
- Zentrales Edge-Cluster: Sinnvoll, wenn viele Kameras mit heterogener Auslastung existieren und das Netzwerk TSN-fähig ist (10/25 GbE, PTP end-to-end). Dann laufen Capture nahe der Kamera, Inferenz im Cluster (RPC über RDMA/ZeroMQ mit QoS).
- Cloud: Produktionsinferenz scheidet in aller Regel aus – Latenz, Jitter, Verfügbarkeit, und Souveränität. Cloud bleibt für Offline-Training, Experimentmanagement, falls Datenhoheit/DSGVO-konform replizierbar; dennoch bevorzugen wir On-Prem-Trainingscluster. Souveränität ermöglicht Intelligenz – nicht umgekehrt.
Konkrete Praxis-Szenarien
- Druckguss-Teile, Oberflächendefekte: Hoher Glanz, wechselnde Reflexe. Lösung: Polarisationsoptik, Cross-Polarisation, ROI auf kritische Kanten, Segmentationskopf mit INT8. Trigger aus SPS, Strobe 20 µs. Ergebnis: stabile P99<100 ms durch aggressive ROI und quantisierte Post-Processing-Kerne. False Rejects minimiert durch kostenbasierte Schwellen je Gehäusetyp.
- Leiterplattenmontage (THT Missing/Skew): Mehrere Kameras, parallele Trigger entlang der Linie. Lösung: Orchestrierung mit K3s, jede Kamera eigener Pod, zentraler Zeitserver (PTP). Resultataggregation in 15 ms. Entscheidungssignale pro Station über Profinet, Variantenverwaltung aus MES per OPC UA asynchron (nicht im Echtzeitpfad).
- Textilfertigung, Fadenspannung/Gewebeanomalien: Kontinuierliche Bahn, hohe Geschwindigkeit. Lösung: Encoder-gekoppelter Trigger, Rolling-ROI entlang der Bahn, leichter CNN-Backbone, kontinuierliche Driftüberwachung der Textur-Embeddings. Bei Driftwarnung automatische Erhöhung der Samplingrate für manuelle Kontrolle.
Fehlermodi, die wir wiederholt gesehen haben (und wie man sie verhindert)
- Python im Hot Path: GIL-Stalls und Garbage Collector verursachen P99-Ausreißer. Verhindern: C++-Hot-Path, Python nur für Orchestrierung.
- „OPC UA reicht schon“: Polling-Latenz und Jitter bringen Handshakes durcheinander. Verhindern: IO-Echtzeitprotokoll für Resultate, OPC UA für Stammdaten.
- „Mittelwert sieht gut aus“: P99 kollabiert bei Backpressure. Verhindern: Backpressure-Signale an SPS, harte Abbrüche statt wachsender Queues.
- USB-Hubs und lange Kabel: Sporadische Resets, Frame-Drops. Verhindern: Industrielle Kamerainterfaces, geprüfte Kabellängen, Verriegelungen.
- Unrepräsentative INT8-Kalibrierung: Drift nach Schichtwechsel (neue Charge, andere Reflektion). Verhindern: Kalibriersets aus allen Schichten/Materialien; laufendes Recalibration-Programm.
Governance der KI-Artefakte on-prem
- Versionsverwaltung: Modelle, Pre-/Postprozessoren und Kalibrierdateien versioniert als atomare Einheiten. Jede Produktionsstation pinnt auf explizite Versionen.
- Audit-Trails: Entscheidung + Modellhash + Pipelinehash + Sensorkontext. Ohne diesen Hash-Verbund sind Ursachenanalysen Kaffeesatzleserei.
- Zugriffsmodelle: Rollenbasiert, getrennt nach „bedienen“, „parametrisieren“, „deployen“. Kein SSH in der Linie, sondern deklarative, genehmigte Changes. On-prem-Registry; keine US-Cloud-Abhängigkeit. (→ alpitype.de/leistungen/)
Mein Fazit
In der Fabrik zählt deterministisches Verhalten, nicht Model-Buzzwords. Wer Inline-Inspektion ernsthaft produktiv bringen will, plant von der SPS abwärts: Handshake, Trigger, harte Latenzbudgets, P99 statt Mittelwert, Fail-Safe-Pfade. Edge ist unter diesen Randbedingungen keine Philosophiefrage, sondern eine technische Notwendigkeit. Und Souveränität – Daten, Modelle, Deployments – ist die Voraussetzung, um diese Systeme zu beherrschen. Souveränität ermöglicht Intelligenz.
FAQ