6) Feldbus, IO und Handshake-Realität
- Digital-IO vs Feldbus: Für sehr knappe Budgets ist ein dediziertes Digital-IO-Paar (Req/Ack/Valid/Result-Bits) oft robuster. Für integrierte Diagnosen/Traceability im Leitsystem bietet Feldbus (Profinet, EtherCAT) Vorteile, aber beachten Sie den SPS-Zyklus.
- Lese-/Schreibdisziplin: Ergebnisbits werden doppelt geschrieben (Shadow + Active), Valid schaltet per Write-Barrier. Auf SPS-Seite erst lesen, wenn Valid=1, dann Quittung setzen, erst dann löscht Vision wieder. So vermeiden Sie Gleitbedingungen.
- Debounce/Timeout in der SPS: Ein eigener SFC/FB, der „Inspect_Req“ setzt, auf „Valid/Timeout“ wartet, Ergebnis übernimmt und deterministisch weiter schaltet. Kein „Nebenbei“-Polling im Zykluscode.
7) Qualität vs Latenz: Die echten Trade-offs
- Auflösung vs Kontrast: Höhere Auflösung erhöht Inferenz- und Preprocessing-Zeit. Oft bringt bessere Beleuchtung/Optik mehr als Megapixel.
- Modellarchitektur: Schmale, latency-optimierte Netze (MobileNet-, Efficient*-Klassen, praxistauglich abgespeckt) statt schwerer Backbones. Quantisierung spart Latenz, kann aber Grenzfälle kosten – deshalb mit produktspezifischen Edge-Cases evaluieren.
- Postprocessing: Aufwendig ist oft NMS/Geometrie. Einfache, deterministische Regeln nach dem Netz können die Entscheidung stabiler und schneller machen als hochkomplexe Postprozesse.
8) Fehlerszenarien konsequent behandeln
- Zu spätes Ergebnis: „Timeout“-Pfad aktiv, SPS schaltet definierte Reaktion (Ausschleusen/Stop). Kein „Best Effort“ in die Steuerkette durchschmuggeln.
- Frame-Drops/CRC: Kamera-/Grabber-Statistiken weisen darauf hin. Wenn Drop-Quote steigt: Hardware checken, aber im Betrieb entscheidet sofort der Timeout-Pfad.
- Modell-Unsicherheit: Wenn das Netz unsicher ist (Score-Band), definierter „Unsicher“-Zweig mit konservativer Entscheidung.
- Health-Monitoring: Heartbeat vom Vision-System, Watchdog auf SPS-Seite. Wenn Heartbeat ausfällt: sichere Default-Strategie.
9) Validierung: Messen, nicht schätzen
- Messaufbau: Zwei GPIO/DO-Linien an Oszilloskop/Logikanalysator. Linie A: „Inspect_Req“ (SPS). Linie B: „Inspect_Valid“ (Vision). Optional dritte Linie: „Belichtung aktiv“ oder „Inference start“. So messen Sie reale End-to-End-Latenz und Jitter hardwarenah.
- Statistik: Histogramm, Perzentile, keine Mittelwerte schönt. Akzeptanzkriterium ist die Einhaltung des definierten 99,9%-Budgets plus Sicherheitsmarge.
- Worst-Case-Tests: Beleuchtung degradieren, thermisch vorheizen, konkurrierende IO-Lasten simulieren. Erst wenn dann stabil: freigeben.
10) Edge vs Cloud: Keine Glaubensfrage, sondern Physik und Souveränität
- Inferenz muss an die Linie, Punkt. Latenz, Verfügbarkeit, Unabhängigkeit vom WAN – alles spricht dafür. Die Cloud hat in diesem Setup zwei Aufgaben: Modelldesign/Training und Flotten-Telemetrie außerhalb des Echtzeitpfads.
- Datenhoheit: Bilddaten aus Fertigungslinien enthalten in Europa oft IP-relevante Details. On-Prem-Training und -Speicherung vermeiden unnötige rechtliche Komplexität und reduzieren Angriffsflächen.
11) MLOps in OT: Air-Gapped, signiert, rollback-fähig
- Artefakte: Modelle als signierte, versionierte Artefakte (Engine/Weights + Pre-/Post-Config + Kalibrierung). SBOM für das Runtime-Image.
- Verteilung: Offline-Registry-Mirror in der DMZ, signaturgeprüfte Promotion (Dev → Staging-Linie → Produktion). Kein spontanes „pip install“ hinter der Linie.
- Blue/Green-Deployment: Zweite Instanz zeitgleich mit Shadow-Traffic füttern, Latenz/Ergebnisdifferenz messen, dann umschalten. Rollback-Knopf muss existieren.
- Observability: Inferenzlatenz, Droprates, Temperatursensorik, Scoreverteilung loggen. Keine personenbezogenen Daten, aber ausreichende Telemetrie für Drift-Detektion und Wartung. Für generative/agentische Komponenten braucht es zusätzlich Observability & Governance – Prinzip bleibt: Produktion bleibt souverän und auditierbar (→ alpitype.de/leistungen/).
12) Beispiel aus der Praxis: Schraubplatz-Inspektion an einer Montagezelle
Ausgangslage: Eine Zelle montiert 8 Schrauben pro Bauteil. Die SPS taktet die Station; Taktzeit knapp. Aufgabe: Verifizieren, ob alle Schrauben vorhanden, richtig positioniert und ohne Lackeinschluss sind.
Technische Umsetzung:
- Hardware-Trigger von der SPS, sobald der Schraubkopf an Position ist. Strobe-Beleuchtung schräg, um Kantenkontrast zu maximieren.
- Kamera über deterministische Schnittstelle, PTP-synchronisiert mit Vision-PC.
- Vision-Pipeline: Pre-allocierte Puffer, GPU-Preprocessing, quantisierte Detektor-Architektur, Score-basiertes Postprocessing mit engen Schwellwerten.
- Handshake: Pro Schraube ein „Inspection Ticket“ mit ID (Position 1..8). Ergebnisbits in einem Feldbus-Array, Valid-Bit pro Position.
- Failover: Timeout führt zur sofortigen Ausschleusung, nicht zur Weiterfahrt.
- Validierung: Per Oszilloskop Latenz-Distribution gemessen, 99,9%-Perzentil innerhalb Budget, zusätzliche Sicherheitsmarge.
Ergebnis: Nicht die maximalen mAP-Prozentpunkte waren erfolgskritisch, sondern ein knallhartes, deterministisches Handshake- und Zeitbudget-Design. Genau das unterscheidet einen PoC von einer produktiven Lösung.
13) Skalierung: Mehr Kameras, mehr Stationen, gleiche Prinzipien
- Pipeline-Pro-Station: Pro Station eigener Prozess/Container mit dediziertem CPU/GPU-Anteil. Interferenz reduzieren.
- Scheduling: Kamera-Trigger so entflechten, dass sie nicht alle dieselbe GPU-Zeit beanspruchen. Entweder zeitlich versetzt triggern oder GPU partitionieren.
- Netzwerk: Dedizierte VLANs für Bilddaten, QoS/Traffic Shaping. Kein Mischbetrieb mit generischem Office-Traffic.
- Zentraler Überblick: Telemetrie in ein On-Prem-Observability-System einspeisen, Alarme bei Latenz-/Drop-Anomalien.
14) Häufige Anti-Pattern (bitte vermeiden)
- „Cloud-Inferenz“ für harte Inline-Entscheidungen. Sie wird immer zum Nadelöhr – physikalisch und betrieblich.
- Python-Skripte direkt an der Linie ohne Ressourcen- und Scheduler-Kontrolle. Schnell gebaut, später unbeherrschbar.
- Software-Trigger via Timer ohne Hardware-Handshake. Jitter vorprogrammiert.
- On-the-fly Modelldownloads/Updates in der Schicht. Risiko ohne Not.
- Keine definierte Timeout-Strategie. Der schlimmste Zustand ist stilles Wegoptimieren von Fehlern.
Fazit
Echtzeit-Vision in der Produktion ist kein Deep-Learning-Problem, sondern ein Takt- und Determinismusproblem. Wer erfolgreich deployen will, zwingt die KI in den SPS-Takt: Hardware-Trigger, deterministische Puffer, prekompilierte Engines, feste Ressourcen, messbares Handshake. Alles andere – Architekturentscheidungen, Modellwahl, Infrastruktur – folgt diesem Primat. Edge statt Cloud ist hier kein Glaubensbekenntnis, sondern eine Konsequenz aus Physik, Sicherheit und Souveränität. Wer das beherzigt, baut produktionsreife Systeme statt PoCs auf Stelzen.