6) Latenzdisziplin: Wie man sich nicht selbst ins Knie schießt

  • Vorausallokation: Keine dynamischen Allokationen im Hot Path; TensorRT-Engines vorwärmen; CUDA Streams fix.
  • Zero-Copy: GStreamer mit nvbuf/cudaMem; vermeiden, dass CPU unnötig kopiert.
  • CPU/GPU-Affinitäten: Pinnen der Threads, isolcpus für Orchestrator-Noise; GPU-Boost fixieren, um Frequency-Throttling zu verhindern.
  • Batchgröße 1: Für Inline-Entscheidungen fast immer nötig. Micro-Batching nur, wenn Pufferstationen existieren.
  • Bildpfad stabilisieren: Konsistente Belichtung, synchronisierte Strobes, feste Weißabgleiche. Viele “KI-Probleme” sind in Wirklichkeit Beleuchtungsprobleme.
  • Watchdogs: Inferenz-Watchdog, der bei >T ms sofort UNKNOWN setzt und den Default-Pfad triggert. Keine “stillen” Hänger.

7) Artefakt-Governance on-prem

  • Versionierung: Modellversion = Semver + Dataset-Hash + Preprocessing-Signatur. Beispiel: 2.3.1+ds=f3c2a9+pp=resize640_normA.
  • Reproduzierbarkeit: Training-Rezepte (Container, Seeds, Lib-Versionen) als OCI-Image; SBOM pro Build; Cosign-Signaturen.
  • Golden Batch: Kuratierter, rechtssicherer Datensatz mit Traceability (Kamera, Optik, Beleuchtung, Linie, Charge). Nur damit wird freigegeben.
  • Air-gapped Delivery: Modelle/Container via signiertem Offline-Medium in die Registry importieren. Kein “schnell mal aus der Cloud ziehen”.
  • Blue/Green-Pipelines: Zwei Deployments im Orchestrator (k3s) mit festen Ressourcen-Requests/Limits, expliziten Device-Plugins (NVIDIA). Umschaltbar über ConfigMap/Feature-Flag, das das Decision-Gate liest.
  • Audit: Unveränderbare Logs, die Entscheidung + Modellhash + Input-Referenz verknüpfen. Retention klar definiert.

8) Schattenmodus trotz begrenzter GPU – Praktische Varianten

  • Full Shadow: Beide Modelle inferieren jeden Frame (beste Datenlage, doppelter Compute).
  • Sampling Shadow: Kandidat erhält jedes n-te Teil; genügt oft für Stabilitätsaussagen ohne Latenzrisiko.
  • Staged Shadow: Zeiten mit niedrigerer Auslastung (Schichtwechsel, Stillstände) für Replays nutzen: gespeicherte Frames/Geräte-Pipelines mit Timestamps erneut einspeisen.
  • Alternating Slots: Time-Slicing über CUDA Streams mit harten Deadlines: Blue hat Priorität 0, Green läuft opportunistisch; wenn Deadline nahe, wird Green abgebrochen.

9) Monitoring und Drift-Management, ohne Cloud-Telemetrie

  • Per-Inferenz-Metriken: Latenz-P95/P99, Confidence-Verteilungen, Häufigkeiten je Klasse, NMS-Statistiken.
  • Kontext-Metriken: Temperatur GPU/CPU, Kamera-Drop-Frames, Trigger-Jitter, Beleuchtungsintensität (falls Sensorik vorhanden).
  • Drift-Signale: Helligkeits-Histogramme, Farbverschiebung, Schärfemaß – und Korrelation mit Fehlerraten.
  • Label-Loop on-prem: Bedieneroberfläche für strittige Fälle (mit Rollen/Rechten). Periodische Retrainings ausschließlich mit geklärten, freigegebenen Labels.
  • Alarmierung: On-Prem-Alertmanager mit klaren Eskalationen; keine “toten Dashboards”.

10) Sicherheit und Souveränität

  • Netzwerk: MTLs zwischen Services (Service Mesh optional), Segmentierung (Prod-Netz vs. Engineering-Netz), keine offenen Admin-Oberflächen.
  • Supply Chain: Signierte Container, SBOM-Prüfung, keine “latest”-Tags in Produktion.
  • Zugriff: RBAC, Break-Glass-Verfahren mit Protokollierung, HMI-Umschaltung nur mit Vier-Augen-Freigabe je nach Kritikalität.
  • Keine US-Cloud-Abhängigkeit: Artefakte, Metriken, Backups – alles lokal. Externe Verbindungen sind aus, oder strikt proxied mit Whitelist.

11) Zwei konkrete Einsatzszenarien

  • Visuelle Inspektion von Schweißnähten (Automotive/Fahrzeugbau)
  • Herausforderung: Hohe Varianz in Oberflächenreflexionen, kurze Taktzeiten.
  • Lösung: Polarisierte Beleuchtung + fixe Kamerakalibrierung; Blue/Green mit Sampling Shadow (jedes 5. Bauteil) wegen GPU-Budget.
  • Gatekeeper-Regeln: False-Negatives dürfen nicht steigen; False-Positives dürfen innerhalb Toleranz sinken. Latenz-P99 < 60 ms.
  • Umschaltung: Zwischen zwei Karosserie-Losen via HMI und SPS-Freigabe.
  • Ergebnis: Reproduzierbarer Rollout ohne Nacharbeitsspitzen, QS kann pro Charge auditieren.

  • Farbton- und Gewebefehlerkontrolle (Textil)
  • Herausforderung: Langsame Drift der Beleuchtung und Kameras über Schichten, feine Farbnuancen.
  • Lösung: Drift-Monitoring (Histogramm/Weißpunkt), regelmäßige Golden-Batch-Replays während Schichtwechsel. Schattenmodus Full auf dedizierter Low-Profile-GPU.
  • Gatekeeper-Regeln: Stabilität der Farbmetriken über 24h; keine Erhöhung der “Rework”-Quote in Schattenkorrelation.
  • Rückrollbarkeit: One-click über HMI, Audit-Log mit Bildausschnitten für Schulung.

12) Typische Stolpersteine – und wie man sie vermeidet

  • “Wir schalten einfach um, wenn die Metrik grün ist”: Ohne Schattenmodus entsteht Blindflug. Immer reale Produktionsdaten heranziehen.
  • OPC UA für Hard-Realtime missbrauchen: Für 5–10 ms Fenster sind digitale IO oder echtzeitfähige Feldbus-Schnittstellen zuverlässiger.
  • Mixed Precision ändern ohne Golden Batch: Numerische Abweichungen verschieben Schwellen unbemerkt.
  • Hintergrund-Updater: Ein “harmloses” apt upgrade am Edge-Node mitten im Dreischichtbetrieb – bitte nie. Produktions-OS einfrieren, Changes nur über Freigabeprozess.
  • Kamera-/Optikwechsel ohne Requalifizierung: Modellversion ohne Optik-/Kalibrationsversion ist wertlos. Artefakte müssen gemeinsam versioniert werden.

13) Beispiel-Deployment (vereinfacht)

  • Zwei Deployments inference-blue und inference-green mit festen GPU-Ressourcen.
  • Decision-Gate konsumiert beide Topics (z. B. NATS/ZeroMQ) und steuert SPS-IO.
  • ConfigMap decision-policy enthält Schwellen und Umschaltstatus. HMI schreibt über ein kleines REST-Gateway in diese Policy (RBAC!).
  • Lokale Registry: harbor.local/ai/wafer-inspection:{2.3.1,2.4.0-cand}, signiert.
  • Golden-Batch-Runner: Offline-Service, der gespeicherte Frames/Crops wieder einspeist und KPIs berechnet. Ergebnisse werden im Audit-Store archiviert.

14) Warum wir so vorgehen – Position
Echtzeit-KI in der Fertigung ist kein Notebook-Science-Projekt. Ohne deterministische Pfade, robuste Umschaltmechanismen und strenge Souveränitätsprinzipien gewinnt man vielleicht ein paar Prozentpunkte im Offline-F1 – und verliert sie als Ausschuss wieder an der Linie. Cloud mag für Backoffice-Analysen oder Trainings nützlich sein; für Inline-Entscheidungen und Auditfähigkeit im DACH-Industriekontext ist Edge-first, On-Prem und Governance-orientiertes Engineering der einzige verantwortbare Weg. Modelle sind Komponenten – ersetzbar. Architektur, Regeln und Rückrollbarkeit sind die eigentlichen Assets.

Wenn Sie das mit einem Team umsetzen wollen, das solche Produktionsrealitäten vorher gesehen und gelöst hat: (→ alpitype.de/leistungen/)