Imported Post 2026-04-27 00:12:14

6) Latenzdisziplin: Wie man sich nicht selbst ins Knie schießt

Vorausallokation: Keine dynamischen Allokationen im Hot Path; TensorRT-Engines vorwärmen; CUDA Streams fix.

Zero-Copy: GStreamer mit nvbuf/cudaMem; vermeiden, dass CPU unnötig kopiert.

CPU/GPU-Affinitäten: Pinnen der Threads, isolcpus für Orchestrator-Noise; GPU-Boost fixieren, um Frequency-Throttling zu verhindern.

Batchgröße 1: Für Inline-Entscheidungen fast immer nötig. Micro-Batching nur, wenn Pufferstationen existieren.

Bildpfad stabilisieren: Konsistente Belichtung, synchronisierte Strobes, feste Weißabgleiche. Viele “KI-Probleme” sind in Wirklichkeit Beleuchtungsprobleme.

Watchdogs: Inferenz-Watchdog, der bei >T ms sofort UNKNOWN setzt und den Default-Pfad triggert. Keine “stillen” Hänger.

7) Artefakt-Governance on-prem

Versionierung: Modellversion = Semver + Dataset-Hash + Preprocessing-Signatur. Beispiel: 2.3.1+ds=f3c2a9+pp=resize640_normA.

Reproduzierbarkeit: Training-Rezepte (Container, Seeds, Lib-Versionen) als OCI-Image; SBOM pro Build; Cosign-Signaturen.

Golden Batch: Kuratierter, rechtssicherer Datensatz mit Traceability (Kamera, Optik, Beleuchtung, Linie, Charge). Nur damit wird freigegeben.

Air-gapped Delivery: Modelle/Container via signiertem Offline-Medium in die Registry importieren. Kein “schnell mal aus der Cloud ziehen”.

Blue/Green-Pipelines: Zwei Deployments im Orchestrator (k3s) mit festen Ressourcen-Requests/Limits, expliziten Device-Plugins (NVIDIA). Umschaltbar über ConfigMap/Feature-Flag, das das Decision-Gate liest.

Audit: Unveränderbare Logs, die Entscheidung + Modellhash + Input-Referenz verknüpfen. Retention klar definiert.

8) Schattenmodus trotz begrenzter GPU – Praktische Varianten

Full Shadow: Beide Modelle inferieren jeden Frame (beste Datenlage, doppelter Compute).

Sampling Shadow: Kandidat erhält jedes n-te Teil; genügt oft für Stabilitätsaussagen ohne Latenzrisiko.

Staged Shadow: Zeiten mit niedrigerer Auslastung (Schichtwechsel, Stillstände) für Replays nutzen: gespeicherte Frames/Geräte-Pipelines mit Timestamps erneut einspeisen.

Alternating Slots: Time-Slicing über CUDA Streams mit harten Deadlines: Blue hat Priorität 0, Green läuft opportunistisch; wenn Deadline nahe, wird Green abgebrochen.

9) Monitoring und Drift-Management, ohne Cloud-Telemetrie

Per-Inferenz-Metriken: Latenz-P95/P99, Confidence-Verteilungen, Häufigkeiten je Klasse, NMS-Statistiken.

Kontext-Metriken: Temperatur GPU/CPU, Kamera-Drop-Frames, Trigger-Jitter, Beleuchtungsintensität (falls Sensorik vorhanden).

Drift-Signale: Helligkeits-Histogramme, Farbverschiebung, Schärfemaß – und Korrelation mit Fehlerraten.

Label-Loop on-prem: Bedieneroberfläche für strittige Fälle (mit Rollen/Rechten). Periodische Retrainings ausschließlich mit geklärten, freigegebenen Labels.

Alarmierung: On-Prem-Alertmanager mit klaren Eskalationen; keine “toten Dashboards”.

10) Sicherheit und Souveränität

Netzwerk: MTLs zwischen Services (Service Mesh optional), Segmentierung (Prod-Netz vs. Engineering-Netz), keine offenen Admin-Oberflächen.

Supply Chain: Signierte Container, SBOM-Prüfung, keine “latest”-Tags in Produktion.

Zugriff: RBAC, Break-Glass-Verfahren mit Protokollierung, HMI-Umschaltung nur mit Vier-Augen-Freigabe je nach Kritikalität.

Keine US-Cloud-Abhängigkeit: Artefakte, Metriken, Backups – alles lokal. Externe Verbindungen sind aus, oder strikt proxied mit Whitelist.

11) Zwei konkrete Einsatzszenarien

Visuelle Inspektion von Schweißnähten (Automotive/Fahrzeugbau)

Herausforderung: Hohe Varianz in Oberflächenreflexionen, kurze Taktzeiten.

Lösung: Polarisierte Beleuchtung + fixe Kamerakalibrierung; Blue/Green mit Sampling Shadow (jedes 5. Bauteil) wegen GPU-Budget.

Gatekeeper-Regeln: False-Negatives dürfen nicht steigen; False-Positives dürfen innerhalb Toleranz sinken. Latenz-P99 < 60 ms.

Umschaltung: Zwischen zwei Karosserie-Losen via HMI und SPS-Freigabe.

Ergebnis: Reproduzierbarer Rollout ohne Nacharbeitsspitzen, QS kann pro Charge auditieren.

Farbton- und Gewebefehlerkontrolle (Textil)
Herausforderung: Langsame Drift der Beleuchtung und Kameras über Schichten, feine Farbnuancen.
Lösung: Drift-Monitoring (Histogramm/Weißpunkt), regelmäßige Golden-Batch-Replays während Schichtwechsel. Schattenmodus Full auf dedizierter Low-Profile-GPU.
Gatekeeper-Regeln: Stabilität der Farbmetriken über 24h; keine Erhöhung der “Rework”-Quote in Schattenkorrelation.
Rückrollbarkeit: One-click über HMI, Audit-Log mit Bildausschnitten für Schulung.

12) Typische Stolpersteine – und wie man sie vermeidet

“Wir schalten einfach um, wenn die Metrik grün ist”: Ohne Schattenmodus entsteht Blindflug. Immer reale Produktionsdaten heranziehen.

OPC UA für Hard-Realtime missbrauchen: Für 5–10 ms Fenster sind digitale IO oder echtzeitfähige Feldbus-Schnittstellen zuverlässiger.

Mixed Precision ändern ohne Golden Batch: Numerische Abweichungen verschieben Schwellen unbemerkt.

Hintergrund-Updater: Ein “harmloses” apt upgrade am Edge-Node mitten im Dreischichtbetrieb – bitte nie. Produktions-OS einfrieren, Changes nur über Freigabeprozess.

Kamera-/Optikwechsel ohne Requalifizierung: Modellversion ohne Optik-/Kalibrationsversion ist wertlos. Artefakte müssen gemeinsam versioniert werden.

13) Beispiel-Deployment (vereinfacht)

Zwei Deployments inference-blue und inference-green mit festen GPU-Ressourcen.

Decision-Gate konsumiert beide Topics (z. B. NATS/ZeroMQ) und steuert SPS-IO.

ConfigMap decision-policy enthält Schwellen und Umschaltstatus. HMI schreibt über ein kleines REST-Gateway in diese Policy (RBAC!).

Lokale Registry: harbor.local/ai/wafer-inspection:{2.3.1,2.4.0-cand}, signiert.

Golden-Batch-Runner: Offline-Service, der gespeicherte Frames/Crops wieder einspeist und KPIs berechnet. Ergebnisse werden im Audit-Store archiviert.

14) Warum wir so vorgehen – Position
Echtzeit-KI in der Fertigung ist kein Notebook-Science-Projekt. Ohne deterministische Pfade, robuste Umschaltmechanismen und strenge Souveränitätsprinzipien gewinnt man vielleicht ein paar Prozentpunkte im Offline-F1 – und verliert sie als Ausschuss wieder an der Linie. Cloud mag für Backoffice-Analysen oder Trainings nützlich sein; für Inline-Entscheidungen und Auditfähigkeit im DACH-Industriekontext ist Edge-first, On-Prem und Governance-orientiertes Engineering der einzige verantwortbare Weg. Modelle sind Komponenten – ersetzbar. Architektur, Regeln und Rückrollbarkeit sind die eigentlichen Assets.

Wenn Sie das mit einem Team umsetzen wollen, das solche Produktionsrealitäten vorher gesehen und gelöst hat: (→ alpitype.de/leistungen/)