Imported Post 2026-04-29 00:14:05

Shadow Mode:
Das ML-System rechnet parallel, ohne die SPS-Entscheidung zu beeinflussen. Ergebnisse werden mit operatorischer Realität abgeglichen.
Golden Set:
Ein kuratierter Datensatz mit repräsentativen Gut-/Schlechtteilen unter echten Linienbedingungen. Zielmetriken werden vorab festgelegt.
Drift-Monitoring:
Online-Verteilung einfacher, robuster Features (Helligkeit, Kantenkontrast, Lage der ROI) zur Erkennung von Beleuchtungs- oder Kamera-Drift.
Traceability:
Jeder Entscheidungslog-Eintrag enthält: Timestamp, Trigger-ID, Modellhash, Konfidenz, Preprocessing-Config-Hash und optional einen Verweis auf das Bildsnippet im Ringpuffer.

Fail-safe-Strategien, die Ausfälle zu Ereignissen statt Katastrophen machen

Default-to-Safe:

Kein Ergebnis oder unerwarteter Zustand -> konservative Aktion (meist Ausschleusung/Stop).

Degradierte Modi:

Fällt die GPU aus, kann ein leichteres CPU-Modell ein grobes Screening übernehmen, das notfalls mehr ausschleust, aber die Linie nicht stoppt.

Watchdogs:

IPC überwacht KI-Prozess, SPS überwacht IPC via Heartbeat. Trennung von Beobachter und Beobachtetem.

A/B-Rollout ohne Downtime:

Zweites Modell inaktiv laden, warmhalten, Shadow vergleichen, dann atomarer Umschaltpunkt außerhalb der Taktspitze.

Persistenz und Reboot:

State möglichst im Prozesstakt stateless halten. Nach Reboot deterministisch in <1 s aufnahmebereit.

Integration in MES/QMS ohne Cloud

Ereignisse:

Prüfergebnis mit Werkstück-ID, Konfidenz und Modellversion an das interne MES/QMS via MQTT oder REST, nicht SPS.

Bildspeicherung:

Nicht jedes Bild langfristig speichern. Regeln: nur Ausnahmefälle, Stichproben, und strenge Retention/Anonymisierung.

Rückmeldeschleifen:

Bedieneroberflächen zur schnellen Re-Labeling-Feedbackschleife, aber mit Freigabe-Prozess; kein Online-Lernen an der Linie.

Sicherheitsarchitektur: KI darf niemals Safety ersetzen

Keine sicherheitsrelevanten Aktoren werden von KI direkt angesteuert. KI liefert nur „Empfehlungen“ als Nicht-Safety-Signale.

Safety-PLC setzt Sicherheitsfunktionen unverändert um (z. B. Zweihandauslösung, Lichtschranken).

Zweikanal-Logik für kritische Aktionen: KI-Bit + externes deterministisches Kriterium erforderlich.

Getrennte Netze: OT-Netz für SPS, isoliert von IT/Edge, mit definierten Gateways/DMZ.

Wartung, Updates und MLOps on-prem

Reproduzierbarkeit:

Modelle sind aus fest versionierten Daten und Code deterministisch baubar. Artefakte signieren.

Kalibrierung:

Nach jeder mechanischen Änderung (Kamera, Beleuchtung) Kalibrier- und Golden-Set-Tests verpflichtend.

Updatefenster:

Klare Wartungsfenster; Feature-Flags für sanfte Aktivierung neuer Schwellen und Heuristiken.

Governance:

Vier-Augen-Prinzip für Produktiv-Freigaben. Trennung von Entwicklung, Validierung und Betrieb.

Observability:

Latenzhistogramme, Throughput, Drop-Rates, Score-Drift und Fehlerzählungen lokal visualisieren. Keine Telemetrie nach außen.

Konkrete Szenarien aus Projekten

1) Visuelle End-of-Line-Inspektion, 120 Teile/min

Herausforderung:

500 ms Taktzeit, davon maximal 40 ms für Bildaufnahme + Inferenz + Entscheidung, 60 ms für Aktorik.

Lösung:

PTP-Synchronisation von Kamera, IPC und SPS; belichtungsstabile Beleuchtung.

Quantisiertes Detektionsmodell, fest zugewiesene CPU/GPU-Ressourcen, Pre-Allocation sämtlicher Puffer.

Handshake über PROFINET/IO für Quality_OK und über OPC UA für Diagnose-/Versionstexte.

Fail-safe:

Fällt das Ergebnis aus, markiert SPS das Teil für manuelle Prüfung; Linie läuft weiter.

Ergebnis:

Stabiler Betrieb ohne Taktzeitrisse; Audit-Log pro Teil für Reklamationsmanagement.

2) Anomalieerkennung an Wälzlagern, 20 kHz Schwingungssensorik

Herausforderung:

Hohe Datenrate, Rolling-Window-Analyse, Latenzbudget 200 ms für Frühwarnung, keine Cloud.

Lösung:

Edge-Feature-Extraktion (Spektren, Ordnungsanalyse) in C++ mit Echtzeitpriorität.

Leichtes Autoencoder-Modell für Rekonstruktionsfehler, Hysterese zur Alarmglättung.

SPS erhält nur „Warnung_Stufe1/2“; detaillierte Telemetrie geht an das interne Instandhaltungssystem.

Governance:

Kein automatisches Eingreifen in Drehzahl; nur Empfehlung. Safety bleibt unberührt.

3) Textilfertigung: Fadenspannungsanomalien

Herausforderung:

Stochastische Störungen, wechselnde Garnsorten; Bediener müssen nachvollziehen, warum ausgeschleust wird.

Lösung:

Feature-Dashboard direkt in der Linie: Visualisierung einfacher, erklärbarer Metriken (z. B. Varianz, Peaks).

Konfidenz-Score wird als Prozentbereich angezeigt; Bediener kann Stichprobe markieren, die ins Golden Set wandert.

Ergebnis:

Höhere Akzeptanz, weniger „Black-Box“-Widerstand, klarer Freigabe-Prozess für Modellupdates.

Warum Cloud hier nichts zu suchen hat

Latenz und Determinismus: WAN macht deterministische Garantien praktisch unmöglich.

Souveränität und Audit: Produktions- und Bilddaten sollen das Werk nicht verlassen.

Verfügbarkeit: Wartungsfenster und Netzwerkisolation sind Planungsrealitäten, keine Ausnahmen.

Fazit: On-prem ist Default. Cloud hat ihren Platz in übergeordneten Analysen – aber nicht in der Echtzeit-Entscheidungskette an der SPS.

Was häufig schiefgeht – und wie Sie es vermeiden

„Wir hängen das Modell direkt in die SPS“:

Selbst wenn es technisch möglich scheint, leidet Wartbarkeit und Performance. Besser: Edge-IPC mit klarer, schmaler Schnittstelle.

Keine harte Deadline im Inferenzpfad:

Führt zu Taktzeitspitzen. Abhilfe: Timeouts, deterministische Pre-/Postprocessing-Pfade, Ressourcen-Pinning.

Keine Shadow-Phase:

Live-Risiko ohne empirische Passung. Abhilfe: Wochenweise Parallelbetrieb und quantitativer Vergleich.

Zu viele Daten in MES/QMS:

Datenhalden ohne Zweck. Abhilfe: Ereignisgetriebene Speicherung, Retentionsregeln, Stichproben.

Änderungen ohne Governance:

„Nur schnell Threshold anpassen“ endet in Audit-Fiasko. Abhilfe: Change-Requests, Versionierung, Signierung.

Ein Wort zu LLMs an der Linie
LLMs sind nützlich für Bedienerassistenz, Störungsdiagnosen und das Navigieren in Wartungshandbüchern. Die gleichen Prinzipien gelten:

On-prem RAG auf freigegebenen Dokumenten.

Keine Agenten mit direkter Aktuatorsteuerung.

Klare Observability: Prompt, Kontext, Tool-Aufrufe, Antwort – alles revisionssicher geloggt.

Governance: Freigegebene Werkzeuge, Whitelists, Zeit- und Rechtemodelle.

Für Observability und Governance lohnt es sich, eine Plattform zu nutzen, die diese Aspekte standardisiert, statt sie jedes Mal neu zu bauen (→ alpitype.de/leistungen/).