- Shadow Mode:
- Das ML-System rechnet parallel, ohne die SPS-Entscheidung zu beeinflussen. Ergebnisse werden mit operatorischer Realität abgeglichen.
- Golden Set:
- Ein kuratierter Datensatz mit repräsentativen Gut-/Schlechtteilen unter echten Linienbedingungen. Zielmetriken werden vorab festgelegt.
- Drift-Monitoring:
- Online-Verteilung einfacher, robuster Features (Helligkeit, Kantenkontrast, Lage der ROI) zur Erkennung von Beleuchtungs- oder Kamera-Drift.
- Traceability:
- Jeder Entscheidungslog-Eintrag enthält: Timestamp, Trigger-ID, Modellhash, Konfidenz, Preprocessing-Config-Hash und optional einen Verweis auf das Bildsnippet im Ringpuffer.
Fail-safe-Strategien, die Ausfälle zu Ereignissen statt Katastrophen machen
- Default-to-Safe:
- Kein Ergebnis oder unerwarteter Zustand -> konservative Aktion (meist Ausschleusung/Stop).
- Degradierte Modi:
- Fällt die GPU aus, kann ein leichteres CPU-Modell ein grobes Screening übernehmen, das notfalls mehr ausschleust, aber die Linie nicht stoppt.
- Watchdogs:
- IPC überwacht KI-Prozess, SPS überwacht IPC via Heartbeat. Trennung von Beobachter und Beobachtetem.
- A/B-Rollout ohne Downtime:
- Zweites Modell inaktiv laden, warmhalten, Shadow vergleichen, dann atomarer Umschaltpunkt außerhalb der Taktspitze.
- Persistenz und Reboot:
- State möglichst im Prozesstakt stateless halten. Nach Reboot deterministisch in <1 s aufnahmebereit.
Integration in MES/QMS ohne Cloud
- Ereignisse:
- Prüfergebnis mit Werkstück-ID, Konfidenz und Modellversion an das interne MES/QMS via MQTT oder REST, nicht SPS.
- Bildspeicherung:
- Nicht jedes Bild langfristig speichern. Regeln: nur Ausnahmefälle, Stichproben, und strenge Retention/Anonymisierung.
- Rückmeldeschleifen:
- Bedieneroberflächen zur schnellen Re-Labeling-Feedbackschleife, aber mit Freigabe-Prozess; kein Online-Lernen an der Linie.
Sicherheitsarchitektur: KI darf niemals Safety ersetzen
- Keine sicherheitsrelevanten Aktoren werden von KI direkt angesteuert. KI liefert nur „Empfehlungen“ als Nicht-Safety-Signale.
- Safety-PLC setzt Sicherheitsfunktionen unverändert um (z. B. Zweihandauslösung, Lichtschranken).
- Zweikanal-Logik für kritische Aktionen: KI-Bit + externes deterministisches Kriterium erforderlich.
- Getrennte Netze: OT-Netz für SPS, isoliert von IT/Edge, mit definierten Gateways/DMZ.
Wartung, Updates und MLOps on-prem
- Reproduzierbarkeit:
- Modelle sind aus fest versionierten Daten und Code deterministisch baubar. Artefakte signieren.
- Kalibrierung:
- Nach jeder mechanischen Änderung (Kamera, Beleuchtung) Kalibrier- und Golden-Set-Tests verpflichtend.
- Updatefenster:
- Klare Wartungsfenster; Feature-Flags für sanfte Aktivierung neuer Schwellen und Heuristiken.
- Governance:
- Vier-Augen-Prinzip für Produktiv-Freigaben. Trennung von Entwicklung, Validierung und Betrieb.
- Observability:
- Latenzhistogramme, Throughput, Drop-Rates, Score-Drift und Fehlerzählungen lokal visualisieren. Keine Telemetrie nach außen.
Konkrete Szenarien aus Projekten
1) Visuelle End-of-Line-Inspektion, 120 Teile/min
- Herausforderung:
- 500 ms Taktzeit, davon maximal 40 ms für Bildaufnahme + Inferenz + Entscheidung, 60 ms für Aktorik.
- Lösung:
- PTP-Synchronisation von Kamera, IPC und SPS; belichtungsstabile Beleuchtung.
- Quantisiertes Detektionsmodell, fest zugewiesene CPU/GPU-Ressourcen, Pre-Allocation sämtlicher Puffer.
- Handshake über PROFINET/IO für Quality_OK und über OPC UA für Diagnose-/Versionstexte.
- Fail-safe:
- Fällt das Ergebnis aus, markiert SPS das Teil für manuelle Prüfung; Linie läuft weiter.
- Ergebnis:
- Stabiler Betrieb ohne Taktzeitrisse; Audit-Log pro Teil für Reklamationsmanagement.
2) Anomalieerkennung an Wälzlagern, 20 kHz Schwingungssensorik
- Herausforderung:
- Hohe Datenrate, Rolling-Window-Analyse, Latenzbudget 200 ms für Frühwarnung, keine Cloud.
- Lösung:
- Edge-Feature-Extraktion (Spektren, Ordnungsanalyse) in C++ mit Echtzeitpriorität.
- Leichtes Autoencoder-Modell für Rekonstruktionsfehler, Hysterese zur Alarmglättung.
- SPS erhält nur „Warnung_Stufe1/2“; detaillierte Telemetrie geht an das interne Instandhaltungssystem.
- Governance:
- Kein automatisches Eingreifen in Drehzahl; nur Empfehlung. Safety bleibt unberührt.
3) Textilfertigung: Fadenspannungsanomalien
- Herausforderung:
- Stochastische Störungen, wechselnde Garnsorten; Bediener müssen nachvollziehen, warum ausgeschleust wird.
- Lösung:
- Feature-Dashboard direkt in der Linie: Visualisierung einfacher, erklärbarer Metriken (z. B. Varianz, Peaks).
- Konfidenz-Score wird als Prozentbereich angezeigt; Bediener kann Stichprobe markieren, die ins Golden Set wandert.
- Ergebnis:
- Höhere Akzeptanz, weniger „Black-Box“-Widerstand, klarer Freigabe-Prozess für Modellupdates.
Warum Cloud hier nichts zu suchen hat
- Latenz und Determinismus: WAN macht deterministische Garantien praktisch unmöglich.
- Souveränität und Audit: Produktions- und Bilddaten sollen das Werk nicht verlassen.
- Verfügbarkeit: Wartungsfenster und Netzwerkisolation sind Planungsrealitäten, keine Ausnahmen.
- Fazit: On-prem ist Default. Cloud hat ihren Platz in übergeordneten Analysen – aber nicht in der Echtzeit-Entscheidungskette an der SPS.
Was häufig schiefgeht – und wie Sie es vermeiden
- „Wir hängen das Modell direkt in die SPS“:
- Selbst wenn es technisch möglich scheint, leidet Wartbarkeit und Performance. Besser: Edge-IPC mit klarer, schmaler Schnittstelle.
- Keine harte Deadline im Inferenzpfad:
- Führt zu Taktzeitspitzen. Abhilfe: Timeouts, deterministische Pre-/Postprocessing-Pfade, Ressourcen-Pinning.
- Keine Shadow-Phase:
- Live-Risiko ohne empirische Passung. Abhilfe: Wochenweise Parallelbetrieb und quantitativer Vergleich.
- Zu viele Daten in MES/QMS:
- Datenhalden ohne Zweck. Abhilfe: Ereignisgetriebene Speicherung, Retentionsregeln, Stichproben.
- Änderungen ohne Governance:
- „Nur schnell Threshold anpassen“ endet in Audit-Fiasko. Abhilfe: Change-Requests, Versionierung, Signierung.
Ein Wort zu LLMs an der Linie
LLMs sind nützlich für Bedienerassistenz, Störungsdiagnosen und das Navigieren in Wartungshandbüchern. Die gleichen Prinzipien gelten:
- On-prem RAG auf freigegebenen Dokumenten.
- Keine Agenten mit direkter Aktuatorsteuerung.
- Klare Observability: Prompt, Kontext, Tool-Aufrufe, Antwort – alles revisionssicher geloggt.
- Governance: Freigegebene Werkzeuge, Whitelists, Zeit- und Rechtemodelle.
Für Observability und Governance lohnt es sich, eine Plattform zu nutzen, die diese Aspekte standardisiert, statt sie jedes Mal neu zu bauen (→ alpitype.de/leistungen/).