Governance und Audit: Wer hat was wann warum freigegeben?
Ohne Cloud brauchen Sie eine on-prem Governance-Schicht, die Artefakte, Entscheidungen und Änderungen nachvollziehbar macht.

  • Daten- und Modellabstammung:
  • Datasets mit Content-Hashes versionieren (z. B. mit DVC/Git LFS on-prem). Keine stillen Reuploads von „fast gleich“.
  • Trainingskonfigurationen, Seeds, Preprocessing als Code, nicht als Excel.
  • Modellkarten mit Risikoklassen, Betriebsgrenzen (OAT – Operational Acceptance Tests) und Testberichten.
  • Freigabe-Workflow:
  • Zwei-Personen-Regel für Produktionsfreigaben, differenziert nach Risiko (z. B. reine OEE-Optimierung vs. Qualitätsentscheidungen).
  • Shadow-Mode-Phase verpflichtend: Modell entscheidet, aber nur im Log – Gegenüberstellung mit goldenem Referenzsystem.
  • Entscheidungs-Audit:
  • Für jede produktive Entscheidung: Eingangsmetadaten, Modellversion, Konfiguration, Latenz, Konfidenz, Boundary-Flags. Kein Vollbild-Logging, nur gezielte Slices (Privacy, Speicherbudget).
  • Für LLM/Agenten: Prompt-, Kontext- und Output-Logs mit Redaktionsfilter, Rollen- und Berechtigungsbezug. Agenten-Tools nur innerhalb definierter Ressourcen-Scopes. (Hierfür setzen wir on-prem Governance/Lifecycle-Management ein; Details auf Anfrage → alpitype.de/leistungen/)

Observability ohne Internet: Metriken, Logs, Traces lokal
Telemetrie muss lokal sein, aber genauso zuverlässig wie in der Cloud:

  • Metriken:
  • p50/p95/p99-Latenzen je Pipeline-Stufe, Frame-Drop-Raten, Queue-Längen, GPU/CPU-Auslastung, Speicherdruck, Temperatur.
  • Drift-Indikatoren: Score-Verteilungen über Zeit, Konzept- und Daten-Drift-Proxy-Metriken.
  • Logs:
  • Strukturiert, mit stabilen Schlüsseln. Tagesrotation, lokale Retention mit Backpressure (niemals das Dateisystem volllaufen lassen).
  • Ereignis-IDs korreliert mit Artefakt-Hashes und Audit-Einträgen.
  • Tracing:
  • Leichtgewichtiges, stichprobenbasiertes Tracing für Latenzspitzen. Sampling adaptiv, damit unter Stress das System nicht kollabiert.
  • Infrastruktur:
  • On-prem Prometheus/Loki/Tempo oder vergleichbare Stacks. Zugriff über Bastion, keine Direktverbindungen von außen.
  • Zeit: Eine belastbare Zeitquelle in der OT (lokaler Time-Server, klare Strategie für Ausfall; monotone Uhren für Metriken).

Latenz- und Determinismus-Fallen, die Projekte aus der Kurve tragen
Erfahrungspunkte, die in der Praxis die meiste Zeit kosten:

  • Treiber-Drift:
  • Unterschiedliche Minor-Versionen von GPU-Treibern vs. Inferenz-Engines sorgen für inkonsistente Kernel-Auswahl. Lösung: zielgerichtete Kompatibilitätsmatrix, keine „Wildcard“-Deployments.
  • „Kleinkram“ in Summe:
  • 2 ms extra im Camera-Stack, 3 ms in der Farbkonvertierung, 4 ms im Preprocessing – schon ist das 16-ms-Fenster weg. Jedes Stück messen und budgetsieren.
  • Garbage Collection:
  • Python GC an der falschen Stelle und Ihr p99 springt auf 200 ms. Entweder kritische Pfade in C++ oder GC-Strategie explizit steuern, Objekte vorwärmen.
  • Speicherfragementierung:
  • Langlaufende Prozesse ohne Pre-Allocation fragmentieren GPU/Host-Speicher. Periodischer, koordinierter Warm-Restart des Inferenz-Containers ist oft pragmatischer als heldenhafte Optimierung.
  • Dateisystem-Überraschungen:
  • SSDs drosseln unter Hitze oder nach TBW-Auslastung. Telemetrie auf Verschleiß ausrichten, lokale Ringpuffer statt ungezügeltem Append.

Rollout-Strategien in abgeschotteten Werken: A/B geht selten, Shadow immer
Durchsatz und Sicherheitsüberlegungen lassen kein „echtes“ A/B zu. Funktionierende Muster:

  • Shadow-Mode:
  • Neues Modell läuft parallel, trifft Entscheidungen, aber nur ins Log. Bewertung gegen Prozess-Outcome und Altsystem, klare Akzeptanzkriterien vorab.
  • Canary nach Zellen:
  • Nicht nach Hosts, sondern nach Produktionszellen: erst die am wenigsten kritische Linie, dann hochrisikoreiche Stationen. Jede Stufe mit definierten Metrik-Gates und manueller Abnahme.
  • Feature-Gates:
  • Konfigurierbare Schalter für neue Heuristiken oder Schwellen. Ein Deployment kann damit risikolos getestet werden, ohne neues Bundle.
  • Hard Stop vs. Soft Degradation:
  • Im Fehlerfall: Entweder sauberer Bypass oder degradierter Betrieb (z. B. geringere Bildrate). Wischiwaschi führt zu schwankender Qualität.

Schnittstelle zur SPS: Schwarzer Kanal für KI, deterministische Schicht für Safety
KI bleibt immer nicht-sicherheitsgerichtet. Die Kopplung muss das respektieren:

  • Prinzip:
  • KI liefert Vorschlag + Konfidenz + Zustandsflags. Eine deterministische Schicht (regelbasiert, verifizierbar) übersetzt das in Aktionsvorschläge für die SPS.
  • Handshake:
  • Explizite Gültigkeitsfenster, Heartbeat, Sequence-IDs. Bei Ausfall oder Timeout schaltet die SPS auf definiertes Verhalten (z. B. manueller Prüfbahnhof).
  • Fehlerbilder testen:
  • Noise, Delay, Stotter-Frames, Ausfall des Kamera-Threads – alles in HIL-Tests simulieren. Nicht erst an der Linie.

LLM-Agenten in der OT: Egress-Kontrolle, Retrieval-Scope, Audit
Auch in abgeschotteten Werken tauchen LLM-Anwendungen auf (z. B. Störungsleitfäden, Schicht-Report-Assistenten). Die Risiken sind andere als bei CV:

  • Datenzugriff:
  • Retrieval strikt auf lokale, freigegebene Wissensbasen begrenzen. Kein „Herumstöbern“ in SMB-Shares – Tools der Agenten haben harte Scopes.
  • Egress-Null:
  • Standardmäßig kein Outbound. Selbst Telemetrie geht nur in lokale Stores. Modelle on-prem gehostet, keine US-Cloud-Abhängigkeit.
  • Prompt- und Tool-Audit:
  • Jede Agentenaktion protokollieren: Prompt, Kontext, verwendete Tools, Resultate, abgelehnte Aktionen. Redaktionsfilter für personenbezogene Daten.
  • Policies als Code:
  • Guardrails nicht in UI-Klickorgien, sondern als versioniertes Regelwerk. Änderungen laufen durch denselben Freigabeprozess wie Modell-Updates.
  • Governance:
  • Ein zentrales, on-prem Observability- und Policy-System für Agenten-Interaktionen beschleunigt Incident-Analysen dramatisch. Genau dafür setzen wir in Projekten eine lokale Governance-Plattform ein (→ alpitype.de/leistungen/).