Praxisbeispiele aus der Fertigung

  • Visuelle Qualitätskontrolle in der Montage:
  • Ziel: <25 ms von Trigger bis Decision, Zero-False-Negative bei kritischen Merkmalen.
  • Umsetzung: C++-Pipeline mit Shared-Memory zwischen Capture und Preprocessing, TensorRT-Engine mit fixierten deterministischen Pfaden, Watchdog zur SPS.
  • Ergebnis: Stabiler p99 unter 20 ms über Schichten. Rollouts als signierte Bundles; Shadow-Mode hielt drei Wochen, danach Canary auf zwei Linien, abschließend Werks-Rollout.
  • Predictive Maintenance in der Textilfertigung:
  • Ziel: On-device Anomalieerkennung aus Vibrationsdaten, Lehrmodelle offline.
  • Umsetzung: CPU-Inferenz mit OneDNN in Container, lokale Ringpuffer, periodische Modellupdates per signiertem Paket. Telemetrie in on-prem Zeitreihen-DB, Drift-Detektion auf Score-Verteilung.
  • Ergebnis: Keine Cloud-Integration nötig, Mean Time To Detect sank, Bediener blieben im Loop durch einfache, deterministische Regeln zur Alarmierung.
  • Bahn-Fahrzeugflotte, abgeschottete Depots:
  • Ziel: Zustandsüberwachung mit sporadischer Datenzusammenführung.
  • Umsetzung: Edge-Collector mit append-only Logs, periodischer Datenexport in die Zentrale über physische Transferpunkte, streng versionierte Parser. Modelle lokal inferieren, zentrale Retrospektive in DMZ.
  • Ergebnis: Reproduzierbare Analysen, einfache Rollbacks bei Parser-Fehlern, kein regulatorischer Ärger mit Cloud-Regionen.

Security in der Praxis: Weniger ist mehr

  • Rootless-Container und minimale Images. Jeder zusätzliche Layer ist eine Angriffsfläche.
  • AppArmor/SELinux-Profile enger schnüren als „default permissive“. Systemaufrufe via eBPF erlaubnisbasiert.
  • Secrets offline: Keine „.env“-Dateien auf dem Edge. Entweder Hardware-gebundene KMS oder gesicherte Keystores, die auch ohne Internet funktionieren.
  • Physische Sicherheit: Signierte Boot-Kette, verschlüsselte Datenträger, abgesicherte Service-Ports. Wenn jemand physischen Zugriff hat, hilft Ihnen keine Cloud-Policy.

Operative Feinheiten, die Audits bestehen

  • Zeit und Zeitzonen:
  • Loggen mit monotonic und wall-clock getrennt. Keine impliziten Sommerzeit-Sprünge in Metriken.
  • Speicherbudget und Aufbewahrung:
  • Technische und rechtliche Retention klar definieren. Alte Artefakte komprimieren, Prüfsummen beibehalten.
  • Dokumentation als Code:
  • Betriebshandbuch, Runbooks, Notfallprozeduren versioniert neben dem Code. Die beste Doku ist nutzlos, wenn sie nicht mitrollt.

Fazit: Air-gapped MLOps ist kein Anti-Cloud-Manifest, sondern eine Ingenieursdisziplin
Cloud-native MLOps skaliert hervorragend – dort, wo es erlaubt ist. In abgeschotteten Netzen braucht es andere Prioritäten:

  • Reproduzierbarkeit schlägt „Move Fast“.
  • Determinismus schlägt Peak-Performance-Slides.
  • Signierte, auditierbare Rollouts schlagen „wir haben gestern schnell gefixt“.

Wer das konsequent umsetzt, betreibt KI in rauen Produktionsumgebungen stabil – ohne rechtliche Bauchschmerzen, ohne US-Cloud-Abhängigkeit und mit der Souveränität, die in Industrie, Bahn und Defense nicht verhandelbar ist. Genau diese Souveränität ermöglicht erst intelligente Systeme, die im Betrieb bestehen.

FAQ

  • Wie bekomme ich Python-Abhängigkeiten ohne Internet stabil in die OT?
  • Spiegeln Sie Wheels in ein internes, signiertes Repository. Bauen Sie Container hermetisch gegen dieses Repo, ohne „pip install“ zur Laufzeit. Für native Abhängigkeiten pflegen Sie eine explizite Binär-Artefakt-Registry. Keine „latest“-Tags, nur gehashte Versionen.

  • Wie verhindere ich, dass ein „schneller Fix“ die Linie bricht?
  • Zweistufig: Shadow-Mode mit klaren Akzeptanzmetriken, danach Canary pro Zelle. Deployments sind atomar (Blue/Green), Artefakte signiert, Rollback jederzeit offline möglich. Ohne zwei-Personen-Freigabe gibt es kein produktives Gate.
  • Was mache ich gegen Treiber- und Runtime-Drift auf GPU-Systemen?
  • Definieren Sie eine Kompatibilitätsmatrix (Treiber, Runtime, Engine). Testen Sie Builds gegen diese Matrix. Pin der Engine auf deterministische Pfade, vermeiden Sie Auto-Tuning im Feld. Versionieren und signieren Sie auch den Treiber-Stack; keine stillen Host-Updates.
  • Wie beobachte ich LLM-Agenten in einem Intranet ohne Cloud?
  • Agenten laufen on-prem, Telemetrie geht in lokale Stores. Loggen Sie Prompt, Kontextquellen, Tool-Aufrufe und Ergebnisse mit Rollenbezug. Definieren Sie Policies als Code (Ressourcen-Scopes, Egress=0). Nutzen Sie eine lokale Governance-/Observability-Plattform für Agenteninteraktionen mit Audit-Trail (→ alpitype.de/leistungen/).
  • Wie verteile ich Updates sicher über physische Medien?
  • Paketieren Sie Applikation, Modell, Konfiguration und SBOM in ein signiertes Bundle. Verifizieren Sie im OT gegen einen lokalen Trust-Anchor. Deployments sind atomar und bieten Rollback. Halten Sie die Root-Schlüssel offline (HSM/Hardware-Token), operieren Sie mit delegierten Signaturen im Alltag.

Über uns
Wir sind AlpiType. Wir bauen Industrielösungen für KI – nicht als Beratung, sondern als Software- und Systemverantwortliche. On-premise, DSGVO-konform, ohne US-Cloud-Abhängigkeit. Von Computer Vision in der Qualitätskontrolle über prädiktive Instandhaltung bis zu Governance für LLM-Agenten in abgeschotteten Netzen. Wenn Sie Air-gapped MLOps pragmatisch angehen wollen, sprechen Sie uns an (→ alpitype.de/leistungen/).