Praxisbeispiele aus der Fertigung
- Visuelle Qualitätskontrolle in der Montage:
- Ziel: <25 ms von Trigger bis Decision, Zero-False-Negative bei kritischen Merkmalen.
- Umsetzung: C++-Pipeline mit Shared-Memory zwischen Capture und Preprocessing, TensorRT-Engine mit fixierten deterministischen Pfaden, Watchdog zur SPS.
- Ergebnis: Stabiler p99 unter 20 ms über Schichten. Rollouts als signierte Bundles; Shadow-Mode hielt drei Wochen, danach Canary auf zwei Linien, abschließend Werks-Rollout.
- Predictive Maintenance in der Textilfertigung:
- Ziel: On-device Anomalieerkennung aus Vibrationsdaten, Lehrmodelle offline.
- Umsetzung: CPU-Inferenz mit OneDNN in Container, lokale Ringpuffer, periodische Modellupdates per signiertem Paket. Telemetrie in on-prem Zeitreihen-DB, Drift-Detektion auf Score-Verteilung.
- Ergebnis: Keine Cloud-Integration nötig, Mean Time To Detect sank, Bediener blieben im Loop durch einfache, deterministische Regeln zur Alarmierung.
- Bahn-Fahrzeugflotte, abgeschottete Depots:
- Ziel: Zustandsüberwachung mit sporadischer Datenzusammenführung.
- Umsetzung: Edge-Collector mit append-only Logs, periodischer Datenexport in die Zentrale über physische Transferpunkte, streng versionierte Parser. Modelle lokal inferieren, zentrale Retrospektive in DMZ.
- Ergebnis: Reproduzierbare Analysen, einfache Rollbacks bei Parser-Fehlern, kein regulatorischer Ärger mit Cloud-Regionen.
Security in der Praxis: Weniger ist mehr
- Rootless-Container und minimale Images. Jeder zusätzliche Layer ist eine Angriffsfläche.
- AppArmor/SELinux-Profile enger schnüren als „default permissive“. Systemaufrufe via eBPF erlaubnisbasiert.
- Secrets offline: Keine „.env“-Dateien auf dem Edge. Entweder Hardware-gebundene KMS oder gesicherte Keystores, die auch ohne Internet funktionieren.
- Physische Sicherheit: Signierte Boot-Kette, verschlüsselte Datenträger, abgesicherte Service-Ports. Wenn jemand physischen Zugriff hat, hilft Ihnen keine Cloud-Policy.
Operative Feinheiten, die Audits bestehen
- Zeit und Zeitzonen:
- Loggen mit monotonic und wall-clock getrennt. Keine impliziten Sommerzeit-Sprünge in Metriken.
- Speicherbudget und Aufbewahrung:
- Technische und rechtliche Retention klar definieren. Alte Artefakte komprimieren, Prüfsummen beibehalten.
- Dokumentation als Code:
- Betriebshandbuch, Runbooks, Notfallprozeduren versioniert neben dem Code. Die beste Doku ist nutzlos, wenn sie nicht mitrollt.
Fazit: Air-gapped MLOps ist kein Anti-Cloud-Manifest, sondern eine Ingenieursdisziplin
Cloud-native MLOps skaliert hervorragend – dort, wo es erlaubt ist. In abgeschotteten Netzen braucht es andere Prioritäten:
- Reproduzierbarkeit schlägt „Move Fast“.
- Determinismus schlägt Peak-Performance-Slides.
- Signierte, auditierbare Rollouts schlagen „wir haben gestern schnell gefixt“.
Wer das konsequent umsetzt, betreibt KI in rauen Produktionsumgebungen stabil – ohne rechtliche Bauchschmerzen, ohne US-Cloud-Abhängigkeit und mit der Souveränität, die in Industrie, Bahn und Defense nicht verhandelbar ist. Genau diese Souveränität ermöglicht erst intelligente Systeme, die im Betrieb bestehen.
FAQ
- Wie bekomme ich Python-Abhängigkeiten ohne Internet stabil in die OT?
- Spiegeln Sie Wheels in ein internes, signiertes Repository. Bauen Sie Container hermetisch gegen dieses Repo, ohne „pip install“ zur Laufzeit. Für native Abhängigkeiten pflegen Sie eine explizite Binär-Artefakt-Registry. Keine „latest“-Tags, nur gehashte Versionen.
- Wie verhindere ich, dass ein „schneller Fix“ die Linie bricht?
- Zweistufig: Shadow-Mode mit klaren Akzeptanzmetriken, danach Canary pro Zelle. Deployments sind atomar (Blue/Green), Artefakte signiert, Rollback jederzeit offline möglich. Ohne zwei-Personen-Freigabe gibt es kein produktives Gate.
- Was mache ich gegen Treiber- und Runtime-Drift auf GPU-Systemen?
- Definieren Sie eine Kompatibilitätsmatrix (Treiber, Runtime, Engine). Testen Sie Builds gegen diese Matrix. Pin der Engine auf deterministische Pfade, vermeiden Sie Auto-Tuning im Feld. Versionieren und signieren Sie auch den Treiber-Stack; keine stillen Host-Updates.
- Wie beobachte ich LLM-Agenten in einem Intranet ohne Cloud?
- Agenten laufen on-prem, Telemetrie geht in lokale Stores. Loggen Sie Prompt, Kontextquellen, Tool-Aufrufe und Ergebnisse mit Rollenbezug. Definieren Sie Policies als Code (Ressourcen-Scopes, Egress=0). Nutzen Sie eine lokale Governance-/Observability-Plattform für Agenteninteraktionen mit Audit-Trail (→ alpitype.de/leistungen/).
- Wie verteile ich Updates sicher über physische Medien?
- Paketieren Sie Applikation, Modell, Konfiguration und SBOM in ein signiertes Bundle. Verifizieren Sie im OT gegen einen lokalen Trust-Anchor. Deployments sind atomar und bieten Rollback. Halten Sie die Root-Schlüssel offline (HSM/Hardware-Token), operieren Sie mit delegierten Signaturen im Alltag.
Über uns
Wir sind AlpiType. Wir bauen Industrielösungen für KI – nicht als Beratung, sondern als Software- und Systemverantwortliche. On-premise, DSGVO-konform, ohne US-Cloud-Abhängigkeit. Von Computer Vision in der Qualitätskontrolle über prädiktive Instandhaltung bis zu Governance für LLM-Agenten in abgeschotteten Netzen. Wenn Sie Air-gapped MLOps pragmatisch angehen wollen, sprechen Sie uns an (→ alpitype.de/leistungen/).