• Daten-/Modellversionierung:
  • Datasets als Snapshots (Iceberg time-travel, LakeFS/DVC)
  • Modelle mit Hash, Signatur, Provenienz in Registry
  • Pipelines als Code:
  • Orchestrierte DAGs, deterministische Container, pinned Dependencies
  • Evaluations- und Freigabeprozesse:
  • Standardisierte Metriken je Use Case (z. B. Missed Defects Rate, False Alarm Rate, Latenz)
  • Human-in-the-loop Gates für produktionskritische Releases
  • Drift-/Datenqualitätsmonitoring:
  • Verteilungsshifts, Feature-Range-Checks, Outlier-Quoten
  • Alarme in Betriebssystem (Pager/SIEM), Playbooks für Rollbacks
  • LLM-/Agenten-Governance on-prem:
  • Prompt-/Response-Logging im eigenen Stack; PII-Filter, Policy-Checks vor Ausführung kritischer Aktionen
  • Offline-Evaluierung gegen realistische Szenarien; definierte Tooling-Rechte (Least Privilege)
  • Für LLM-Agenten in industriellen Kontexten empfehlen wir eine dedizierte Observability- und Governance-Schicht, die auf der bestehenden Plattform sitzt und dieselben Souveränitätsprinzipien befolgt (on-prem Deployment, vollständige Auditierbarkeit).

9) On-Prem GPU-Cluster vs. Cloud-Training – Entscheidung an der Daten- und Zweckbindung ausrichten

  • Daten-Schwerkraft:
  • Wenn der Großteil der Trainingsdaten on-prem liegt und nicht aus der Produktion heraus darf, ist on-prem Training naheliegend
  • Latenz und Verfügbarkeit:
  • Edge/Inline-Inferenz braucht lokale Kapazität; Cloud macht Sinn für nicht sensible Vortrainingsphasen – sofern rechtlich/vertraglich zulässig
  • Betriebsfähigkeit:
  • K8s mit GPU-Plugins, Slurm oder gemischt; Monitoring (DCGM), Kapazitätsplanung, Image-Registry on-prem
  • Speicher-Durchsatz und Netzwerk sind oft limitierender als GPU-Anzahl
  • Kosten- und Planbarkeit:
  • Cloud-Bursts sehen flexibel aus, sind aber bei Souveränitätsauflagen oft ausgeschlossen oder schwer auditierbar
  • Eigene Cluster erfordern Disziplin in Auslastungsplanung und Lifecycle-Management

Unter souveränen Bedingungen ist ein moderner, gut automatisierter On-Prem-Stack mit klaren Betriebsprozessen meist die robusteste Lösung.

10) Ein pragmatischer 90-Tage-Plan für den Start

  • Tage 1–15: Inventur und Leitplanken
  • Datenlandkarte: Quellen, Datentypen, Sensitivität, Latenz
  • Architekturentscheidung für den ersten Use Case (Warehouse- vs Lakehouse-zentriert)
  • Table-Format-Entscheidung (Iceberg/Delta), S3-Objekt-Storage Auswahl, Identity/RBAC-Mechanismus
  • Tage 16–45: Minimaler, aber tragfähiger Platform Slice
  • S3-Storage, Kafka, Schema Registry, Orchestrator (Airflow/Argo), Catalog, Policy Engine
  • Bronze/Silver/Gold-Standards als Code; Pseudonymisierungspipeline
  • CI/CD für Datenpipelines und ML-Jobs; Registry für Artefakte
  • Tage 46–75: Erster Domänen-Use-Case live
  • End-to-End-Pipeline: Ingestion → Kuratierung → Feature → Training → Inferenz
  • Datenqualitätstests, Metriken, Drift-Monitoring
  • Tage 76–90: Härtung und Mesh-Vorbereitung
  • Data Product Definitionen, SLOs, Dokumentation im Katalog
  • Rechte-/Rollenkonzepte, Audit- und Lineage-Reports
  • Lessons Learned in Standards gießen; zweiter Use Case andocken

11) Anti-Pattern, die wir in der Praxis meiden

  • Cloud-Referenzarchitekturen 1:1 in Air-Gap-Umgebungen kopieren
  • Ergebnis: unpatchbare Images, kaputte CI/CD, versteckte Abhängigkeiten
  • Zentraler Data Lake ohne Verträge/Standards
  • Ergebnis: Datenmüllhalde, niemand vertraut irgendwas, ML stagniert
  • „Data Mesh“ ohne Plattform
  • Ergebnis: jeder nutzt andere Formate/Tools, Governance nicht durchsetzbar
  • US-SaaS für Logs/Monitoring in sensiblen Bereichen
  • Ergebnis: Compliance-Risiken, intransparent
  • Modelle ohne reproduzierbares Dataset und Freigabeprozess deployen
  • Ergebnis: nicht auditierbar, regressionsanfällig

Fazit

Architekturentscheidungen für industrielle KI sind keine Geschmacksfrage: Sie müssen OT/IT-Realitäten, DSGVO und Souveränität aushalten. Ein Lakehouse-Ansatz mit starken Governance-Mechanismen deckt gemischte Datentypen und ML-Bedürfnisse gut ab. Warehouse-Elemente ergänzen, wo konsistente KPI und Reporting dominieren. Data Mesh ist ein Skalierungsprinzip – aber nur tragfähig mit einer robusten, souveränen Plattform. Wer Pseudonymisierung, Lineage, Reproduzierbarkeit und on-prem Betriebsfähigkeit als Erstklassbürger behandelt, liefert verlässlich produktive KI statt Prototypen.

FAQ

Frage 1: Iceberg, Delta oder Hudi – welches Table-Format soll ich wählen?
Antwort: Entscheidend sind Ihre Laufzeitumgebung und Workload-Profile. Für on-prem Lakehouse mit gemischten Batch/Streaming-Workloads und strikter Schema-Evolution sind Iceberg und Delta beides solide Optionen. Wählen Sie das Format, für das Sie in Ihrem Stack (z. B. Spark/Flink, Catalog-Integration, Engines) zuverlässig Support betreiben können. Technisch wichtig: ACID-Transaktionen, Time-Travel/Snapshots, saubere Partitionierung und ein Katalog, den Sie on-prem kontrollieren.

Frage 2: Wie bringe ich SCADA/PLC-Daten DSGVO-konform in den Lake?
Antwort: Nutzen Sie Edge-Collectoren in der OT-Zone mit:

  • Protokolladaptern (OPC UA/Modbus), Pufferung für Netzunterbrechungen
  • Früher Pseudonymisierung (z. B. Bediener-IDs) und Reduktion auf erforderliche Signale
  • Signierte, versionierte Übertragung in eine DMZ (Kafka) und weiter in S3/Iceberg
  • Konsistente Zeitbasis (NTP), klare Zeitstempelstrategie
  • Policies, die in der Pipeline durchgesetzt werden (Maskierung, Zweckbindung)

Frage 3: Brauche ich für ML zwingend einen Feature Store?
Antwort: Wenn Sie mehrere Modelle oder Teams betreiben, ja. Ein Feature Store erzwingt Wiederverwendbarkeit, Konsistenz zwischen Training und Inferenz und erleichtert Drift-Monitoring. Für einen ersten, isolierten Use Case können kuratierte Gold-Tabellen genügen – aber planen Sie die Migration in einen Feature-Store-Pfad frühzeitig ein, um Wildwuchs zu vermeiden.

Frage 4: Wie sichere ich Reproduzierbarkeit in einer Air-Gap-Umgebung?
Antwort: Bauen Sie Ihren gesamten ML/Daten-Stack als deterministische, versionierte Artefakte:

  • Container-Images aus internem Registry-Mirror, Dependencies gepinnt
  • Datasets als Snapshots (Iceberg Time-Travel/LakeFS), Artefakte in Registry mit Hash/Signatur
  • Pipelines als Code (Argo/Airflow), Konfigurationen versioniert
  • Modell-Freigaben über definierte Gates mit Metriken und Prüfschritten

So können Sie ein Ergebnis jederzeit mit denselben Inputs und demselben Code neu erzeugen.

Frage 5: Echtzeit-Inferenz an der Linie – zentral oder am Edge?
Antwort: Für harte Latenz- und Verfügbarkeitsanforderungen gehört das Modell an den Edge (z. B. Industrie-PC mit GPU) und läuft offline-fähig. Die zentrale Plattform liefert Updates, sammelt Telemetrie und übernimmt Training/Monitoring. Verwenden Sie einen Online-Feature-Store (z. B. Redis) lokal und synchronisieren Sie nur aggregierte Metriken zurück. So bleiben Sie deterministisch, souverän und ausfallsicher.