Imported Post 2026-04-21 00:21:00

Daten- und KI-Infrastruktur in der Industrie: Architekturentscheidungen, die Souveränität und Praxis verbinden

Aus Engineering-Sicht scheitern die meisten industriellen KI-Initiativen nicht am Modell, sondern an der Dateninfrastruktur. Wer die Pipeline nicht im Griff hat – von OT-Schnittstellen über Speicherformate bis zu Governance und Deployment – zahlt später mit instabilen Systemen, regulatorischem Risiko und ewigem „POC-Theater“. Dieser Beitrag adressiert konkrete Architekturentscheidungen für industrielle Umfelder: Data Lake vs Data Mesh vs Data Warehouse, DSGVO-konforme Datensouveränität, MLOps-Praxis und die Frage On-Prem-GPU-Cluster vs Cloud-Training. Keine Technologie-Show, sondern belastbare Muster und Trade-offs.

Problemrahmen in der Industrie

Heterogene Quellen: SPS/PLCs, OPC UA, MQTT, industrielle Bildverarbeitung, Timeseries aus dem Historian, ERP/MES/SCADA, Qualitätsprotokolle, Wartungslogs, CAD/PLM-Daten, Handbücher in PDF.
Netzwerk- und Sicherheitszonen: OT/IT-Trennung, Air-Gap-Ansätze, eingeschränkte Bandbreiten, Change-Fenster, Data-Diode-Setups.
Regulatorik: DSGVO, Betriebsgeheimnisse, Exportkontrollen; Lieferkette; Auditierbarkeit.
Lebenszyklen: Maschinen 10–20 Jahre, Software muss wartbar bleiben, Vendor-Neutralität essenziell.
Realtime-Anforderungen: Inferenz am Edge unter Latenz- und Zuverlässigkeitszwängen, harte SLAs.
Souveränität: Keine Abhängigkeit von US-Clouds, Datenlokalität, eigene Schlüssel, On-Prem-Betrieb.

In so einem Umfeld ist die erste Architekturentscheidung: Datenlogistik vor Modellwahl. Erst wenn Rohdaten verlässlich, nachvollziehbar und DSGVO-fest fließen, lohnen sich Hyperparameter.

Data Lake, Data Mesh, Data Warehouse – was passt wofür?

Es gibt keine Einheitslösung. In der Praxis kombinieren wir Architekturen entlang von Workloads, Domänenverantwortung und Governance.

Data Warehouse

Stärken: Kuratierte, starre Schemata; konsistente KPIs; geeignet für BI/Reporting.

Schwächen: Geringe Schema-Evolvierbarkeit; oft teuer bei unstrukturierten Daten (Bilder, PDF, Sensordaten).

Industriepraxis: ERP/MES/Finance-Kennzahlen landen sinnvoll im Warehouse. Für ML-Trainingsdaten ungeeignet.

Data Lake

Stärken: Günstige Speicherung großer, heterogener Daten (Parquet, ORC, Bilder, Video, JSON); Schema-on-read; gut für ML.

Schwächen: Ohne Governance verkommt der Lake zum Sumpf; Datenqualität schwer durchzusetzen.

Industriepraxis: Rohbilder aus Kameras, Sensorstreams, unstrukturierte Doku; wichtig: formale Schichten (Bronze/Silver/Gold) und strikte Verträge.

Lakehouse (Data Lake + ACID-Tabellenformate)

Stärken: Transaktionen, Time-Travel, Schema-Evolution auf Data-Lake-Speicher; vereinheitlicht BI und ML teilweise.

Formate: Delta Lake, Apache Iceberg, Apache Hudi.

Industriepraxis: Für ML-Features und reproduzierbare Trainingsschnitte ist ein Lakehouse die tragfähige Basis, vor allem Iceberg/Delta mit Parquet auf objektbasiertem Storage (On-Prem S3-kompatibel).

Data Mesh

Idee: Domänen-Teams verantworten „Data Products“ mit klaren Verträgen; föderierte Governance.

Gefahr: Ohne starke Plattform- und Governance-Schicht droht Tool-Wildwuchs, Inkonsistenz, Sicherheitslücken.

Industriepraxis: Sinnvoll ab einer gewissen Größe (mehrere Werke/Business Units). Kern ist nicht die Autonomie, sondern die Standardisierung: einheitliche Speicherformate, Kontrakte, Sicherheits- und Katalogdienste, die die Domänen nutzen müssen.

Empfehlung für industrielle KI

Warehouse behalten für klassische BI.

Lakehouse als primäre Grundlage für ML/AI: Rohdaten (Bronze) in nativen Formaten, kuratierte Datasets (Silver) in Parquet + Iceberg/Delta, modellnahe Feature-/Label-Sichten (Gold) mit Data Contracts.

Data Mesh selektiv: Domänen-Roadmap, Data-Product-Templates, Freigabeprozess, zentral bereitgestellte „Paved Roads“ (Ingestion-Operatoren, Formatvorgaben, Katalog, Governance).

Konkrete Datenpfade und Formate

Ingestion aus OT:
OPC UA-Subscriptions, MQTT von Edge-Gateways; Backpressure-resistent per Kafka/Redpanda.
Historian-Exporte per Batch (Fensterweise) oder CDC aus MES/ERP (z. B. über Change Data Capture Connectors).
Bilddaten: Direktes Schreiben der Kameras/Edge-Gateways in On-Prem-Objektspeicher (S3-API), Metadaten als Parquet-Tabellen.
Speicher:
Objektspeicher On-Prem (z. B. S3-kompatibel) für Rohdaten; Iceberg/Delta als Tabellenlayer auf demselben Storage.
Timeseries: Entweder in Parquet-partitionierten Tabellen (für Batch/Backtesting) plus eine Time-Series-DB (z. B. TimescaleDB) für Online-Analysen.
Datenverarbeitung:
Batch: Spark auf Kubernetes oder Dask/Ray für verteilte Verarbeitung.
Streaming: Kafka Streams/Flink für Feature-Pipelines in Echtzeit; Schema-Registrierung (Avro/Protobuf).
Data Contracts:
Protobuf/Avro-Schemata, versioniert; Validierung im Ingestion-Path; De-/Serialization als Gate.
Qualität und Lineage:
Data-Tests (z. B. Expectation-Suites) auf jeder Schicht; technische Lineage über Orchestrator/Katalog; fachliche Lineage als Teil des Data Products.

Datensouveränität und DSGVO – Architektur statt Papier

„DSGVO-konform“ ist kein Aufkleber, sondern eine technische Eigenschaft der Plattform. Kernelemente:

Datenlokalität und Sovereign Operations

On-Prem- oder EU-Cloud ohne US-Rechtszugriff; eigene Kryptoschlüssel (HSM oder On-Prem-KMS).

Keine Abhängigkeit von externen Foundation-API-Calls für produktive Pfade. Falls externe Services im Prototyp verwendet werden, dann strikt mit anonymisierten Datasets und ohne Produktionszugriff.

Datenminimierung und Pseudonymisierung

PII in der Industrie existiert: Schichtpläne, Wartungslogs, Ticketing, Audittrails, Stimme/Video, Office-Dokumente.

Pipeline-Pattern:

Klassifikation: PII/Secrets-Erkennung beim Ingest (Regeln + ML-basierte DLP).

Pseudonymisierung: deterministisch, formatwahrend (z. B. FPE) für IDs, mit Salt in HSM; reversible nur mit strengem Schlüsselzugriff.

Anonymisierung bei Bedarf für Analyse (Aggregationen, Rauschen), aber mit Vorsicht bei Timeseries (Re-Identifizierbarkeit!).

Retention und Right-to-Erasure:

Objekt-Lifecycle-Policies je Bucket/Tabelle; WORM/Legal-Hold nur, wo rechtlich nötig.

Löschanfragen: Mapping von Pseudonym zu Original via Key-Escrow, Audit der Löschkette.

Zugriffskontrolle und Audit

Zero-Trust, mTLS, Service-Identitäten (z. B. SPIFFE/SPIRE).

Feingranulare Policies: ABAC/RBAC via zentraler Policy Engine (Policy-as-Code, z. B. OPA) und einheitliche Durchsetzung (Gateway, Storage, Query Engine).

Auditlog end-to-end: Datenzugriffe, Modellabrufe, Prompt-/Kontext-Logging bei LLM-Anwendungen mit On-the-fly-Redaktion (PII-Maskierung).