Imported Post 2026-05-01 00:13:24

Titel: Data Lake, Data Mesh oder Data Warehouse in der Industrie? Architekturentscheidungen unter Datensouveränität

Ausgangsproblem

Bevor wir über Technologien sprechen, müssen wir die eigentliche Ingenieursaufgabe präzisieren: In industriellen Umgebungen sind Daten verteilt (OT/IT, Edge/Cloud, Zulieferer/OEM), sie sind heterogen (Zeitsignale, Bilder, CAD, Protokolle), sie enthalten personenbezogene oder betriebsgeheime Informationen und sie werden oft in sicherheits- und qualitätskritischen Kontexten genutzt (Traceability, Zulassungen, Audits). Typische Randbedingungen:

Air-Gap oder strenge Netzwerkzonen, kein US-Cloud-Abfluss, DSGVO, Werksgeheimnisse.

Reproduzierbarkeit über Jahre: Ein Modell, das eine Qualitätsentscheidung trifft, muss später unter identischer Datenbasis nachvollziehbar sein.

Geringe Latenz am Edge (Kamera → Inferenz < 50 ms), aber schwere Offline-Verarbeitung im Cluster (Training, Re-Indexierung).

Versions- und Änderungsmanagement (Daten, Schemata, Features, Modelle) als Erstbürger, nicht als Add-on.

Kleine, belastbare Plattformteams: Operativ wartbare Lösungen schlagen „hippe“ Architekturen.

Mit dieser Realität im Hinterkopf ist „Data Lake vs Data Mesh vs Data Warehouse“ keine Glaubensfrage, sondern eine gezielte Architekturentscheidung entlang klarer Achsen: Latenz, Schema-Evolution, Domain-Autonomie, Compute-Lokalität, regulatorische Grenzen, Lineage/Reproduzierbarkeit und Betriebsaufwand.

Entscheidungsrahmen: Welche Architektur löst welches Problem?

Data Warehouse (klassisch)

Wofür gut:

Strukturiertes Reporting, Finanz- und Produktions-KPIs, stabile Dimensionen und Fakten, deterministische SQL-Workloads.

Strenge Schemas, gute Werkzeuge für Datenqualität, Berechtigungen, Datenmaskierung.

On-Premise-Optionen existieren (PostgreSQL/Timescale für kleinere Lasten, Exasol, Vertica, SQL Server, Oracle).

Grenzen in industriellen KI-Szenarien:

Ungeeignet für unstrukturierte Daten (Bilder, Videos, Punktwolken). Diese werden ohnehin in Objekt- oder Dateispeichern landen.

Schema-Evolution ist schwerfälliger; schnelle Iteration im ML-Feature-Engineering leidet.

Event-getriebene OT-Daten (Kafka, MQTT) passen oft besser in Streaming- und Lake/Lakehouse-Pattern.

Cloud-Warehouses bringen Souveränitätsrisiken (Transfer, US-Rechtszugriff). On-Prem-Alternativen sind vorhanden, aber teils kostspielig und weniger flexibel für ML.

Fazit:

Ein Warehouse ist in der Industrie kein Feind, sondern ein präzises Werkzeug: für reportingorientierte, stark strukturierte Datenprodukte. Für ML-first-Workloads reicht es selten allein.

Data Lake

Wofür gut:

Günstige, skalierbare Speicherung von Rohdaten (Parquet/ORC, Bilder, Logs) in S3-kompatiblem Objekt-Storage (On-Prem: MinIO, Ceph).

Schema-on-Read erlaubt flexible Exploration, Feature-Engineering, Labeling-Workflows.

ACID-Table-Formate (Apache Iceberg, Delta Lake, Hudi) heben den Lake zum „Lakehouse“: Time-Travel, Snapshots, Streaming Writes, Schema-Evolution.

Typische Engines:

Batch/Streaming: Spark, Flink, Dask.

SQL-Abfragen: Trino/Presto.

ML-Frameworks: PyTorch/TensorFlow, sklearn, XGBoost, eingebettet über Parquet/Iceberg-Connectoren.

Metadaten-Katalog: DataHub, Amundsen oder OpenMetadata; Zugriffskontrolle via Apache Ranger oder OPA.

Fallstricke:

Ohne Governance wird der Lake zum Sumpf: fehlende Datenverträge, keine Lineage, kleine Dateien ruinieren Performance.

Betrieb erfordert Disziplin: Compaction, File-Sizing, Partitionierungsstrategie, Z-Ordering/Clustering, Retention-Policies, S3-Bucket-Layouts.

Fazit:

Der Lake (bzw. Lakehouse) ist die Arbeitspferd-Basis für industrielle ML/AI: Rohdaten rein, reproduzierbare Datasets und Features raus, mit ACID-Tabellen und Katalog als Rückgrat.

Data Mesh

Wofür gut:

Organisatorisches Muster: Domänen (z. B. Montage, Quality, Maintenance) liefern kuratierte Datenprodukte mit klaren Verträgen, Versionen und SLAs.

Skaliert Governance dezentral, wenn mehrere Werke/Bereiche eigenverantwortlich liefern sollen.

Voraussetzungen (oft ignoriert):

Ein starkes zentrales Plattformteam, das Self-Service-Fähigkeiten bereitstellt: Datenkatalog, ACID-Table-Service, CI/CD, Observability, AuthN/Z, Kosten- und Kapazitätsmanagement.

Reife in Domänen: Product Owner für Datenprodukte, Pflege von Datenverträgen, Testbarkeit, On-Call-Bereitschaft für Data SLAs.

Grenzen:

Nicht für den Start. Ein Mesh ohne tragfähige Plattform scheitert an Tool- und Prozessbruchstellen.

Für kleine Organisationen ist ein Mesh-Target Operating Model überdimensioniert; ein „Lakehouse mit klaren Datenprodukten“ reicht.

Fazit:

Mesh ist ein Betriebsmodell, kein Tool. Es lohnt sich ab 3–5 aktiven Domänen mit wiederkehrenden Datenprodukten und einem etablierten Lakehouse-Fundament.

Architektur-Patterns aus der Praxis

1) Visuelle Qualitätskontrolle (Kamera, Edge, Re-Training im Cluster)

Ingestion:

Kameras → Edge-Knoten (Industrie-PC mit GPU). Vorpufferung und Store-and-Forward bei Netzunterbrechung.

Metadata-Ereignisse (Produkt-ID, Linie, Takt, Rezept) via OPC UA/PLC → Gateway → Kafka/Redpanda.

Speicherung:

Bilder/Clips als Objekte im On-Prem-S3 (MinIO) mit Buckets pro Domäne, Objekt-Lock für Audit-Trails.

Metadaten und Labels als Iceberg-Tabellen (Parquet). Snapshot-IDs sichern Reproduzierbarkeit.

Verarbeitung:

Streaming-Inferenz am Edge (Triton Inference Server oder ONNXRuntime). Latenz < 50 ms.

Offline: Spark/Flink-Pipelines für Label-Sampling, Hard-Negatives, Data Curation.

Feature Store (Feast) für nicht-bildhafte Features (z. B. Linie, Schicht, Temperatur).

Governance und Sicherheit:

Katalog (DataHub) mit Lineage bis zum Modell-Artefakt.

Zugriff via RBAC/ABAC (Keycloak + OPA), Least Privilege, getrennte Service-Accounts.

Verschlüsselung: at-rest (SSE-KMS in MinIO, Keys in Vault oder HSM), in-transit (mTLS).

MLOps:

Training orchestriert mit Argo Workflows oder Prefect; Datasets werden per Iceberg-Snapshot-ID gepinnt.

Modell-Registry (MLflow), versionierte Eval-Sets, Champion/Challenger, Canary-Rollout am Edge.

Monitoring: F1/Recall im Feld, Verteilungsdrift (PSI/KL), Rückkanal zu Labeling.

2) Prädiktive Instandhaltung im Bahn-/Maschinenfleet-Betrieb

Ingestion:

Sensorik → MQTT/OPC UA → Kafka. Event-Time mit Watermarks, Handling verspäteter Events.

Speicherung:

Timeseries in TimescaleDB für jüngste Daten (Hot), Windows/Features im Lakehouse (Iceberg) für Re-Training (Warm), Langzeit-Archiv im S3 (Cold).

Verarbeitung:

Streaming-Features (Rolling Stats, FFT) in Flink. Feature-Drift-Signale an Monitoring.

Modelle: Gradient Boosting oder LSTM/Temporal Fusion Transformer je nach Signalcharakteristik.

Deployment:

On-Prem Kubernetes mit NVIDIA GPU Operator (falls Deep Learning), ansonsten CPU-optimiert, Node-Affinity auf Produktionszellen.

GitOps (Argo CD) für deklarative Deployments, Inferenz-Telemetrie via OpenTelemetry.