Titel: Data Lake, Data Mesh oder Data Warehouse in der Industrie? Architekturentscheidungen unter Datensouveränität
Ausgangsproblem
Bevor wir über Technologien sprechen, müssen wir die eigentliche Ingenieursaufgabe präzisieren: In industriellen Umgebungen sind Daten verteilt (OT/IT, Edge/Cloud, Zulieferer/OEM), sie sind heterogen (Zeitsignale, Bilder, CAD, Protokolle), sie enthalten personenbezogene oder betriebsgeheime Informationen und sie werden oft in sicherheits- und qualitätskritischen Kontexten genutzt (Traceability, Zulassungen, Audits). Typische Randbedingungen:
- Air-Gap oder strenge Netzwerkzonen, kein US-Cloud-Abfluss, DSGVO, Werksgeheimnisse.
- Reproduzierbarkeit über Jahre: Ein Modell, das eine Qualitätsentscheidung trifft, muss später unter identischer Datenbasis nachvollziehbar sein.
- Geringe Latenz am Edge (Kamera → Inferenz < 50 ms), aber schwere Offline-Verarbeitung im Cluster (Training, Re-Indexierung).
- Versions- und Änderungsmanagement (Daten, Schemata, Features, Modelle) als Erstbürger, nicht als Add-on.
- Kleine, belastbare Plattformteams: Operativ wartbare Lösungen schlagen „hippe“ Architekturen.
Mit dieser Realität im Hinterkopf ist „Data Lake vs Data Mesh vs Data Warehouse“ keine Glaubensfrage, sondern eine gezielte Architekturentscheidung entlang klarer Achsen: Latenz, Schema-Evolution, Domain-Autonomie, Compute-Lokalität, regulatorische Grenzen, Lineage/Reproduzierbarkeit und Betriebsaufwand.
Entscheidungsrahmen: Welche Architektur löst welches Problem?
Data Warehouse (klassisch)
Wofür gut:
- Strukturiertes Reporting, Finanz- und Produktions-KPIs, stabile Dimensionen und Fakten, deterministische SQL-Workloads.
- Strenge Schemas, gute Werkzeuge für Datenqualität, Berechtigungen, Datenmaskierung.
- On-Premise-Optionen existieren (PostgreSQL/Timescale für kleinere Lasten, Exasol, Vertica, SQL Server, Oracle).
Grenzen in industriellen KI-Szenarien:
- Ungeeignet für unstrukturierte Daten (Bilder, Videos, Punktwolken). Diese werden ohnehin in Objekt- oder Dateispeichern landen.
- Schema-Evolution ist schwerfälliger; schnelle Iteration im ML-Feature-Engineering leidet.
- Event-getriebene OT-Daten (Kafka, MQTT) passen oft besser in Streaming- und Lake/Lakehouse-Pattern.
- Cloud-Warehouses bringen Souveränitätsrisiken (Transfer, US-Rechtszugriff). On-Prem-Alternativen sind vorhanden, aber teils kostspielig und weniger flexibel für ML.
Fazit:
- Ein Warehouse ist in der Industrie kein Feind, sondern ein präzises Werkzeug: für reportingorientierte, stark strukturierte Datenprodukte. Für ML-first-Workloads reicht es selten allein.
Data Lake
Wofür gut:
- Günstige, skalierbare Speicherung von Rohdaten (Parquet/ORC, Bilder, Logs) in S3-kompatiblem Objekt-Storage (On-Prem: MinIO, Ceph).
- Schema-on-Read erlaubt flexible Exploration, Feature-Engineering, Labeling-Workflows.
- ACID-Table-Formate (Apache Iceberg, Delta Lake, Hudi) heben den Lake zum „Lakehouse“: Time-Travel, Snapshots, Streaming Writes, Schema-Evolution.
Typische Engines:
- Batch/Streaming: Spark, Flink, Dask.
- SQL-Abfragen: Trino/Presto.
- ML-Frameworks: PyTorch/TensorFlow, sklearn, XGBoost, eingebettet über Parquet/Iceberg-Connectoren.
- Metadaten-Katalog: DataHub, Amundsen oder OpenMetadata; Zugriffskontrolle via Apache Ranger oder OPA.
Fallstricke:
- Ohne Governance wird der Lake zum Sumpf: fehlende Datenverträge, keine Lineage, kleine Dateien ruinieren Performance.
- Betrieb erfordert Disziplin: Compaction, File-Sizing, Partitionierungsstrategie, Z-Ordering/Clustering, Retention-Policies, S3-Bucket-Layouts.
Fazit:
- Der Lake (bzw. Lakehouse) ist die Arbeitspferd-Basis für industrielle ML/AI: Rohdaten rein, reproduzierbare Datasets und Features raus, mit ACID-Tabellen und Katalog als Rückgrat.
Data Mesh
Wofür gut:
- Organisatorisches Muster: Domänen (z. B. Montage, Quality, Maintenance) liefern kuratierte Datenprodukte mit klaren Verträgen, Versionen und SLAs.
- Skaliert Governance dezentral, wenn mehrere Werke/Bereiche eigenverantwortlich liefern sollen.
Voraussetzungen (oft ignoriert):
- Ein starkes zentrales Plattformteam, das Self-Service-Fähigkeiten bereitstellt: Datenkatalog, ACID-Table-Service, CI/CD, Observability, AuthN/Z, Kosten- und Kapazitätsmanagement.
- Reife in Domänen: Product Owner für Datenprodukte, Pflege von Datenverträgen, Testbarkeit, On-Call-Bereitschaft für Data SLAs.
Grenzen:
- Nicht für den Start. Ein Mesh ohne tragfähige Plattform scheitert an Tool- und Prozessbruchstellen.
- Für kleine Organisationen ist ein Mesh-Target Operating Model überdimensioniert; ein „Lakehouse mit klaren Datenprodukten“ reicht.
Fazit:
- Mesh ist ein Betriebsmodell, kein Tool. Es lohnt sich ab 3–5 aktiven Domänen mit wiederkehrenden Datenprodukten und einem etablierten Lakehouse-Fundament.
Architektur-Patterns aus der Praxis
1) Visuelle Qualitätskontrolle (Kamera, Edge, Re-Training im Cluster)
- Ingestion:
- Kameras → Edge-Knoten (Industrie-PC mit GPU). Vorpufferung und Store-and-Forward bei Netzunterbrechung.
- Metadata-Ereignisse (Produkt-ID, Linie, Takt, Rezept) via OPC UA/PLC → Gateway → Kafka/Redpanda.
- Speicherung:
- Bilder/Clips als Objekte im On-Prem-S3 (MinIO) mit Buckets pro Domäne, Objekt-Lock für Audit-Trails.
- Metadaten und Labels als Iceberg-Tabellen (Parquet). Snapshot-IDs sichern Reproduzierbarkeit.
- Verarbeitung:
- Streaming-Inferenz am Edge (Triton Inference Server oder ONNXRuntime). Latenz < 50 ms.
- Offline: Spark/Flink-Pipelines für Label-Sampling, Hard-Negatives, Data Curation.
- Feature Store (Feast) für nicht-bildhafte Features (z. B. Linie, Schicht, Temperatur).
- Governance und Sicherheit:
- Katalog (DataHub) mit Lineage bis zum Modell-Artefakt.
- Zugriff via RBAC/ABAC (Keycloak + OPA), Least Privilege, getrennte Service-Accounts.
- Verschlüsselung: at-rest (SSE-KMS in MinIO, Keys in Vault oder HSM), in-transit (mTLS).
- MLOps:
- Training orchestriert mit Argo Workflows oder Prefect; Datasets werden per Iceberg-Snapshot-ID gepinnt.
- Modell-Registry (MLflow), versionierte Eval-Sets, Champion/Challenger, Canary-Rollout am Edge.
- Monitoring: F1/Recall im Feld, Verteilungsdrift (PSI/KL), Rückkanal zu Labeling.
2) Prädiktive Instandhaltung im Bahn-/Maschinenfleet-Betrieb
- Ingestion:
- Sensorik → MQTT/OPC UA → Kafka. Event-Time mit Watermarks, Handling verspäteter Events.
- Speicherung:
- Timeseries in TimescaleDB für jüngste Daten (Hot), Windows/Features im Lakehouse (Iceberg) für Re-Training (Warm), Langzeit-Archiv im S3 (Cold).
- Verarbeitung:
- Streaming-Features (Rolling Stats, FFT) in Flink. Feature-Drift-Signale an Monitoring.
- Modelle: Gradient Boosting oder LSTM/Temporal Fusion Transformer je nach Signalcharakteristik.
- Deployment:
- On-Prem Kubernetes mit NVIDIA GPU Operator (falls Deep Learning), ansonsten CPU-optimiert, Node-Affinity auf Produktionszellen.
- GitOps (Argo CD) für deklarative Deployments, Inferenz-Telemetrie via OpenTelemetry.