2) Storage- und Tabellen-Schicht

  • Objekt-Storage On-Prem (S3-kompatibel, z. B. Ceph) als kosteneffiziente Basis.
  • ACID-Tabellenformate auf dem Lake für:
  • Upserts/Merges (z. B. CDC aus ERP/MES).
  • Time-Travel für reproduzierbare Trainingsläufe.
  • Schema-Evolution mit Constraints.
  • Partitions- und Clustering-Strategie anhand Zugriffspfaden (zeit-, anlagen-, linienbasiert). Small-File-Vermeidung via Kompaktionen.
  • Layering:
  • Bronze: Rohdaten, append-only, minimal normalisiert.
  • Silver: Bereinigt, harmonisiert, einheitenkorrigiert, mit stabilen Keys.
  • Gold: Domänenspezifische Datenprodukte mit SLAs; ML-Feature-Derivate und KPIs.

3) Metadaten, Katalog, Governance

  • Zentraler Katalog mit:
  • Datenprodukte, Eigentümer, Qualitätssignale, Datenverträge.
  • Technische/geschäftliche Lineage (von Topic/Datei über Tabellen bis zu Modellen).
  • Zugriffspolicies (Row-/Column-Level), Audit-Logs, Freigabe-Workflows.
  • Datenverträge als Code (Schema + Qualitätsregeln + SLAs versioniert im Git). CI-Checks blocken inkompatible Releases.
  • DSGVO-Mechanik:
  • Data Subject Map: Wo können PII sein? Welche Ableitungen existieren?
  • Lösch- und Sperr-Workflows: Deletion Vectors/Soft-Deletes auf Tabellenebene; Re-Materialisierung abhängiger Artefakte; “Right to be forgotten”-Nachweis via Audit.

4) Feature-Plattform

  • Einheitliche Definition von Features als Code (inkl. Berechnungslogik, Fensterung, Aggregationen).
  • Offline-Store auf Lakehouse-Tabellen (reproduzierbare Trainingssets).
  • Online-Store für Inferenz (ms-Lookups) – lokal pro Werk/Standort, synchronisiert asynchron aus Silver/Gold.
  • Point-in-Time-Korrektheit: Keine Leaks aus Zukunftsdaten bei Training; Join-Strategien über Event-Time + Wasserzeichen.
  • Drift-/Qualitätsmonitore pro Feature (Verteilung, Nullraten, Range, Korrelationen).

5) Compute, Orchestrierung, Reproduzierbarkeit

  • On-Prem Compute-Cluster (Kubernetes oder HPC-Scheduler) für:
  • ETL/ELT/Streaming-Jobs.
  • Trainingsläufe (GPU/CPU), Hyperparameter-Suchen.
  • Batch-Inferenz.
  • Artefakt- und Modell-Registry:
  • Modelle mit Verweis auf Daten-Snapshot-IDs, Feature-Versionen, Code-Commit.
  • Reproduzierbarkeit: gleicher Input -> gleiche Metriken.
  • Orchestrierung:
  • Workflow-Engine für DAGs (Abhängigkeiten Bronze->Silver->Gold->Feature->Training/Serving).
  • GitOps für Datenprodukte und Pipelines (Pull Requests, Reviews, Rollbacks).

6) Serving und Edge-Integration

  • CV/Anomalie-Modelle nahe an der Linie (Edge-Nodes mit GPU), harte SLOs; Stufen: Schattenmodus -> Canary -> Vollausrollung.
  • Batch-Inferenz für Planung/Optimierung im Backend; Ergebnisse als Gold-Tabellen zurück in Warehouse/KPIs.
  • LLM/RAG:
  • On-Prem Vektorsuche/Indexe über freigegebene Dokumente; Embeddings lokal generieren.
  • Zugriffskontrolle pro Dokument/Abschnitt; Schwärzung, Versionierung.
  • Agenten in kontrollierten Laufzeitumgebungen, mit Telemetrie, Policy-Checks und Audit. Alpi-M übernimmt Observability/Governance für solche LLM-Workloads.

7) Warehouse-Sidecar

  • Materialisierte Gold-Sichten für BI/Controlling/KPI – erzeugt aus Lakehouse-Tabellen per CTAS/ELT.
  • Kein doppeltes ETL. Eine Quelle der Wahrheit: Lakehouse. Warehouse ist Consumer mit klarer Domänenverantwortung.

Bereitstellungsmodell: Federiert statt chaotisch

  • Zentrale Plattform liefert:
  • Storage, Compute, Katalog, Identity/Access, Observability, CI/CD, Standard-Bibliotheken (Zeit, Einheiten, Keys).
  • Domänenteams liefern Datenprodukte:
  • Repositories pro Domäne, definierte Output-Tabellen/Topics, Qualitätssignale.
  • Versionierte Datenverträge. Abwärtskompatibilität ist Regel, Brüche sind Ausnahme und require Migration.
  • Hub-and-Spoke:
  • “Hub” ist das Lakehouse + Katalog.
  • “Spokes” sind Werke/Business-Domänen mit eigenem Takt, aber kompatiblen Standards.

Entscheidungsmatrix: Wann was?

  • Primär BI, klare relationale Schemata, wenig ML: Data Warehouse im Zentrum; Lake als Archiv für später.
  • ML-/DL-schwere Roadmap (CV, Zeitreihen, RAG), heterogene Daten: Lakehouse im Zentrum, Warehouse als Sidecar.
  • Viele autonome Werke/Domänen, Reife im Team: Mesh-Prinzipien auf Lakehouse, kein Tool-Only-Mesh.
  • Strenge Souveränität/DSGVO, sensible Daten, Air-Gap: On-Prem-Lakehouse, offene Formate, keine US-Cloud-Abhängigkeit.

Wesentliche Engineering-Details und Fallstricke

  • Partitionierung und Small Files:
  • Zeitbasierte Partitionen mit sinnvoller Körnung (Stunde/Tag je Volumen).
  • Automatische Kompaktionen, Write-Batching, Merge-Strategien für CDC.
  • Schema-Evolution:
  • Nur additive Änderungen ohne Migration. Brechende Änderungen via neue Tabelle/Version + deprecation.
  • Unit- und Contract-Tests im CI. Datenmigrationen wie Code behandeln.
  • Zeit und Ordnung:
  • Immer Event-Time speichern. Processing-Time nur für Monitoring.
  • Wasserzeichen für späte Events; Idempotenzschlüssel im Ingest.
  • Einheiten und Normalisierung:
  • Einheitliche, maschinenlesbare Einheiten. Konvertieren bei Ingest, Ursprung erhalten.
  • Identitäten:
  • Stabile Maschinen-/Komponenten-IDs; Mapping-Tabellen bei Upgrades.
  • Pseudonyme für Personenbezug. Hashes mit Salt; Re-Identifikationsrisiken aktiv minimieren.
  • Right to be forgotten:
  • Löschvorgänge transaktional. Deletion Vectors auf Tabellenebene.
  • Downstream-Artefakte (Features, Modelle, Indizes) re-materialisieren; Audit-Trail führen.
  • Reproduzierbarkeit:
  • Jeder Trainingslauf referenziert Data-Snapshot, Code-Commit, Feature-Version.
  • Deterministische Seeds, Containerisierte Läufe, fixierte Dependencies.
  • Drift-Überwachung:
  • Datendrift (Verteilungen), Konzeptdrift (Labels→Performance), Performancedrift (SLO).
  • Alerts an Domänenteams; automatisierte Canary-Rollbacks.
  • Edge-Resilienz:
  • Store-and-forward bei Netzabbrüchen.
  • Lokale Pufferung, Replays, Duplikatentfernung.

Migration in realistischen Schritten

1) Inventory und Domänenzuschnitt

  • Quellen erfassen: OT/IT, Datenarten, Volumina, Latenzen, Compliance-Klassen.
  • Domänen festlegen, erste Datenprodukte definieren, Datenverträge schreiben.

2) Minimal funktionsfähige Plattform (On-Prem)

  • Objekt-Storage, Katalog, Message-Bus, Orchestrierung, Identity/Access.
  • Bronze/Silver-Pfade, Quarantäne, Grund-Monitoring.

3) Proof-of-Value an je einem Use Case pro Domäne

  • Echte Ende-zu-Ende-Kette: Ingest → Lakehouse → Feature → Training → Serving → Monitoring → KPI.
  • Erfolgskriterien: Cycle Time von Datenänderung bis Modell-Update, Ausfallzeiten, Fehlerraten, Nachweis DSGVO-Löschrecht.

4) Feature-Plattform und Warehouse-Sidecar

  • Features als Code zentralisieren, Online/Offline splitten.
  • Gold-KPIs in Warehouse materialisieren; BI anschließen.

5) Skalierung und Federation

  • Mehr Domänen onboarden, Mesh-Prinzipien verstärken, Standards hart halten.
  • Technische Schulden regelmäßig tilgen: Kompaktionen, Archivierungspläne, Retention.

Souveränität als Leitplanke, nicht als nachträglicher Sticker