- Rechtsgrundlage und Zweckbindung: Jedes Dataset im Katalog trägt seine Rechtsgrundlage (z. B. Vertrag, berechtigtes Interesse, Einwilligung) und den Zweck. Pipelines prüfen zur Laufzeit, ob ein geplanter Verarbeitungsschritt diese Kombination erlaubt.
- Datenminimierung und Privacy by Design: Standardpfad anonymisiert/pseudonymisiert früh im ETL. Freitextfelder werden vor Indexierung tokenisiert/klassifiziert und – falls nicht nötig – verworfen. Bild- oder Videoverarbeitung entfernt identifizierende Bereiche, die für den Use-Case irrelevant sind.
- Pseudonymisierung vs Anonymisierung: Pseudonymisierte Daten bleiben personenbezogen. Daraus folgt: strenge Zugriffskontrollen, separate Schlüssel, keine unkontrollierte Weitergabe. Anonymisierte Daten dürfen keine Re-Identifikation mehr ermöglichen; bei technischen Datasets ist das selten wirklich nötig und schwer zu garantieren – also vorsichtig damit werben.
- Betroffenenrechte: Auskunft, Berichtigung, Löschung. Technisch heißt das: Detaillierte Lineage, gezielte Löschmarkierung und Neuberechnung abgeleiteter Artefakte. Für Modelle praktisch: Re-Training aus einem Datasetsnapshot, der den Datensatz nicht enthält. Dafür braucht es:
- Versionierte Trainingsdaten
- Reproduzierbare Trainings-Jobs
- Sharding/Chunking, um selektiv zu ersetzen statt „alles“ neu zu rechnen, wo möglich
- Schlüsseltrennung und -rotation: Schlüssel nie mit Daten gemeinsam speichern; Rotation testen wie Releases; Notfallszenarien regelmäßig üben.
On-Prem GPU-Cluster vs. Cloud-Training: Entscheidung mit klaren Kriterien
On-Prem ist nicht „romantisch“, sondern oft zwingend:
- Daten dürfen rechtlich das Haus nicht verlassen (z. B. Produktionsdaten, Verteidigung, Fahrgastdaten).
- Deterministische Latenz, Exfiltrationsschutz und physische Kontrolle sind Anforderungen.
- Stabile, vorhersehbare Workloads mit hoher Auslastung machen CapEx wirtschaftlich.
Cloud kann sinnvoll sein, wenn:
- Kurzfristige Spike-Lasten auftreten, die sich wirtschaftlich nicht on-premisieren lassen.
- Nur synthetische oder vollständig anonymisierte Daten verwendet werden.
- Zusätzliche Maßnahmen greifen: privater Netzwerkpfad, striktes Logging, Verschlüsselung, klarer Vertrag zur Unterauftragsvergabe.
Technische Überlegungen für On-Prem-Training:
- Scheduler und Quotas: Jobs bekommen feste GPU-Kontingente; Preemption für hohe Prioritäten.
- Sharing: GPU-Partitionierung (wo verfügbar) für Inferenz/Training parallel.
- Storage: Lokaler NVMe-Cache pro Node für IO-lastiges Training, plus dedizierter Durchsatz vom Objektspeicher.
- Energie/Kühlung/Platz: Früh in die Kapazitätsplanung. Monitoring bis zur Stromschiene hilft, böse Überraschungen zu vermeiden.
- Desaster-Recovery: Geografisch getrennte, verschlüsselte Backups im eigenen Besitz. Regelmäßig Wiederherstellungen testen.
Data Lake vs. Data Mesh vs. Data Warehouse: Was taugt wofür?
- Data Warehouse: Stark für standardisierte, strukturierte BI-Analysen mit stabilen Schemas. Für explorative ML/LLM und vielfältige unstrukturierte Daten schnell zu eng oder teuer, wenn man alles hineinpresst.
- Data Lake: Flexibel für Rohdaten, unstrukturierte Daten, schnelle Iteration. Ohne ACID-Tabellenformate und Governance aber ein Minenfeld.
- Lakehouse: ACID-Tabellen auf dem Lake vereinen Flexibilität und Strukturiertheit – ideal als Kern für ML/LLM, Streaming und auch BI.
- Data Mesh: Organisationsprinzip – Domänen verantworten „Data Products“ mit klaren SLAs und Schnittstellen. Funktioniert nur, wenn die Plattform (Lakehouse + Governance + Self-Service) zuerst steht. Sonst skaliert man Chaos.
Für Industrieumgebungen bewährt sich:
- Lakehouse als technische Basis (ACID, Time-Travel, Versionierung).
- Domänenorientierte Data Products auf dieser Basis (z. B. Fertigung, Qualität, Flotte, Instandhaltung).
- Zentrale Governance und Policy-Engine, dezentrale Verantwortung für Datenqualität und -produktivität.
- Vermeidung von Kopien: Eine Version, mehrere Sichten (raw/curated/feature) und Rollenrechte.
LLM unter Souveränitätsanforderungen: die zusätzlichen Stolpersteine
- Prompt-Daten sind oft personenbezogen: Support-Tickets, Wartungsprotokolle, interne Memos. Sie gehören nicht in US-APIs. Entweder on-prem LLM oder ein klar vertraglich gesicherter EU-Anbieter – und selbst dann: Egress standardmäßig sperren.
- RAG statt unnötigem Fine-Tuning: Unternehmenswissen per Retrieval einbinden, nicht ins Modell „einbacken“. So bleibt Wissen versionierbar, widerrufbar und zweckgebunden.
- Embeddings und Indizes: Keine PII in Embeddings, wenn möglich. Trennung nach Mandant und Zweck. Verschlüsselung at rest. Regelmäßige Rebuilds, wenn Löschanfragen eintreffen.
- Halluzination und Haftung: Output-Filter, Quellenzitierung bei RAG, Confidence-Signale. Mensch-in-der-Schleife für kritische Entscheidungen.
- Observability und Governance für LLM: Prompt- und Antwort-Telemetrie, Blocklisten, PII-Scanner, Policy-Hooks vor und nach Inferenz, Retention-Policies. Ohne das ist jede LLM-Einführung blind.
Pragmatischer 90-Tage-Plan
Tage 0–30: Bestandsaufnahme und sichere Basis
- Dateninventur: Quellen, Schemata, Sensitivität, Rechtsgrundlagen, heutige Kopien.
- Minimal-Plattform: Kubernetes, Objektspeicher, KMS, Secrets, zentrale AuthN/AuthZ.
- Tabellenformat und Katalog etablieren; Data Contracts für die Top-3-Quellen definieren.
- DLP-Pipeline: PII-Erkennung und Pseudonymisierung in den Ingestion-Flow integrieren.
Tage 30–60: Produktive MLOps-Grundlagen
- Orchestrator, Metadaten-Store, Registry, Dataset-Versionierung aufsetzen.
- Policy as Code: ABAC mit Zweckbindung und erste Zugriffspfade in Produktion.
- GPU-Knoten integrieren; Trainings-Container und Reproduzierbarkeit sicherstellen.
- Observability: Data- und Model-Metriken, Audit-Logs, Governance-Events.
Tage 60–90: Erster End-to-End-Use-Case unter Governance
- Beispiel 1 (klassisch): Visuelle Qualitätsprüfung mit versionierten Datasets; Training und Serving in getrennten Zonen; Governance-Gate vor Go-Live.
- Beispiel 2 (LLM/RAG): Wartungsleitfäden als kuratierte Wissensbasis; Embeddings ohne PII; on-prem Vector-DB; Prompt-Logging mit Redaktionen; Egress=aus.
- Betroffenenrechte testen: synthetische Löschanfrage durch die Pipeline inkl. Re-Training aus Snapshot.
- Review: Lessons Learned dokumentieren, Policies nachschärfen, Skalierung auf weitere Domänen planen.
Häufige Fallstricke und wie man sie vermeidet
- „Wir anonymisieren später“: Später kommt nie. Pseudonymisierung gehört in die erste Meile der Pipeline.
- „Wir brauchen sofort Mesh“: Ohne stabile Lakehouse-Plattform und Governance wird Mesh zu verteiltem Wildwuchs.
- „Cloud für alles, On-Prem ist tot“: Für sensible Industrie-Workloads oft schlicht falsch. Souveränität ist kein Stimmungsbild, sondern eine Anforderung.
- „Modellebene reicht für Löschanfragen“: Ohne Datenversionierung und reproduzierbares Training ist „Löschen aus dem Modell“ eine leere Aussage.
Fazit