Datensouveränität ist kein Feigenblatt. Sie ist ein Architekturprinzip und eine Disziplin, die vom Rohdateneingang über Training bis zur Inferenz konsistent durchgezogen werden muss. Wer die oben skizzierte Schichtenarchitektur umsetzt, bekommt nicht nur DSGVO-Konformität, sondern auch technische Vorteile: weniger Kopien, schnellere Iteration, reproduzierbare Ergebnisse und kalkulierbare Betriebsrisiken. Erst auf dieser Basis lohnen sich dann die eigentlichen Modellfragen – weil die Pipeline steht und trägt.
FAQ
Frage 1: Können wir DSGVO-konform generative KI nutzen, ohne unsere Daten an US-Hyperscaler zu geben?
Antwort: Ja. Betreiben Sie die Inferenz on-premises oder bei einem strikt vertraglich abgesicherten EU-Anbieter, und sperren Sie standardmäßig jeden Egress. Setzen Sie auf RAG, damit Unternehmenswissen als versionierte, widerrufbare Wissensbasis neben dem Modell lebt. Fine-Tuning mit sensiblen Daten vermeiden, sofern nicht zwingend nötig und technisch abgesichert.
Frage 2: Wie handhaben wir Löschanfragen, wenn Modelle bereits trainiert sind?
Antwort: Praktikabel ist „Unlearning“ über Re-Training aus einem Datasetsnapshot, der den zu löschenden Datensatz nicht enthält. Dafür brauchen Sie versionierte Trainingsdaten, reproduzierbare Pipelines und idealerweise sharded Caches, um nicht alles neu berechnen zu müssen. Reine „Black-Box“-Löschversprechen ohne Daten- und Pipelinebasis sind nicht belastbar.
Frage 3: Data Mesh oder Lakehouse – womit starten?
Antwort: Starten Sie mit einem Lakehouse als technische Plattform (ACID-Tabellen, Versionierung, Katalog, Governance). Darauf können Domänen später Data Products eigenverantwortlich liefern (Mesh). Ohne Plattform wird Mesh zum Skalierungsvehikel für technische Schulden.
Frage 4: Reicht Pseudonymisierung für den produktiven Einsatz?
Antwort: Pseudonymisierte Daten gelten weiterhin als personenbezogen. Sie reduzieren Risiko und ermöglichen Join-Fähigkeit, erfordern aber strenge Zugriffskontrollen, Schlüsseltrennung und klare Zweckbindung. Echte Anonymisierung ist in industriellen Kontexten oft kaum sicher belegbar; versprechen Sie nicht mehr, als Sie technisch halten können.
Frage 5: Lohnt sich ein eigener GPU-Cluster gegenüber Cloud-Kapazitäten?
Antwort: Das hängt von Workload-Profil, Auslastung und Souveränitätsanforderungen ab. Bei stabiler Auslastung und strikten Datenrestriktionen ist On-Prem oft wirtschaftlicher und rechtlich einfacher. Für sporadische Spitzen kann Cloud sinnvoll sein – aber nur mit strengen Netz-, Verschlüsselungs- und Vertragsschutzmaßnahmen. Rechnen Sie Gesamtkosten inkl. Energie, Kühlung und Betriebsteam gegen.
Wenn Sie diesen Weg gehen, denken Sie wie ein Systemarchitekt: erst Datenflüsse, Rechte, Policies und Versionierung; dann Modelle. Das ist weniger „glamourös“, aber die einzige Variante, die in regulierten, sensiblen Umgebungen dauerhaft trägt.