Datensouveränität in der Praxis: Architektur-Bausteine für DSGVO-konforme KI in der Industrie
Problem zuerst: In der Industrie scheitern viele KI-Initiativen nicht an Modellen, sondern an der Infrastruktur. Der Proof-of-Concept liefert nette Kurven, aber beim Schritt in den produktiven Betrieb brechen die Fundamente weg: unklare Datenhoheit, fehlende Auditierbarkeit, keine Reproduzierbarkeit, Vermischung von personenbezogenen und Betriebsdaten, unkontrollierte SaaS-Abhängigkeiten. Ohne eine saubere, souveräne Daten- und KI-Infrastruktur bleibt jedes ML-Modell eine Randnotiz.
Dieser Beitrag zeigt konkret, wie eine DSGVO-konforme, on-premise-fähige KI-Plattform für industrielle Umgebungen aussieht. Keine Marketing-Schablonen, sondern Architekturbausteine, Deploymentschemata, typische Fallstricke und Trade-offs. Perspektive: Wir bauen solche Systeme – und wir beginnen immer bei der Daten-Pipeline.
1) Souveränität ist eine Systemanforderung, keine Haltungsfrage
Industrie-KI operiert im Spannungsfeld aus:
- Heterogenen Datenquellen: Maschinen-Telemetrie, Bilddaten, ERP/MES, Instandhaltung, Sensorik, Flotten.
- Strengen Verfügbarkeits- und Sicherheitszielen: Produktion, Bahn, Verteidigung, Energie.
- Datenschutz: Personenbezug in Logistik- und Qualitätsdaten, Trainingsdaten für Assistenzsysteme, Support-Tickets, Dokumente.
- Lieferketten- und IP-Schutz: Konstruktionsunterlagen, Fertigungsparameter, Diagnostikdaten.
Das leitet harte nicht-funktionale Anforderungen ab:
- Datenlokalität: Wo liegen Rohdaten, Feature-Snapshots, Modelle, Vektordatenbanken?
- Zugriffssouveränität: Wer darf wann worauf zugreifen? Durchsetzbar, testbar, auditierbar.
- Reproduzierbarkeit: Jeder Modellstand muss rückführbar auf Daten-Snapshots, Code, Parameter, Policies sein.
- Reversibilität: Vendor-Lock-in vermeiden; Exit-Strategie ist architektureller Bestandteil.
- Minimalprinzip: Personenbezug nur, wo nötig. Standardmäßig pseudonymisiert/aggregiert.
Typische Anti-Patterns in der Praxis:
- Cloud-only MLOps, gehostet außerhalb der EU, inklusive Trainingsdaten und Prompt-Logs.
- Vector DB als Schnelleinbau, befüllt mit unredigierten Dokumenten (Personenbezug, Betriebsgeheimnisse).
- Closed-Source-LLM-APIs als Backend für produktive Assistenzsysteme mit sensiblen Daten.
- Fehlende Datenklassifikation: Dev/QA/Prod mischen sich; Zugriff per „shared credentials“.
2) Leitarchitektur: On-Prem-Lakehouse + Policy-driven MLOps
Wir bauen Plattformen um eine klare Trennung von Datenzonen und eine Policy-Engine, die technische und organisatorische Regeln erzwingt. Ein mögliches Blueprint:
Kernkomponenten
- Speicher-Backbone:
- Objektspeicher on-prem (z. B. Ceph, MinIO) als Datenlake-Backend.
- Tabellenformat mit Transaktionslog (z. B. Apache Iceberg oder Delta Lake) für ACID, Time Travel, Schemaevolution.
- WORM-Fähigkeiten (Write Once Read Many) für unveränderliche Audit-Logs.
- Datenzonen:
- Raw: Unverändert, nur lesbar; strikte Zugriffskontrolle; Retention kurz.
- Staging/Cleansed: Validierte, bereinigte Daten; Pseudonymisierung/Tokenisierung angewandt.
- Curated/Feature: Domänenspezifische, dokumentierte Datasets und Features mit Versionierung.
- Metadaten & Lineage:
- Data Catalog (z. B. OpenMetadata, Amundsen) mit Glossar, Owner, Data Contracts.
- Lineage-Erfassung (z. B. OpenLineage) über ETL/ELT-, Feature- und Trainingspipelines.
- Streaming & Orchestrierung:
- Ereignisbus (z. B. Kafka/Redpanda) für Telemetrie, Online-Features, asynchrones Inferenz-Feedback.
- Workflow-Orchestrierung (z. B. Airflow, Argo Workflows) für ETL/ELT, Trainings- und Evaluations-Jobs.
- Feature- und Modellartefakte:
- Feature Store (z. B. Feast self-hosted) on-prem, offline/online getrennt; Feature-Views versioniert.
- Modell-Registry (z. B. MLflow, oder OCI-Registry mit Artifactory) mit Signaturen, Promotierungs-Gates, Evaluationsberichten.
- Compute-Orchestrierung:
- Kubernetes on-prem als Standard; GPU-Operator für Scheduling/NCCL-Topologie; Alternativ/ergänzend SLURM für HPC-Jobs.
- GitOps (ArgoCD/Flux) für deklarative Deployments von Diensten, Pipelines, Modellen.
- Sicherheit & Schlüssel:
- Secrets-Management (z. B. HashiCorp Vault), KMS/HSM für Schlüssel, Envelope Encryption.
- Service-Identitäten (SPIFFE/SPIRE), mTLS, Netzwerksegmentierung (Zero Trust grundiert).
- Supply-Chain-Sicherheit: Signierte Container (Cosign), SBOMs, Private Registry Mirror.
- Policy & Audit:
- Zentrale Policy Engine (z. B. OPA/Rego): Attributbasierte Zugriffskontrolle (ABAC), DSGVO-Regeln, Data Minimization, Zweckbindung, Retention.
- Audit-Service: Unveränderliche Events zu Zugriffen, Datenbewegungen, Modellaktionen.
Datenschutz und Personenbezug technisch erzwingen
- PII-Erkennung und -Behandlung:
- Erkennungs-Services für PII/PHI in Text/Bild (z. B. mit regelbasierten und ML-basierten Scannern).
- Standardpfad: Pseudonymisierung/Tokenisierung vor Persistierung in Staging; Originale nur im streng geschützten Raw mit verkürzter Retention.
- Reversible Token nur mit Zugriffspfad über HSM-geschützten De-Tokenisierungsdienst und fein granularen Policies.
- Datenminimierung by design:
- Feature-Engineering bevorzugt auf Aggregaten; analytische IDs statt natürlicher Identifikatoren.
- „Privacy Zones“: Trainingscluster/Workspaces ohne De-Tokenisierungspfad.
- Rechte betroffener Personen:
- Identitätsindex (Mapping Pseudonym Person) im HSM-gesicherten Tresor.
- Löschkaskaden: Datenlake, Feature Store, Vektor-DB, Caches, Backups.
- Unlearning-Prozesse: Markierung betroffener Datasets, Retrain/Prune-Jobs geplant, modellversionsspezifisch dokumentiert.
Reproduzierbarkeit und Nachvollziehbarkeit
- Jede Pipeline schreibt:
- Eingabedataset-IDs (Iceberg Snapshot/Manifest), Code-Commit, Container-Digest, Hyperparameter, Policies, Seed.
- Evaluationsmetrik, Bias-/Robustheits-Suiten, Datenzeitraum, Freigabeentscheidung mit Begründung.
- Für den Betrieb:
- Canary-Rollouts, Shadow-Inferencing, Daten- und Konzeptdrift-Detektion (abgeleitet aus Feature-Verteilungen).
- Immutable Audit-Pfad verknüpft Daten, Code und Entscheidungen.
3) LLM-spezifische Architekturentscheidungen
RAG on-prem ohne Datenleck
- Einbettungen lokal erzeugen: Embedding-Modelle on-prem, kein Versand von Dokumenten an Drittanbieter.
- PII-Schutz in der Vektor-Pipeline:
- Vorverarbeitung mit PII-Redaktion/Maskierung; wo inhaltlich möglich, semantische Generalisierung (z. B. Gehaltsangaben in Spannweiten).
- Chunking-Strategie mit Kontextkontrolle (keine Vermischung von Tenants/Domänen).
- Vektor-Datenbanken on-prem:
- Optionen: pgvector (PostgreSQL), Milvus, Qdrant; Datenklassifikation und ABAC erzwingen; Verschlüsselung at rest.
- Abfrage-Governance:
- Retrieval-Whitelists nach Mandant/Projekt/Use Case.
- Prompt-Filter, Antwort-Policies, Content-Safety lokal.