3) Technische Dokumente und LLM-gestützte Fehlersuche (Aviation/MRO)
- Ingestion:
- Dokumente (PDF, XML, SGML, S1000D) → Parser → PII/Geheimnisscan → Chunking → Embeddings on-prem (bfloat16-fähige GPUs).
- Speicherung:
- Vektorindex on-prem (pgvector, Weaviate self-hosted oder Milvus), Knowledge-Source-Mapping im Katalog.
- Prompt-/Context-Provenance und Agent-Logs für Audit und Reproduzierbarkeit.
- Betrieb:
- Evaluationssuiten mit synthetischen und realen Aufgaben, Guardrails (Policy-Checks), Offline- und Online-Feedbackschleifen.
- Souveränität:
- Kein Abfluss in US-APIs, Modellartefakte und Logs vollständig in lokaler Kontrolle.
Datensouveränität ist eine Architekturanforderung, keine Compliance-Fußnote
- Schrems-II-Realität: Außerhalb der EU (und teils auch bei EU-Tochtergesellschaften US-amerikanischer Cloud-Anbieter) bestehen Rechtszugriffsrisiken. Konsequenz: On-Premise oder EU-rechtskonforme, kontrollierte Infrastruktur ohne US Cloud Act-Risiko für sensible Datenpfade.
- Minimierung und Zweckbindung: Pseudonymisierung/Tokenisierung möglichst am Ingestion-Rand. Für Diagnosezwecke selektive Re-Identifikation via kontrolliertem Data Access Workflow.
- Schlüsselmanagement:
- Vault als zentrales KMS, idealerweise HSM-gestützt.
- Envelope Encryption für S3-Objekte (SSE-KMS), getrennte Tenants/Keys.
- Netzwerk und Betrieb:
- Segmentierung (Prod/Dev/Test), mTLS durchgängig, Bastion-Hosts, Paket-Repository-Spiegel für Air-Gap.
- Immutable Audit-Logs (WORM/Object Lock), Hash-Chaining für Lineage-Artefakte.
- Datenverträge und Audits:
- Data Contracts als Code (Schemas, Allowed Values, SLAs, Semantik).
- Automatisierte Tests im CI für Schemakompatibilität (Backward/Forward), PII-Scanner in der Pipeline.
MLOps, aber für Industrie
- Reproduzierbarkeit:
- Datenversionierung über Iceberg-Snapshots und Content-Hashes; Trainingsmanifeste pinnen Daten, Code, Container-Digest, Feature-Definitions, Hardwareprofil (GPU-Typ, Treiber, CUDA).
- Orchestrierung:
- Argo Workflows/Kubeflow oder Prefect/Airflow. Für Air-Gap: lokale Container-Registry mit Spiegelung, signierte Images (Cosign), Policy-Enforcement (OPA Gatekeeper).
- Deployment:
- On-Prem K8s, GPU-Scheduling (NVIDIA Operator, MIG für A100/H100), Alternativ/zusätzlich Slurm für Batch-Training.
- Canary und Shadow Deployments in Fertigungslinien mit Fallback auf „letzte gute Version“.
- Monitoring:
- OpenTelemetry für Inferenz-Latenz, Durchsatz, Fehlerquoten.
- Daten- und Konzeptdrift, automatisch generierte Alarme und Retraining-Tickets.
- Ground-Truth-Feedbackschleifen (z. B. Bedienereingaben, manuelle Prüfungen).
On-Prem GPU-Cluster vs. Cloud-Training
Wann On-Prem die richtige Wahl ist:
- Datensensitivität/Air-Gap: Rohdaten verlassen das Werk nicht.
- Stetige Auslastung: Kontinuierliches Training/Feintuning rechtfertigt CapEx (3–5 Jahre Amortisation).
- Deterministische Latenz/Verfügbarkeit im Werk, keine Abhängigkeit von WAN.
- Integration mit existierender HPC/CAE-Infrastruktur und Facility-optimierter Kühlung/Energie.
Was On-Prem erfordert:
- Kapazitätsplanung (GPU-Generationen, VRAM, NVLink/PCIe-Topologien).
- Betriebskompetenz: Treiber, Container-Stacks, Firmware, Thermik.
- Cluster-Software: Kubernetes oder Slurm, Job-Queues, Fair Share, Quotas.
- Energie- und Kühlkonzept, Monitoring auf Rack-Ebene.
Wann Cloud sinnvoll sein kann:
- Burst-Lasten, Experimentierphasen, Pretraining von Foundation-Komponenten mit unsensiblen Daten.
- Vorsicht bei Datentransfer: Entweder synthetische/entpersonalisierte Daten oder „Compute zum Datenspeicher bringen“ (Dedicated Hosted Hardware beim Kundenstandort oder europäische Anbieter ohne US-Rechtszugriff, sofern nachweisbar).
- TCO-Check: GPU-Stundenpreise vs. Amortisation On-Prem inklusive Personalkosten und Auslastung. Faustregel: Ab >50–60% Dauerlast tendiert On-Prem zu günstiger, sofern Kompetenzen vorhanden sind.
Ein belastbarer Startplan für ein mittelgroßes Werk
Schritt 1: Ereignis- und Speicherrückgrat
- Event-Backbone: Kafka/Redpanda (On-Prem), Schema Registry (Avro/Protobuf), Policies für Retention und Replays.
- Objekt-Storage: MinIO mit Erasure Coding, WORM für Audit-Daten, S3-APIs als Standard.
- Katalog: DataHub/OpenMetadata, Source-zu-Model-Lineage als Muss.
Schritt 2: Lakehouse scharf schalten
- Tabellenformat: Apache Iceberg (wegen agnostischer Engine-Support, Partitionsevolution, Snapshot-Isolation).
- Engines: Trino für interaktive SQL, Spark/Flink für Batch/Streaming.
- Standards: Partitionsstrategie, Dateigrößen (128–512 MB), Compaction-Policies, Z-Order/Sort Keys wo sinnvoll.
Schritt 3: Sicherheitsbaseline
- Identität: Keycloak, zentrale Gruppen/Rollen, Service-Account-Management.
- Autorisierung: OPA/Ranger-Policies (Row/Column-Level), Secrets in Vault, mTLS überall.
- Netzwerk: Segmentierung, egress durch kontrollierte Proxys, Paketmirror.
Schritt 4: Observability by default
- OpenTelemetry für Logs/Tracing/Metriken, Prometheus/Grafana, Alerting-Playbooks.
- Datenqualitätschecks in der Pipeline, Metriken in den Katalog rückspielen.
Schritt 5: MLOps-Toolchain
- Orchestrierung: Argo Workflows oder Prefect, Model-Registry mit MLflow.
- Feature Store: Feast für wiederverwendbare Features in Online/Offline-Speichern.
- CI/CD: GitOps (Argo CD), Policies im Build (PII-Scan, Schema-Checks).
Schritt 6: Governance und Verträge
- Data Contracts pro Datenprodukt (Schema + Semantik + Latenz/Verfügbarkeit).
- Change-Management: Semver für Schemas, Kompatibilitätsprüfung in CI.
- Freigabeprozesse für produktionskritische Modelle.
Schritt 7: Richtung Mesh skalieren
- Erst wenn 3+ Domänen zuverlässig Datenprodukte liefern, Ownership formal dezentralisieren.
- Gemeinsame Plattform bleibt: Katalog, Security, Pipelines, Self-Service-Interfaces.
Häufige Fehlannahmen und wie man sie vermeidet
- „Wir starten mit Data Mesh.“ Ohne tragfähiges Lakehouse und Plattformteam produziert man nur Koordinationslast. Starten Sie mit einem starken, wohldefinierten Lakehouse und klaren Datenprodukten.
- „Cloud-first löst alles.“ Für DSGVO-sensible Industriepfade ist das Gegenteil oft richtig. Prüfen Sie Jurisdiktion, Datentransfer und technische Kontrollmöglichkeiten. Hybride Ansätze sind möglich, aber Datenhoheit ist nicht verhandelbar.
- „Warehouse reicht, der Rest ist Hype.“ Für ML, Bilder und schnelle Iteration ist ein Warehouse allein zu eng. Nutzen Sie es gezielt für BI und Compliance-Reporting, nicht als ML-Speicher.
- „Wir speichern nur Features, Rohdaten brauchen wir nicht.“ Ohne versionierte Rohdaten ist Reproduzierbarkeit futsch und Root-Cause-Analysen werden unmöglich. Rohdaten mit klaren Retentions und Souveränitätspolicies speichern.
- „ACID-Tabellen sind Magie, den Rest ignorieren wir.“ Ohne Compaction, Partitionpflege und kleine-Dateien-Management kollabiert Performance. Betriebsdisziplin ist entscheidend.
Messbare Ergebnisse statt Folien