Governance für Modelle und LLMs

  • Trainingsdaten-Provenance: Hashes von Datasets, reproduzierbare Cuts („Time-Travel“ der Tabellen), Versionierung der Pipelines.
  • Model Cards/Docs: Zweck, Trainingsdatenbereiche, bekannte Limitierungen, Freigabeprozess.
  • LLM-spezifisch: Retrieval-Provenance (welche Dokumente wurden herangezogen), Halluzinations- und Toxicity-Guards lokal, Prompt-Injektion-Tests; keine Telemetrie nach außen.

MLOps in der Industrie: Vom Datensatz zum robusten Dienst

Tooling ist Mittel zum Zweck. Wichtig ist ein fließendes, testbares End-to-End.

Baseline-Stack On-Prem

  • Versionsverwaltung/CI: Git mit On-Prem-Runnern; Artefakt-Registry; Infrastruktur als Code.
  • Orchestrierung: Argo Workflows oder Airflow; für ML-Pipelines Kubeflow/Tekton optional.
  • Tracking/Registry: MLflow oder vergleichbares für Experimente, Modelle, Metriken, Artefakt-URIs.
  • Feature Store: z. B. Feast (Online/Offline-Store getrennt, Feature-Definitions als Code).
  • Storage/Katalog: S3-kompatibler Objektspeicher, Lakehouse-Tabellen, Data Catalog (OpenMetadata/DataHub).
  • Datenqualität: Expectations/Constraints in CI und Produktion.
  • Messaging/Streaming: Kafka/Redpanda mit Schema-Registry.
  • Secrets/KMS: On-Prem-Secret-Store, HSM für Schlüssel, rotationsfähig.

Pipeline-Qualitätssicherung

  • Data Unit Tests: Schemata, Wertebereiche, Nullraten, Fremdschlüssel, Zeitkonsistenz.
  • Integrationstests: Ingestion bis Feature-Generierung; Replay-Szenarien für Edge Cases.
  • Offline-Evaluierung: Backtesting auf Time-Travel-Datasets, Leakage-Checks.
  • Fairness/Compliance-Checks dort, wo Personenbezug möglich ist.

Deployment-Patterns

  • Central vs Edge:
  • Zentrale Dienste für rechenintensive Batch/Asynchrones Scoring.
  • Edge-Inferenz für Latenz-kritische Vision/NLP im Werk; lichtbeständig, Watchdog, Offline-Fähigkeit.
  • Rollout-Strategien:
  • Shadow Mode: Predictions loggen, aber noch nicht steuern.
  • Canary/A-B: Prozentuale Ausspielung, automatische Rollback-Gates.
  • Blue/Green: Vollständige Umschaltung mit schnellem Rückweg.
  • Verpackung: Container mit GPU-Support (NVIDIA Container Toolkit), reproduzierbare Builds; Signierung und Verifikation.

Monitoring und Betriebstauglichkeit

  • Technisch: Latenz, Durchsatz, CPU/GPU-Auslastung, Queue-Längen, Speicherdruck.
  • Daten/Modell:
  • Drift-Metriken (z. B. PSI, Jensen–Shannon) für Features und Embeddings.
  • Performance mit verspätetem Ground Truth (delayed labels), aktive Lernschleifen.
  • LLM-Agenten:
  • Retrieval-Qualität (nDCG, MRR), Halluzinationsscores, Prompt/Tool-Aufrufe, Guardrail-Treffer.
  • Ausfallsichere Tool-Execution (Timeouts, Circuit Breakers), idempotente Aktionen.

On-Prem-GPU-Cluster vs Cloud-Training

Das ist keine Glaubensfrage, sondern eine Optimierung unter harten Nebenbedingungen: Daten-Souveränität, Kostenstruktur, Elastizität, Betriebsfähigkeit.

Wann On-Prem?

  • Daten dürfen das Werk/Unternehmen nicht verlassen (Betriebsgeheimnisse, DSGVO, Exportkontrolle).
  • Dauerhafte Grundlast (kontinuierliches Fine-Tuning, großvolumiges Vision-Training) rechtfertigt CapEx; egress-freie Datenwege.
  • Latenz/Verfügbarkeit: Edge- oder Near-Edge-Training/Finetuning, oder Air-Gap-Umgebungen.

Was es operativ braucht:

  • Hardware:
  • GPU-Klassen passend wählen: Reine Inferenz häufig mit Mittelklasse-GPUs; Training/Fine-Tuning erfordert High-Bandwidth-Memory, NVLink; Partitionierung via MIG möglich.
  • Storage: NVMe-Backends, paralleles Filesystem (z. B. BeeGFS/CEPH) für Durchsatz; dedizierte Trainings- und Feature-Stores entkoppeln.
  • Netzwerk: 100G Ethernet oder InfiniBand je nach Skala; RoCEv2 sauber getuned.
  • Scheduling:
  • Kubernetes mit GPU-Operator für Multi-Tenant-Workloads und ML-Services.
  • Slurm für großskaliges verteiltes Training; oder Hybride: Slurm für Jobs, K8s für Services.
  • Software:
  • Reproduzierbare Toolchains (Container), deterministische Builds; Artefakt-Signing.
  • Lizenzserver offline-fähig; Paketspiegel für Air-Gap-Updates.
  • Sicherheit:
  • Zero-Trust, mTLS end-to-end; zentrale Geheimnisverwaltung; Härtung der Base-Images.

Wann Cloud?

  • Forschung/Exploration mit anonymisierten/synthetischen Daten; kurzfristige Elastizität.
  • Methoden-Exploration (neue Architekturen) ohne vollen On-Prem-Betriebsaufwand.
  • „Bursting“ nur mit vorab-entschärften Datasets und vertraglich nachvollziehbaren EU-Standorten.

Kostenrealität:

  • Kurzfristig ist Cloud-Opex attraktiv für Spikes; langfristig kann On-Prem bei konstanter Last und egress-sensiblen Daten günstiger und souveräner sein.
  • Vermeiden: „Daten gratis rein, teuer raus“ – lock-in durch egress. Architektur so planen, dass Trainingsartefakte nicht in proprietären Formaten gefangen sind.

LLM in der Industrie: RAG vor Fine-Tuning, Governance vor Spielerei

  • Retrieval-Augmented Generation (RAG) schafft schnell Mehrwert: Technische Handbücher, Wartungsberichte, Sicherheitsvorschriften; Embeddings und Vektorsuche On-Prem.
  • Datenpfad:
  • Dokumentenaufnahme mit OCR, Strukturierung, Chunking, PII-Redaktion.
  • Indexierung in einer Vektor-DB On-Prem; Metadaten in Lakehouse-Tabellen.
  • Abfragen nur mit Zugriffspolicies (Row-/Attribute-Level).
  • Fine-Tuning gezielt:
  • Domänenspezifische QA/Tool-Nutzung, LoRA/QLoRA reduziert GPU-Bedarf.
  • Messbare Gains gegenüber gutem RAG notwendig, sonst komplexitätslastig.
  • Governance:
  • Prompt/Completion-Logging mit PII-Filter; Tool-Aufrufe auditierbar.
  • Red-Team-Tests (Prompt-Injektion, Data Exfiltration); Guardrails lokal.

Referenzarchitektur – ein pragmatischer Bauplan

  • Quellen:
  • OPC UA/MQTT aus OT; CDC aus MES/ERP; Dateidrops für Bild/Video; DMS/ShareCrawler für Office/PDF.
  • Ingestion:
  • Edge-Gateways mit lokalen Puffern; sichere Weiterleitung per mTLS nach IT-Zone in Kafka/Objektspeicher.
  • Schema-Validierung und PII-Filter im Ingest.
  • Storage/Lakehouse:
  • S3-kompatibel On-Prem als Rohspeicher; Iceberg/Delta als Tabellenlayer; Tiering für kalte Daten.
  • Verarbeitung:
  • Batch (Spark/Dask/Ray) für Feature-Generierung/Backfills; Streaming (Flink/Kafka Streams) für Online-Features.
  • MLOps:
  • Orchestrierung (Argo/Airflow), ML-Tracking/Registry (MLflow), Feature Store (Feast), Katalog (OpenMetadata).
  • Serving:
  • Zentrale Scoring-Services (REST/gRPC) für nicht-latency-kritische Aufgaben.
  • Edge-Services für Vision/NLP in Zellen, mit lokalem Cache/Model-Store; Watchdog und Offline-Fähigkeit.
  • Sicherheit/Governance:
  • mTLS, SPIFFE-Identitäten; OPA-Policies; zentrale Audit-Logs; Pseudonymisierungsservice; Policy-as-Code-Repos.
  • LLM-Schicht:
  • Dokumenten-Pipeline (OCR, Chunking, PII-Redaktion), Vektor-Index On-Prem; Guardrails; Tool-Proxy mit Circuit Breakers.
  • Betrieb:
  • Observability-Stack (Logs, Metriken, Traces); Model-/Data-Drift-Dashboards; Alarmierung mit SLOs.
  • Change-Management, Release-Trains, Disaster Recovery (Backups, Restore-Tests).

Antipatterns, die wir immer wieder sehen