• Netzwerkeinschränkungen: Kein Internetzugang aus Produktionszonen. Alle Abhängigkeiten müssen gespiegelt, reproduzierbar, offline installierbar sein.
  • Langlebigkeit: Modelle müssen über Jahre wartbar bleiben (Reproduzierbarkeit, Artefaktversionierung, Abhängigkeiten eingefroren).
  • Safety und Verfügbarkeit: Fallback‑Verhalten definiert; Degradationsmodi ohne Produktionsstillstand.

Bewährte Architekturbausteine für industrielles MLOps:

  • Versionsführung:
  • Code in Git, Daten/Artefakte versioniert (z. B. objektbasiert im Lake mit Commit‑Semantik; Dataset‑Versionierung via Manifesten).
  • Feature‑Pipelines definieren Contracts; Online/Offline‑Feature‑Parität sicherstellen.
  • Pipeline‑Orchestrierung:
  • Reproduzierbare DAGs (Container‑basiert), klare Trennung von Build/Train/Evaluate/Deploy.
  • CI/CD mit Staging‑Umgebungen; für Models: Canary/Shadow Deployments, explizite Promotion‑Gates (Qualitätsmetriken, Bias‑Checks, Drift‑Checks).
  • Model Registry und Governance:
  • Modellartefakte mit Metadaten (Trainingsdaten‑Version, Hyperparameter, Evaluationsmetriken, Gültigkeitsbereich).
  • Auditierbare Freigabeprozesse mit 4‑Augen‑Prinzip.
  • Inferenz‑Deployment:
  • Zentral (Kubernetes/KServe‑Prinzip) für IT‑nahe Services.
  • Edge‑Inference für Latenz/Verfügbarkeit (z. B. optimiert mit ONNX‑Runtime/TensorRT‑Prinzipien, Quantisierung, INT8‑Kalibrierung). Offline‑Fallback definieren.
  • Observability:
  • Telemetrie (OpenTelemetry‑Prinzip), Metriken (Prometheus‑Stil), Logs, Traces über den gesamten Pfad: Datenqualität → Feature‑Drift → Modellleistung → Ressourcen.
  • Daten‑ und Konzeptdrift‑Detektion mit Alarmierungs‑Workflows; Sampling‑Strategien für Ground‑Truth‑Nachbeschriftung aus der Produktion.
  • Sicherheit:
  • Signierte Container/Artefakte (Supply‑Chain‑Security, SBOMs).
  • Isolierte GPU‑Workloads; Ressourcenquoten; Secrets‑Management im Cluster.
  • Dokumentation:
  • Modellkarten, Betriebs‑Handbücher, Notfallprozeduren. Schulung der Instandhaltung, wie Edge‑Geräte sicher upzudaten sind.

Für Computer Vision in der Qualitätssicherung ist Dataset‑Management der Engpass:

  • Annotationen sind Datenprodukte mit eigenem Lebenszyklus.
  • Train/Validation/Test‑Splits müssen Produktionsvarianten repräsentieren (Schicht, Linie, Lieferant, Charge).
  • Kontinuierliches Learning braucht klare Regeln gegen Datenleckage und „catastrophic forgetting“.

Für LLM‑gestützte Assistenz (z. B. SOP‑Suche, Störungssuche) gilt:

  • RAG‑Pipelines strikt on‑prem: Dokumente (SOPs, Tickets, Logs) werden im Lake indiziert, Embeddings lokal erzeugt, Vektorsuche im internen Speicher. Keine Calls ins Internet.
  • Observability/Guardrails für Agenten: Pro Prompt Trace, Tool‑Nutzung, Antwortquellen, Policy‑Checks (keine personenbezogenen Daten ausgeben, nur freigegebene Dokumente zitieren). Fehlermodi müssen nachvollziehbar sein.

4) On‑Prem‑GPU‑Cluster vs. Cloud‑Training: eine nüchterne Abwägung

Die Entscheidung ist kein Dogma, sondern Abgleich von Randbedingungen:

Gründe für On‑Prem:

  • Datengravitation und Souveränität: Rohdaten bleiben in der Fabrik/im Rechenzentrum; keine Egress‑Risiken.
  • Vorhersagbare Auslastung: Kontinuierliches Training oder viele parallele Experimente rechtfertigen CAPEX.
  • Netzrestriktionen: Trainingsdaten dürfen die OT/IT‑Grenzen nicht verlassen; air‑gapped Setups.

Gründe für Cloud:

  • Elastizität für kurzzeitige Peaks (z. B. Hyperparameter‑Sweeps).
  • Zugang zu neuesten Beschleunigern ohne Lieferzeiten, sofern Daten rechtskonform nutzbar sind.

On‑Prem‑Cluster‑Blueprint für Industrie:

  • Rechencluster:
  • GPU‑Knoten mit ausreichender PCIe‑Bandbreite und NVLink (wo verfügbar).
  • Scheduler: Kubernetes mit GPU‑Device‑Plugins für Inferenz‑Dienste; optional Slurm/Batch für Trainingsjobs. Partitionierung der GPUs (MIG‑Prinzip) für kleinere Jobs.
  • Netzwerk/Storage:
  • Hochdurchsatz‑Netz (mindestens 25/100 GbE; bei großem verteilten Training: RDMA/IB).
  • Objekt‑Storage (S3‑kompatibel) mit Erasure Coding für Daten; NVMe‑Lokalspeicher für Zwischenergebnisse. Für gemeinsame POSIX‑Bedürfnisse: parallele Filesysteme oder verteilte Dateidienste.
  • Software‑Stack:
  • Container‑Runtime mit GPU‑Support; Artefakt‑Registry on‑prem, gespiegelte Basisimages.
  • Orchestrierung/ML‑Pipelines; Model Registry; Feature Store; Monitoring/Logging.
  • Betriebsaspekte:
  • Strom/Kühlung dimensionieren; Hot/Cold‑Standby; Ersatzteil‑ und Treiber‑Management.
  • Auslastungsmanagement: Quoten, Preemption, Fair‑Share. Ohne hohe Auslastung kippt die TCO.

Hybride Muster:

  • Daten bleiben on‑prem; Modellgewichte (ohne sensible Daten) können in eine Cloud gespiegelt werden, um dort auf synthetischen/öffentlichen Datasets vorzutrainieren. Feintuning on‑prem.
  • Federated‑Learning‑Ansätze zwischen Werken, bei denen nur Gradienten/Modelldeltas synchronisiert werden – mit kryptografischen Schutzmaßnahmen –, können Datensouveränität wahren und dennoch gemeinsame Lernfortschritte ermöglichen.

5) Eine belastbare Referenzarchitektur – Bauteile und Flüsse

Edge (Werk/Halle/Lok):

  • Datenerfassung:
  • OT‑Konnektoren (OPC UA/MQTT‑Gateways), Kamera‑Ingest (GStreamer‑Prinzip), lokale Vorverarbeitung.
  • Schema‑Validierung schon am Rand (Reject early).
  • Pseudonymisierung/Maskierung:
  • Video‑Redaktion (Face/Person blurring), Tokenisierung personenbezogener Ereignisfelder.
  • Kurzzeit‑Speicher:
  • Lokaler Objekt‑Store/Ringpuffer; Edge‑Timeseries‑DB für schnelle Diagnosen.
  • Store‑and‑Forward:
  • Ereignisgesteuerte Synchronisierung in Zentrale; robuste Queues, die Netzabbrüche überstehen.

Core Rechenzentrum:

  • Datenbackbone:
  • Streaming (Kafka‑Prinzip) mit Schema Registry; Batch‑Ingest via CDC für MES/ERP.
  • Speicher:
  • S3‑kompatibler Object Store (WORM‑Buckets für Audit), Lakehouse‑Katalog (Tabellen‑Metadaten, Time‑Travel), Partitionsstrategie.
  • Datenqualität/Governance:
  • Data Contracts, automatisierte Tests (z. B. Wertebereiche, Vollständigkeit), Quarantäne‑Zonen bei Verstößen.
  • Katalog und Lineage; Self‑Service‑Zugriff mit feingranularen Policies.
  • Compute:
  • Kubernetes‑Cluster (getrennte Nodes für CPU/GPU), CI/CD‑Pipelines, Signierung.
  • Trainings‑Queue (Slurm oder dedizierte Namespaces), Artefakt‑Registry.
  • MLOps‑Schicht:
  • Experiment‑Tracking, Model Registry, Feature‑Pipelines, Evaluationsframeworks.
  • Deployment Layer für Online/Batch/Edge‑Targets.
  • Observability:
  • Metriken, Logs, Traces vereinheitlicht; Drift‑Services; Alerting.
  • Sicherheit:
  • mTLS, IAM, OPA‑Policies, Secret‑Management, Schlüssel im HSM, Audit‑Logs.

RAG/LLM‑Spezifika:

  • Dokumentenaufnahme mit OCR, Normalisierung von CAD/PDF/Scans.
  • Embedding‑Pipeline on‑prem; Vektorspeicher intern (z. B. in einem DB‑System mit Vektor‑Index).
  • Prompt‑ und Retrieval‑Evaluation mit Benchmark‑Sätzen aus realen Tickets/SOP‑Fragen.
  • Agenten‑Observability und Guardrails: Tool‑Aufrufe, Quellenzitate, Policy‑Checks, Fail‑Safe‑Antworten.

6) Data Mesh in der Praxis: So wird es in Werken beherrschbar