Trade-offs:
- Starke Sicherheit ohne Cloud ist möglich, aber nur mit Prozessdisziplin: Schlüsseldrehungen, Zertifikats-Lebenszyklen, Backups.
6) Observability und Governance offline denken
Monitoring „per Push in die Cloud“ ist in regulierten Netzen keine Option. Lokale Telemetrie mit spätem Export, plus Governance-Automation, ist das Muster.
- Telemetrie:
- Metriken: Prometheus vor Ort; Föderation an die Zentrale über schmale Fenster.
- Traces/Logs: OpenTelemetry Collector als Router; lokales Log-Storage (z. B. Loki); Sampling/Redaktion sensibler Felder bereits am Edge.
- Health-Modelle pro Standort, nicht nur Einzelmetriken (z. B. „Sind alle Inferenzpipelines in SLO?“).
- LLM-/Agent-Governance:
- Vollständige Prompt-/Context-Observability on-prem, mit PII-Redaktion vor Persistenz.
- Policy-Checks vor Response (z. B. Regelsätze gegen Datenexfiltration, Rollentrennung bei Retrieval).
- Audit-Trails, die nachvollziehen, welche Wissensquelle welche Antwort beeinflusst hat.
- Solche Funktionen liefert z. B. eine dedizierte Observability- und Governance-Schicht für LLM-Agenten; wichtig ist die On-Prem-Fähigkeit und klare Schnittstellen zu Retrieval, Vektorspeicher und UI.
7) MLOps on-prem: Reproduzierbarkeit statt „Works on my GPU“
Ohne Public Cloud werden die Pipeline-Details wichtig:
- Build- und Trainings-Pipelines:
- CI/CD on-prem (z. B. Tekton, Jenkins) mit reproduzierbaren Container-Images.
- Abhängigkeiten pinnen, Offline-Spiegel für PyPI/Conda, CUDA/Treiberstände versionieren.
- SBOM-Erzeugung (z. B. Syft) und Signierung aller Artefakte.
- Modell- und Datenlebenszyklus:
- Model Registry (z. B. MLflow Registry) mit Stages (Staging/Prod), verknüpft mit Datensatzversionen (z. B. DVC).
- Feature-Extraktion deterministisch; Feature-Store nur, wenn operative Wiederverwendung nachweislich existiert (sonst erhöht er nur den Betriebsballast).
- Inferenz:
- GPU-Scheduling lokal (Kubernetes Device Plugins oder dedizierte Inferenzknoten).
- Triton/ONNX Runtime/ggml-Stacks on-prem – abhängig von Modellformaten.
- Canary-Inferenz via Shadow-Traffic und deterministische Metriken (Latenz, Confidence, Abweichungen).
Trade-offs:
- On-prem MLOps bedeutet mehr Vorarbeit (Caches, Artefaktspiegel). Der Payoff ist Reproduzierbarkeit, Unabhängigkeit und Auditierbarkeit.
8) Update-Strategien in Air-Gapped- oder Low-Connect-Umgebungen
Kein „schneller Hotfix in der Cloud“. Updates müssen planbar, rollbar, auditierbar sein.
- Bundles als OCI-Artefakte (Container, Helm-Charts, DB-Migrationsskripte, Policies) signiert ausliefern.
- Staged Rollouts: Lab -> Pilot-Standorte -> Flächendeckend; Canaries über Feature-Flags, nicht nur Deployments.
- Betriebssystem-/Base-Layer atomic aktualisieren (z. B. OSTree/immutable OS), um Drifts zu vermeiden.
- Datenbankmigrationen strikt vorwärts- und rückwärtskompatibel; Blue/Green auf Datenebene nur, wenn die Domäne es erlaubt.
- Digitale Zwillinge/Simulationsdaten für Last- und Szenariotests vor Ort – ersetzt fehlendes Cloud-A/B-Testing.
Trade-offs:
- Sorgfältige Migrationsdisziplin verlangsamt Feature-Tempo, spart aber Wochen an Incident-Feuerwehr in kritischen Umgebungen.
9) Datensouveränität praktisch: Minimierung, Pseudonymisierung, lokales RAG
Datenschutz ist mehr als „Server in der EU“.
- Datenminimierung am Edge: Nur benötigte Felder exportieren, standardmäßig pseudonymisieren (z. B. Hash + Salting + Rotationsplan).
- On-Device-Embeddings und lokaler Vektorspeicher (z. B. Qdrant/Milvus) für RAG; Wissensquellen sind versioniert, referenziert und auditierbar.
- Kein Outbound-by-default: Egress nur explizit per Policy, standardmäßig blockiert.
- Protokollierung: Wer hat welche Kopplung (z. B. LLM + Retrieval + Policy) geändert, wann, warum.
10) Architekturbeispiel: Fleet Intelligence für Bahn
Anforderungen:
- Telemetrie aus 500 Zügen; schwankende Konnektivität; Standorte in 6 Depots.
- Defektfrüherkennung via ML; Einsichten im zentralen Leitstand und mobil.
- DSGVO-konforme Verarbeitung; keine Public-Cloud-Nutzung; Auditpflicht.
Referenz-Topologie:
- Je Zug:
- Edge-Node (x86/ARM), lokaler Agent mit NATS-Client, Timeseries-DB.
- ML-Inferenz (z. B. ONNX Runtime) für Anomalien; Pufferung bei Offline.
- Heartbeat, lokale Health-Checks, Crash-Resilience.
- Je Depot:
- NATS-Cluster (JetStream), Object Storage (S3-kompatibel), Prometheus/Loki.
- GitOps-Agent für Deployments der Depot-Services, lokaler IdP-Spoke für mTLS-Ausstellung.
- Batch-Export definierter Ereignisse in die Zentrale.
- Zentrale:
- Kontroll-Ebene: GitOps, Registry, Policy, IdP, Artefakt-Signing, Audit.
- Analytik: Kafka-Cluster für Depot-zu-Zentrale-Ingestion, Model Registry, Feature-Pipelines.
- Leitstand: Web-UI; Rollentrennung (Leitstand/Service/Management).
- LLM-Assistenz on-prem: RAG mit lokalem Vektorstore; Governance-Layer mit vollständiger Protokollierung.
Betrieb:
- Updates als signierte Bundles pro Depot ausrollen; Telemetrie föderiert einsammeln.
- KPIs: Mean Time to Detect, Mean Time to Update, Reproduzierbarkeit der Inferenz (gleiche Hashes von Modell+Features).
11) Kosten- und Organisationsrealität: Minimum Viable Complexity
Komplexität ist eine Schuld, die Sie über Jahre verzinsen. Typische Fehlentscheidungen:
- Vollwertiges Kubernetes + Service Mesh + zehn Operatoren für ein Drei-Node-Depot – das Team kollabiert im Zertifikatsdreieck.
- „Echte“ Echtzeitansprüche per Microservices erzwingen – Latency-Jitter zerstört die SLOs.
- Globale IdP-Architektur nach Enterprise-Handbuch – in Air-Gaps schlicht nicht betreibbar.
Gegenmuster:
- Starten Sie mit K3s oder Nomad, ohne Mesh. Erst bei nachweislichem Bedarf aufrüsten.
- Modulmonolith am Edge; Microservices dort, wo Skalierungsprofile trennen.
- GitOps minimal, aber strikt: ein Repository pro Domäne, klare Rollen, obligatorische Signierung.
- Runbooks, die auch ein neuer On-Call um 3 Uhr morgens versteht. Chaos-Drills lokal.
Entscheidungs-Checkliste
- Standorttopologie klar?
- Ownership je Datenklasse definiert (edge vs. zentral)?
- Netzwerk-Annahmen dokumentiert (Worst-Case-Latenz, Offline-Dauer)?
- Datenpfad robust?
- Event-Backbone mit Store-and-Forward, Quoten, Schema-Evolution?
- Pseudonymisierung vor dem ersten Persistenzpunkt?
- Deployments beherrschbar?
- Signierte Artefakte, reproduzierbare Builds, rollbare Migrationspfade?
- GitOps und PKI-Prozesse auditiert?
- Observability ohne Cloud?
- Föderierte Metriken/Logs/Traces, Redaktionsregeln, Health-Modelle?
- LLM-/Agentenpfade vollständig nachvollziehbar?
- Team fit zur Architektur?
- Können 3–5 Engineers das 24/7 betreiben?
- Existiert eine Exit-Strategie aus „Experimente“ in „Produkt“?
Mein Fazit