Stolperstein: Multi-Primary-Setups über unzuverlässige Verbindungen sind ein Ausfallmagnet. In der Praxis ist Primary an der Edge + asynchrone Replikation zentral oft robuster, mit expliziten Wiederabgleichsprozessen.

6) Identität und Zugriff in Air-Gap-Umgebungen

  • Lokaler Identity-Provider (IdP) mit OIDC/SAML im gesicherten Netzsegment, synchronisiert zeitversetzt mit zentralen Quellen (falls erlaubt).
  • Kurzlebige Tokens; kein “long-lived service account” ohne Rotation. Secrets als kurzlebige, bei Deployment injizierte Materialisierung.
  • Autorisierung prinzipiell “Capability-based”: Services besitzen fein granulare Berechtigungen, nicht pauschale Netzwerkfreigaben.
  • Maschinenidentitäten: mTLS mit automatischem Zertifikats-Rollover; keins dieser “selbstsignierten Testzertifikate in Produktion”.

7) Observability: Vollständig On-Prem, differenziert nach Business-Fragen

  • Metriken: Zeitreihen lokal aggregieren; für Fleet-Analysen lässt sich im Zentrum verdichten. SLOs in technischer wie fachlicher Dimension (z. B. Fehlklassifikationsrate/Charge).
  • Logs: Strukturierte Logs, kontextsicher korreliert; PII-Redaktion vor Persistenz, wenn rechtlich erforderlich.
  • Traces: Sampling bewusst gewählt: Vollständige Traces in Fehlersituationen, niedrige Rate im Normalbetrieb. Air-Gap verlangt effiziente Speicherpolitik.
  • Events: Fachliche Events separat von technischen Logs; First-Class-Bürger zur Auditierung.

Unidirektionale Brücken:

  • Falls nur Einweg-Kanal existiert, sendet Edge periodisch komprimierte Observability-Snapshots oder streamt Metrikfenster. Fehleranalyse-Pfade müssen ohne Remote-SSH funktionieren (Support-Pakete, reproduzierbare Diagnosedaten).

8) ML/LLM On-Prem betreiben – ohne Governance-Schulden

Modelle sind Software-Artefakte mit zusätzlicher Governance-Last. On-Prem bedeutet:

  • Modell-Registry im eigenen Netz: Versionen, Metadaten, Eignung für Hardware (Precision, Quantisierung), Test- und Bias-Metriken.
  • Promotion-Flow: Train -> Validate -> Staging -> Production mit reproduzierbaren Evals; Canary-Inferenz an echter Last im Werk, bevor breiter Rollout.
  • GPU/Acceleration-Planung: Durchsatz vs Latenz vs Energie. Batchgrößen und Quantisierung im Kontext messen; 4-bit spart Strom, kann aber bestimmte Fehlermodi produzieren.
  • LLM-Serving: Je nach Sicherheitslage Offline-Modelle; Prompt/Response-Audit, PII-Scrubbing und Policy-Enforcement vor Aktor-Aufrufen. Agenten bekommen nur whitelisted Tools mit Rate-Limits und strikten Schemas.
  • Observability für LLMs: Token-Metriken, Antwortzeit, Halluzinations-Indikatoren via Offline-Evals, Fehlermeldungs-Telemetrie. Für regulierte Branchen unverzichtbar: Nachvollziehbarkeit jeder Entscheidungskette.

Praxis-Punkt: Wenn Agenten reale Aktionen ausführen (Ticket anlegen, Parameter ändern), dann immer über eine Capability-Schicht mit expliziten Freigabezuständen (z. B. Simulations-Mode, Dual-Control für kritische Aktionen).

9) Update- und Rollback-Strategien, die auf dem Shopfloor funktionieren

  • Blue/Green On-Prem: Zwei vollständige Stacks, Umschaltung an einem Load-Balancer/Ingress. Downtime kurz, Rollback schnell.
  • Canary nach Schichten: Erst Diagnose-/Nicht-Produktionslinien, dann per-Linie aktivieren. Feature-Flags helfen, Risiken zu isolieren.
  • Migrationsfenster planen: Datenbankmigrationen, die Downtime erfordern, in Schichtwechsel; Pre-Migration-Validierung obligatorisch, Post-Migration-Checks automatisiert.
  • Rollback ist eine Qualitätseigenschaft: Jedes Release enthält ein getestetes Down-Migration-Skript oder ist vorwärts-/rückwärtskompatibel.

10) Sicherheits- und Lieferkettenhygiene ist kein Bonus

  • SBOM für jedes Artefakt; Vulnerability-Scan vor Promotion; Lizenzen dokumentiert.
  • Signierte Images/Manifeste; Policy am Cluster lässt nur verifizierte Artefakte zu.
  • Keine direkten Internet-Abhängigkeiten im Runtime-Pfad; Mirrors werden kuratiert und versioniert.
  • Geheimnisse nie als statische Files; kurzlebige, drehende Credentials oder Hardware-gebundene KMS.

11) Beispiel-Blueprint: “Secure Plant AI Inference Stack”

  • Edge-Schicht:
  • Sensor-Adapter (C++/Rust) mit harten Latenzgarantien
  • Preprocessing/Feature-Extraktion (Python/C++)
  • Inferenzdienste (LLM/Visionsmodelle) mit GPU- oder CPU-Beschleunigung
  • Lokales Postgres für transaktionale Zustände
  • Event-Log als Outbox zum Zentrum
  • DMZ:
  • Message-Bridge, die Events unidirektional weiterreicht
  • Gateways mit Protokoll-Übersetzung und strikten ACLs
  • Zentrales Rechenzentrum:
  • Aggregation/Dashboarding
  • Modell-Registry und CI/CD-Pipeline für Modelle
  • Observability-Stack mit Langzeitretention
  • Governance/Policy-Engine für LLM-Agenten (Audit, PII, Tooling-Policies)
  • Querschnittlich:
  • GitOps für deklarative Zustände
  • Signaturprüfung beim Deploy
  • Identity-Provider, Secrets-Rotation
  • Backup/Restore, die tatsächlich getestet sind

12) Monolith vs. Microservices im On-Prem-Kontext

Gerade in regulierten Umgebungen gewinnt der “wohlgeschnittene Monolith” häufiger, als viele glauben:

  • Betrieb: Ein Artefakt, ein Deploy, weniger Moving Parts – gut für enge Wartungsfenster.
  • Debuggability: Traces über Prozessgrenzen fallen weg; weniger Netzwerkfehler.
  • Datenkonsistenz: Weniger verteilte Transaktionen, einfachere Migrationspfade.

Microservices sind sinnvoll, wenn:

  • Teams unabhängig deployen müssen (organisatorischer Druck).
  • Skalierungspfad klar unterschiedlich ist (z. B. Inferenz skaliert GPU-lastig, UI kaum).
  • Isolation notwendig ist (z. B. Safety-zertifizierte Komponenten vs. schnelllebige KI-Komponenten).

Praxisfaustregel:

  • Services nur schneiden, wenn ein klarer betrieblicher/organisatorischer Grund existiert, nicht weil “Kubernetes da ist”.
  • Für On-Prem: Wenige, grobgranulare Services schlagen 20+ Microlithen mit Chatty-HTTP.

13) Kosten- und Kapazitätsplanung jenseits des Cloud-Rechners

  • Hardware amortisieren: Mixed-Precision/Batching kann GPUs deutlich besser auslasten; Off-Peak-Batch-Jobs in Nachtfenstern.
  • Energieprofile berücksichtigen: Thermik/Staub in Werksumgebung, Leistungsreserven einplanen.
  • Lizenz- und Updatekosten nicht unterschätzen: Jede Zusatzkomponente hat Lifecycle-Aufwand.

14) Entscheidungs-Checkliste

  • Netzwerk: Welche Segmente, Bandbreiten, Air-Gap? Einweg-Kanal?
  • SLAs: Latenz/Jitter-Ziele, Verfügbarkeit, Wiederanlaufzeiten?
  • Daten: PII? Aufbewahrungspflichten? Löschkonzepte?
  • Betrieb: Wartungsfenster, Skill-Profile des Betriebsteams, Remote-Zugriff möglich?
  • Sicherheit: Signaturen, SBOM, Geheimnisverwaltung, Identität?
  • ML/LLM: Modellgrößen, Throughput, Governance-Anforderungen, Auditierung?
  • Orchestrierung: Rechtfertigt die Workload Kubernetes? Wenn ja, minimale Komplexität definieren.
  • Rollout: Air-Gapped CI/CD-Pfad, Teststufen, Canary/Blue-Green?
  • Observability: Welche Fragen müssen in 5 Minuten beantwortbar sein? Welche in 5 Monaten?

Mini-Fallnotizen aus der Praxis