- Allgemeinheit vs. Betriebsfähigkeit: Ein generisches Plattformprodukt ist verlockend. In regulierten On-Prem-Umgebungen gewinnt oft die explizite, aufgabenspezifische Plattform mit wenigen, dafür robusten Bausteinen.
- Durchsatz vs. Auditierbarkeit: Komprimierte Binärlogs sind schnell, aber schlecht analysierbar. Event-Sourcing mit semantischen Events ist teurer, aber auditfähig. In den meisten regulierten Fällen gewinnt Audit.
- Entwicklungsfreiheit vs. Souveränität: Fremdgehostete CI/CD oder zentrale MLOps-Dienste sind bequem. Wenn Souveränität Kernziel ist, gehört die kritische Kette ins Eigentum des Kunden – betrieben mit Automatisierung und klaren Prozessen.
Wie man startet: Reihenfolge, die sich bewährt
- Signierung und Artefaktkette zuerst: Ohne das ist jede weitere Schicht fragil.
- Identitäten etablieren: Private PKI, mTLS, kurzlebige Tokens. Danach erst Anwendungen.
- Observability früh: Telemetrie-Lake und Korrelation etablieren, bevor etwas groß wird.
- Ein Domänen-Schnitt: Einen klar abgegrenzten Fluss (z. B. Ingestion -> QC -> Persistenz) ende-zu-ende automatisieren.
- Rollout-Probe: Simulierte Offline-Updates, Rollback-Übungen, Wiederaufbau aus Git und Registry.
Woran wir in Projekten gescheitert wären, wenn wir es nicht früh adressiert hätten
- Netzwerk ist Produktmerkmal: QoS, deterministische Routen, MTU, Zeitsynchronisation. Wer das spät klärt, bekämpft Phantomfehler.
- Schema-Evolution: Events ohne Migrationsstrategie führen zu Big-Bang-Deployments. Additiv und abwärtskompatibel planen.
- GPU-Zuteilung: Ohne explizite Scheduler-Strategie konkurrieren Workloads. Reservierungen und Quoten früh definieren.
- Offline-Fall: DNS, Zeitserver, Paketquellen – alles lokal. Überraschend viele Systeme hängen an „kleinen“ externen Abhängigkeiten.
Entscheidungsrahmen: Cloud-native-Prinzipien souverän anwenden
Stellen Sie für jede Funktion diese Fragen:
- Daten-Schwerkraft: Wo entstehen Daten? Lässt sich Rohdatenabfluss vermeiden?
- Latenzbedarf: Welche maximale End-to-End-Latenz ist akzeptabel?
- Verfügbarkeitsprofil: Muss bei Netzunterbrechung weiterlaufen? Wie lange?
- Geheimhaltung: Welche Schutzstufe? Welche Revisionsanforderungen?
- Autonomie von Teams: Müssen Teile unabhängig versioniert werden?
Die Antworten bestimmen, ob eine Funktion an den Rand (Edge), in den Standort oder in die Zentrale gehört – und welche Muster sie benötigt.
Fazit
Souveränität ermöglicht Intelligenz. In regulierten Branchen bedeutet das: Cloud-Prinzipien ernst nehmen, aber auf Infrastrukturen, die dem Unternehmen gehören und auditierbar sind. Nicht „Cloud oder On-Premise“, sondern „deklarativ, identitätsbasiert, eventgetrieben – auf einer souveränen Plattform“. Wer Artefaktkette, Identitäten, Observability und robuste Datenflüsse zuerst baut, gewinnt langfristig: weniger Ausfälle, weniger Überraschungen, mehr Geschwindigkeit dort, wo sie zählt.
FAQ
Frage: Brauche ich Kubernetes für eine souveräne On-Prem-Plattform?
Antwort: Nicht zwingend. Kubernetes standardisiert Packaging, Scheduling und Isolation – das hilft, besonders bei heterogenen Workloads. In kleinen, deterministischen Systemen können Prozesssupervisoren mit robustem Update-Mechanismus ausreichen. Entscheidend sind GitOps, Signierung, Identitäten, Observability – mit oder ohne Orchestrator.
Frage: Wie betreibe ich LLMs on-prem ohne US-Cloud-Abhängigkeit?
Antwort: Behandeln Sie Modelle wie Binärartefakte: versioniert, signiert, reproduzierbar gebaut. Kompilierung/Quantisierung ist Teil der Pipeline. Hardwareziele (CPU/GPU) sind explizit; Benchmarks und Degradationsmodi gehören in die Definition of Done. Für Governance loggen Sie Agentenentscheidungen, Prompts und Ausgaben lokal mit PII-Redaktion und unterbinden nicht autorisierte Aktionen durch Policies.
Frage: Welche Messaging- und Speichertechnologien eignen sich?
Antwort: Entscheidend sind Semantik und Betriebsmodell, nicht Produktnamen: persistente Queues für Ereignisse (at-least-once, Idempotenz), objektbasierter Speicher für große Binärdaten (Content-Addressing), transaktionaler Speicher für Zustände mit klarer Schema-Evolution. Wählen Sie Komponenten, die offline-Repositorys und signierte Artefakte unterstützen und in Ihre Identitätsinfrastruktur integrierbar sind.
Frage: Wie organisiere ich Updates in Air-Gap-Umgebungen?
Antwort: Bauen Sie zuerst den Lieferkettenpfad: CI erzeugt signierte Artefakte mit SBOM, Transfer über DMZ/Datenträger mit Scans, lokale Registry, GitOps-Controller reconciliert den gewünschten Zustand. Rollouts sind gestaffelt mit Health-Gates; Rollbacks sind vorbereitet. Üben Sie den gesamten Pfad regelmäßig, inklusive Recovery aus Git und Registry.
Frage: Monolith oder Microservices in der Fertigung?
Antwort: Starten Sie monolithisch, wenn Teamgröße klein ist, Latenzanforderungen hoch sind und Deployments selten möglich. Schneiden Sie Services entlang klarer Domänengrenzen ab, sobald unterschiedliche Lebenszyklen sichtbar werden (z. B. Inferenz vs. Berichtswesen). Events als Integrationsverträge und Idempotenz sind Voraussetzung, sonst steigt die Komplexität schneller als der Nutzen.