Wenn LLMs Geschäftsvorgänge unterstützen, sind Observability, Reproduzierbarkeit und Policies Pflicht:
- Retrieval-Layer trennt Datenquellen mit klaren Freigaben. Keine Schattenindizes.
- Prompting und Kontext werden revisionssicher gespeichert, PII vor Speicherung automatisiert geschwärzt.
- Ausgehende Netzverbindungen sind standardmäßig blockiert. Whitelists existieren nur für ausdrücklich genehmigte Endpunkte.
- Evaluationssuites messen Output-Qualität vor Rollout, Regressionen blockieren Promotion.
- Policy-Engines prüfen Eingaben/Ausgaben (Halluzinationsindikatoren, Sensitive Content, Output-Formate).
Diese Governance lässt sich technisch exakt so bauen, wie man es aus klassischen CI/CD-Pipelines kennt – nur, dass hier Artefakte Prompts, Policies und Modelle sind.
API-Design und Evolvierbarkeit
- Stabile Verträge: In langlebigen Industrieumgebungen gelten APIs 5–10 Jahre. Versionieren Sie explizit (v1, v2), vermeiden Sie „magische“ Felder. Deprecations mit Fristen und Migrationspfaden.
- Ereignis-Schemata: Event-Driven Architekturen brauchen Schema-Verträge mit Rückwärts-/Vorwärtskompatibilität. Schema-Registry on-prem, Validierung in der Pipeline.
- Datenexporte: Legal Hold und Audit erfordern Exportfähigkeit. Kein proprietäres Dunkelfeld.
Organisationsmuster, die funktionieren
- Zwei-Pizza-Regel für Plattformkern: Ein kleines, senioriges Team verantwortet Basistechnologien (K8s, Registry, GitOps, Observability, IdP, Secrets). Produktteams konsumieren Self-Service-Schnittstellen.
- Gated Autonomy: Produktteams dürfen Deployments in ihren Namespaces selbst fahren – innerhalb der durch Policies vorgegebenen Leitplanken. Sicherheits- und Compliance-Gates sind automatisiert, nicht manuell.
- Schatten-Cloud vermeiden: Verbieten ist sinnlos; stellen Sie schnelle, sichere Alternativen on-prem bereit. Ein gutes Template-Repo schlägt zehn Governance-Dokumente.
Wann Cloud sinnvoll bleibt
- Nicht-sensible, kurzlebige Experimente, die schnelle Iteration verlangen.
- Lastspitzen-Tests oder synthetische Daten, wo Kosten- und Zeitvorteile klar sind.
- Trainingsjobs mit anonymisierten/öffentlichen Datensätzen, wenn rechtlich geklärt.
Worauf wir uns festlegen
- Souveränität schlägt Bequemlichkeit in regulierten Domänen.
- Cloud-native ist ein Betriebsmodell, kein Ort. Man kann es on-prem erfolgreich umsetzen – mit GitOps, Policy-as-Code, reproduzierbaren Builds, strengem Artefakt- und Identitätsmanagement.
- Verkürzen Sie den Technologie-Zoo. Komplexität frisst Souveränität.
- Bauen Sie anti-fragile Lieferketten: signiert, dokumentiert, offline aktualisierbar.
FAQ
Frage: Ist Kubernetes on-prem nicht Overkill? Reicht ein paar VMs?
Antwort: Für kleine, statische Systeme können VMs reichen. Sobald Sie aber regelmäßig deployen, mehrere Services isolieren, GPU-Workloads planen, Audits bestehen und reproduzierbar arbeiten wollen, skaliert ein orchestrierter Ansatz besser. Wichtig ist die Dosis: Ein schlankes K8s mit klaren Standards ist kein Overkill, zehn Zusatzoperatoren ohne Runbooks schon.
Frage: Wie aktualisieren wir Modelle und Software in Air-Gap-Umgebungen?
Antwort: Über signierte Air-Gap-Bundles: Container-Images, Manifeste, SBOMs, Validierungsberichte in einem versionierten Paket. Import erfolgt in ein Staging-Segment, dort vollständiger Probelauf, anschließend Promotion ins Prod-Segment via definierter, auditierbarer Transfers. GitOps-Operatoren ziehen Bundles aus internen Repos.
Frage: Ist On-Prem grundsätzlich teurer als Cloud?
Antwort: Kurzfristig ja, wegen Hardware und Plattformaufbau. Langfristig hängt es von Datenvolumen, GPU-/Storage-Bedarf und Laufzeit ab. Kontinuierliche, datenintensive Workloads mit hohen Egress-Kosten sind on-prem häufig günstiger und vor allem vorhersagbarer. Wichtig ist eine hohe Auslastung der Ressourcen und ein reifes Betriebsmodell.
Frage: Wie testen wir Sicherheit ohne Internetzugang?
Antwort: Durch interne Mirror-Repositories für Scans, regelmäßige Synchronisierung von CVE-Datenbanken, Offline-Pentest-Kits und Red-Teams im isolierten Netz. SBOM- und Signaturprüfungen laufen lokal. Für ausgewählte Prüfungen kann ein gesicherter, temporärer Prüftunnel genutzt werden – mit Protokollierung und Freigabeprozess.
Frage: Welche Hardware-Empfehlungen für LLM on-prem?
Antwort: Planen Sie GPU-Kapazität dediziert nach Inferenz- und Trainingsprofil, trennen Sie Trainingsknoten von Latenz-sensitiven Inferenzknoten. Achten Sie auf ausreichende VRAM-Kapazität pro Modell, schnelle NVMe-Backends für Embedding/Index-Zugriffe und stabile Strom-/Kühlkapazitäten. Partitionierungsfeatures moderner GPUs können helfen, aber nur, wenn das Scheduling und Monitoring entsprechend reif ist.
Schluss
Cloud-native Prinzipien sind in regulierten Umgebungen kein Widerspruch – wenn man sie entzaubert und auf das Wesentliche reduziert: reproduzierbare Lieferketten, deklarativer Betrieb, harte Verträge, klare Policies. Bauen Sie eine Plattform, keine Sammlung von Ad-hoc-Tools. Und akzeptieren Sie, dass Souveränität ein technisches Feature ist, das man aktiv entwerfen und betreiben muss. Genau dann wird On-Prem nicht zum Kompromiss, sondern zur Voraussetzung für robuste, intelligente Systeme.