4) Sicherheit und Souveränität

  • Eigenes PKI-Root, mTLS intern, signierte Artefakte, SBOM und Reproducible Builds.
  • Kein externer Lizenzzwang zur Laufzeit, keine Telemetrie ins Internet. Updates via kontrollierten Paket- und Container-Registries On-Prem.

5) Betrieb und Qualität

  • Infrastruktur als Code, deterministische Environments, isolierte Build-Pipelines ohne Internetzugang (Spiegel-Registries).
  • Observability On-Prem: Metriken, Traces, Ereignis-Telemetrie, Audit-Logs. Alarmierung ohne externe Abhängigkeit.

6) ML/LLM-spezifische Governance

  • Versionierte Modelle, Datasets und Feature Stores. Evaluationspipelines mit reproduzierbaren Seeds.
  • Richtlinien-Engine für LLM- bzw. Agentenaktionen; Prompt-/Tooling-Versionierung, Audit-Trail, Offline-Fähigkeit der Inferenz, konfigurierbare Kontextfenster und Datenlokalität.
  • Trennung zwischen Experimentierräumen und Produktionsagenten; Freigaben via Change-Management.

Beispielhafte Anwendungspunkte aus der Praxis

  • Bahn/Fleet Intelligence: Notwendigkeit zur stabilen Datenerfassung von Fahrzeugen mit unzuverlässiger Konnektivität, zeitversetztes Hochladen, deterministisches Reprocessing von fehlerhaften Datenfenstern. Buy-Lösungen scheitern oft an Pufferung, konfliktfreien Replays und domänenspezifischer Aggregationslogik. Build ermöglicht ein kontrolliertes Datenmodell mit deterministischen Replays, Materialized Views pro Flotte und On-Prem Analytics.
  • Fertigung/Visuelle Inspektion: Inline-Inferenz mit engen Latenzbudgets, Bilddaten verbleiben in Werkshallen. Typische SaaS-Modelle kollidieren mit Bandtaktzeit und Datenabfluss. Build sichert lokale Inferenz, datengesteuerte Threshold-Strategien und Auditierbarkeit der Modellversion je Produktionscharge.
  • Defense/Sichere Plattformen: Air-Gapped Deployments, kein externer Activation- oder Telemetrieserver, definierte Updatefenster. Build garantiert, dass Update-Rollouts, Schlüsselrotationen und Artefaktprüfungen vollständig in der eigenen Supply Chain verbleiben.
  • Konstruktion/Vermessungssysteme: Offline-Fähigkeit im Feld, robuste Synchronisationsstrategien, konfliktfreie Zusammenführung von Messdaten bei später Konnektivität. Build ermöglicht domain-spezifische Konfliktauflösung statt generischer “Last Write Wins”-Heuristiken.

Quality Gates, die Off-the-Shelf selten erfüllt

  • Reproduzierbarkeit: Bytegleiche Builds und definierte Docker-/OCI-Digests. Austauschbarkeit der Basisschichten ohne Netzbezug.
  • Migrationsstrategie im Code: Strangler-Fig-Pattern, Daten-Shadowing, Read-Only-Spiegel gegen Legacy, schrittweise Umschaltung von Endpunkten über Routen/Service Mesh.
  • Testen über deterministische Orakel hinaus: Metamorphes Testen für ML, Kontrakt-Tests für Integrationen, Last- und Chaos-Szenarien in isolierten Umgebungen.
  • Notfallfähigkeit: Vollständige Backup- und Restore-Übungen unter realistischen Netzrestriktionen. Wiederanlauf plangemäß mit definierter Datenkonsistenz (z. B. “at-least-once” mit Idempotenzgarantien).
  • Dokumentierte Architekturexplizitheit: Architekturdokumente, ADRs, Sicherheitsmodell, Betriebs-Playbooks – alles versionsgeführt und lokal verfügbar.

Technical Ownership als Projektversicherung

Individuelle Entwicklung ist nur so gut wie die Ownership-Struktur. Technical Ownership bedeutet:

  • Klare Verantwortung für das Domänenmodell, die Systemgrenzen und die Qualitätskriterien.
  • Entscheidungsbefugnis, Architekturschulden zu tilgen, statt sie in Roadmap-PowerPoints zu verschieben.
  • Messbare, technische Definition of Done: Reproduzierbarer Build, messbare SLOs, dokumentierte Betriebsroutinen, belastbare Observability.
  • Keine Proxy-Ownership durch reine Integrationspartner. Entweder Inhouse-Team mit gezielter Verstärkung oder ein Partner, der nicht nur liefert, sondern die Architekturlasten sichtbar trägt.

Kalkulation: TCO mit Souveränitäts-Prämie

CAPEX vs OPEX greift zu kurz. Rechnen Sie folgende Kostentreiber ein:

  • Lock-in-Abschläge: Kosten einer erzwungenen Migration bei Roadmap-Drift (Datenexport, Neuintegration, Doppellaufzeiten).
  • Compliance-Kosten: Audits, Nachweise, zusätzliche Kontrollen wegen externer Telemetrie oder gemischter Betriebsmodelle.
  • Betriebsrisiko: Unerwartete Upgrades, Lizenzabhängigkeiten, Plattformzwänge, die in Wartungsfenstern nicht steuerbar sind.
  • Teamaufbau: Für Build benötigen Sie tragfähige Kernrollen (Architektur, DevOps, QA, Security). Das ist ein Kostenblock – aber er ist planbar und ergebniswirksam.
  • Lebensdauer: In einem 10–20-Jahres-Horizont ist Build häufig günstiger, weil er Roadmap-Risiken reduziert und Migrationskosten kontrollierbar macht.

Legacy-Migration ohne Betriebsunterbrechung

Eine robuste, bewährte Vorgehensweise:

  • Anti-Corruption-Layer zuerst: Eine saubere, sprachlich domänengetreue Schnittschicht vor das Legacy-System setzen. Keine direkten Couplings.
  • Datenverdopplung und Schattenlast: Relevante Ereignisse per CDC abgreifen, in neuen Domänenmodellen materialisieren. Shadow Traffic ermöglicht realitätsnahe Tests.
  • Strangler-Fig: Schrittweise Endpunkte vom Legacy auf das neue System umschalten. Messbar per SLOs, reversibel per Routing.
  • Rollout-Muster: In On-Prem-Umgebungen Blue/Green via parallel laufenden Instanzen; bei Edge-Geräten Rolling mit Rückfallebenen. Feature Flags lokal, nicht cloudgebunden.
  • Formale Abnahme: Messbare Kriterien pro Teilschnitt, automatisierte Regressionstests, Domänenabnahmen gemeinsam mit Fachexperten.

Souveräne KI in der Praxis: Observability und Governance für LLM-Agenten

Wenn Sie LLMs oder Agenten in Produktionsprozesse einbetten, reicht “Wir protokollieren ein paar Prompts” nicht. In regulierten Kontexten brauchen Sie:

  • Versionierte Prompts, Policies und Tool-Definitionen; Nachvollziehbarkeit jeder Entscheidung eines Agenten.
  • Telemetrie über Token, Latenzen, Nebenwirkungen von Aktionen; Korrelation mit Betriebsmetriken.
  • Policy-Enforcement vor Aktionsausführung: Welche Tools darf ein Agent nutzen, mit welchen Parametern, in welchem Kontext? Was ist offline zulässig?
  • On-Prem-Inferenz oder streng kontrollierte Gateways; keine unkontrollierten Datenabflüsse.
  • Auditierbare Freigabenpfade und automatisierte Testszenarien gegen bekannte Fehlmodi.

Eine entsprechende Plattform, die diese Governance und Observability On-Prem bereitstellt, hebt LLM-Workloads aus der Experimentierecke in den geregelten Betrieb. Aus Architektursicht ist das der notwendige Unterbau – egal ob die Modelle intern trainiert oder zugekauft werden.

Konkrete Checkliste für Ihre Entscheidung