- Datenlokalität und Exit: Können Sie Daten täglich extrahieren und in ein neutrales Format bringen? Gibt es eine dokumentierte, getestete Rückbau-Strategie?
- Betriebsmodell: Lässt sich die Komponente on-prem oder in einer souveränen Umgebung mit Ihren SLOs betreiben? Gibt es Beobachtbarkeit ohne PII-Export?
- Testbarkeit: Können Sie deterministische Tests fahren? Gibt es Mocks/Simulationsmöglichkeiten? Versionierte, testbare Schnittstellen?
- Lieferkette: Bekommen Sie SBOMs? Signierte Artefakte? Sicherheitsupdates in Ihrer geforderten Zeit?
- Kostentransparenz unter Last: Wie verhält sich Preis/Performance in Spitzen? Gibt es Hardware-Alternativen (z. B. GPU/CPU-Trade-offs), die Sie kontrollieren?
Für KI-Komponenten heißt das konkret: Evaluations-Harness, Golden Datasets, reproduzierbare Fine-Tuning-Pipelines, offline Model Registry, Prompt- und Output-Filter, Monitoring von Halluzinationen/Drift. Wenn Sie das nicht kontrollieren, besitzen Sie das System nicht – selbst wenn Sie die Rechnung zahlen.
On-Premise und Souveränität: was Ownership praktisch bedeutet
Viele Teams unterschätzen die Unterschiede zum Public-Cloud-Betrieb:
- Artefakt- und Container-Registries on-prem: Kein “docker pull” aus dem Internet. Spiegeln, kuratieren, signieren. Offline-Installationspfade regelmäßig testen.
- Identität und Geheimnisse: Kein Managed Secret Store vom Hyperscaler. Eigene PKI, Secret-Verteilung mit Rotation, Auditierbarkeit.
- Observability ohne Datenabfluss: Logs/Metriken/Traces lokal, PII-Masking an der Quelle, mandantenfähige Dashboards für Betrieb und Audit.
- Zeit- und NTP-Management: deterministische Zeitquellen, Abweichungserkennung. Trivial? Nicht in geschlossenen Netzen.
- Backup/DR-Strategien: Offsite-Backups, aber unter Kontrolle der eigenen Organisation. Restore-Drills vierteljährlich, nicht nur Papier.
Qualitätssicherung in sicherheitskritischen/industriellen Systemen
Ein Testpyramidendiagramm ist nett, aber in der Praxis brauchen Sie zusätzliche Schichten:
- Contract-Tests: Jede Schnittstelle hat Producer- und Consumer-Tests. Kein Breaking Change ohne roten Test.
- Property-based Tests: Für Parser/Protokolleinheiten, um unerwartete Eingaben systematisch abzudecken.
- Chaos/Fault-Injection: Netzwerkpartitions, Clock Skew, Disk-Füllstände, Prozessabstürze – regelmäßig im Staging.
- Hardware-in-the-Loop/Simulation: Für Sensorik/Aktorik, reale Timing-Eigenschaften und Treibergrenzen testen.
- Metamorphe Tests für ML: Wenn Eingabe transformationsäquivalent ist (z. B. Helligkeitsskalierung), sollte Ausgabe innerhalb eines Bandes bleiben.
- Shadow/Parallel Traffic: Neue Modelle/Algorithmen erst passiv gegen Live-Daten fahren, bevor sie Entscheidungen treffen.
Lieferkette und Reproduzierbarkeit: die unbeliebten, aber entscheidenden 20%
- Hermetische Builds: Keine Netzwerksprache zur Build-Zeit. Reproduzierbare Images (gleiche Inputs → gleicher Hash).
- Signierte Artefakte und Policy Enforcement: Nur signierte Container dürfen laufen. Ausnahmen dokumentiert und zeitlich begrenzt.
- SBOM-Pflicht: Für jedes Release. CVE-Scan als Gate, Risikoabschätzung mit dokumentierter Entscheidung.
- Abhängigkeits-Updatefenster: Regelmäßige, kleine Updates statt seltener Big Bangs. Jede Aktualisierung mit Smoke- und Regressionstests.
Änderungssteuerung ohne Bürokratiemonster
- ADR-First: Architekturänderungen starten mit einem ADR-Entwurf. Review durch Tech Leads, dann Implementierung. Vermeidet “Refactor by Surprise”.
- Pipeline-Gates als lebende Checks: Metrik-Budgets (Latenz, RAM), Testabdeckung, Security-Checks, Linters. Rot heißt: kein Merge.
- Safe Deploys on-prem: Blue/Green mit getrennter Datenbank-Replica, Contract-Migrationen (Expand → Migrate → Contract), Rollback-Pfade geübt.
- Feature Flags mit Ablaufdatum: Flags sind Schulden. Automatisches Ticket/Alert, wenn das Datum erreicht ist.
Fallbeispiel aus der Praxis: Flottenintelligenz in einer Multi-Vendor-Bahnumgebung
Ausgangslage:
- Mehrere Hersteller liefern Diagnosedaten mit proprietären Formaten.
- Leitstellen wollen innerhalb weniger Sekunden kritische Events sehen.
- Netzsegmente sind isoliert; Internetzugang ist strikt beschränkt.
- Audits fordern Nachweis, dass keine personenbezogenen Daten das Segment verlassen.
Technical Ownership Hebel:
- Capability Map und Mission Threads definieren Latenz- und Zuverlässigkeitsziele: “<5 s End-to-End für Alarm X, P95”.
- ICDs pro Herstellerfeed, inklusive Feldsemantik, Einheiten und Fehlercodes. Contract-Tests sichern die Einhaltung.
- Edge-Ingestion-Services mit idempotenter Verarbeitung, Backpressure und garantierter Reihenfolge; Event-Store mit Zeitfenster-Index.
- Observability lokal: Metriken/Logs/Traces im Segment, PII-Masking an der Quelle; Freigabeprozess für Export von Metrikaggregaten.
- Reproduzierbare Builds, private Container-Registry, signierte Deployments.
- Rollout-Strategie: Shadow Mode der neuen Normalisierungspipeline über 6 Wochen, Abweichungsanalyse, dann schrittweise Aktivierung.
Ergebnis:
- Keine “Big Bang”-Migration, sondern risikoorientierte Aktivierung pro Feed.
- Audit-fähige Nachweise für Datenlokalität und Reaktionszeiten.
- Betriebsstabilität, weil Runbooks und Observability vor Inbetriebnahme fertig waren – nicht “später”.
AI-spezifische Ownership: Modelle sind Code, aber auch Daten und Verhalten
Für KI-Anteile gelten zusätzliche Regeln:
- Daten-Governance: Jede Trainings-/Eval-Datenquelle ist katalogisiert, Versionen sind fixiert, PII ist technisch ausgeschlossen oder rechtlich und technisch kontrolliert.
- Evaluations-Harness: Golden Datasets, adversariale Tests, Drift-Detektion. Scorecards sind Release-Gates, nicht nur Berichte.
- Reproduzierbare Fine-Tunes: Containerisierte Pipelines, deterministische Seeds, Fixierung von Tokenizer/Preprocessing.
- Inferenz-Governance: Prompt-/Output-Filter, Rechtsschutz (PII/PHI), Logging ohne sensible Inhalte, Feedback-Schleifen mit Review.
- Observability: Halluzinationsraten, Regressionsmetriken, Latenz unter Last, Ressourcenbudgeteinhaltung.
- Exit-Strategie: On-Prem-Inferenzpfad vorhanden, auch wenn heute ein externer Dienst genutzt wird. Modelle und Tokenizer werden lokal registriert.
Als Hersteller von industrieller KI-Software haben wir dafür eigene Observability-/Governance-Werkzeuge etabliert, um Agenten/LLMs messbar, nachvollziehbar und auditierbar zu machen – on-prem, DSGVO-konform, ohne US-Cloud-Abhängigkeit. Entscheidend ist nicht das Tool, sondern dass Metriken, Policies und Nachweise integraler Bestandteil des Systems sind.
Betrieb: SRE-Praktiken ohne Hyperscaler
SRE funktioniert auch in Rechenzentren und Edge-Umgebungen: