- LLM/Agenten-Governance:
- Policy-Engine für Toolzugriffe (welcher Agent darf welche Aktion), Least Privilege.
- Prompt/Response/Tool-Call-Logging mit PII-Scrubbing; Reproducibility durch Fixierung von Modellversion und Konfiguration.
- Evaluationsharness mit Domänen-Tasks, offline; Rollback-Pfade.
- Air-gapped Update-Mechanismen für Modellartefakte, klar signiert und auditierbar.
4) Edge-Architektur und Air-Gap-Betrieb
- Edge Nodes:
- Minimal-Footprint Runtimes, Read-only Root-FS, transaktionale Updates (A/B-Partition).
- Remote-Management über Pull-basierte, signierte Bundles; keine dauerhafte eingehende Ports.
- Lokale Caches für Modelle/Policies, definierte TTLs, Degradationsverhalten bei Stale-Content.
- Steuerungslogik:
- Strikte Trennung: Empfehlungen (AI) vs. Steuerbefehle (PLC/Safety). Kein Direktdraht ohne Freigabe.
- „Human-in-the-Loop“ als Systemkomponente: UI/UX für schnelle Freigaben, Eskalation, Begründungserfassung.
Qualitätssicherung: Wie „Done“ in sicherheitskritischen Domänen aussieht
- Testpyramide konsequent:
- Unit-Tests als Standard, Property-based Tests für kritische Logik.
- Contract-Tests zwischen Services und zu Legacy-Gateways.
- Simulations-/Hardware-in-the-Loop-Tests für OT-Interaktionen.
- Fuzzing an Schnittstellen (Parser, Protokolle), Fault Injection, Chaos-Experimente unter kontrollierten Bedingungen.
- Statische Analyse und Code-Standards:
- Sprachspezifische Regeln (z. B. MISRA-ähnliche Strenge, wo passend), Linter/Gates in CI.
- Pair-/Peer-Reviews mit Checklisten, dokumentierte Architekturentscheidungen (ADRs).
- Nachweisführung:
- Traceability vom Requirement über Testfall zum Artefakt/Build.
- Unveränderliche Artefaktablage (WORM), signierte Reports, Auditbarkeit ohne Internet.
Kosten, Zeit und die Illusion der Abkürzung
„Buy“ wirkt schneller und billiger – bis die ersten nicht verhandelbaren Anforderungen auftauchen: Datenresidenz, Offline-Betrieb, Integrationen, Audit. Dann stapeln sich Workarounds, Gateways und Vertragszusätze. Die Gesamtkosten verschieben sich in die Zukunft – und verketten Fachlichkeit mit Vendor-spezifischer Technik.
„Build“ braucht eine ehrliche Planung:
- Vertical Slice statt Big Bang:
- Ein Ende-zu-Ende-Use-Case mit allen Schichten (Ingestion, Verarbeitung, Inferenz, HMI, Betrieb).
- Früh sichtbare Risiken: Latenz, Datenqualität, Akzeptanz im Betrieb.
- Plattform vor Feature-Feuerwerk:
- CI/CD, Observability, Security, GitOps stehen vor „dritten Use-Case“.
- Operative Fähigkeiten (On-Call, Runbooks) parallel zur Entwicklung aufbauen.
- Entscheidungen bewusst reversibel halten:
- Austauschbare Komponenten wählen (z. B. Message-Bus, Registry, Inferenz-Server).
- Adaptermuster und klare Ports/Adapter statt Direktbindungen.
Migrationsstrategie ohne Betriebsunterbrechung
- Strangler-Fig-Pattern:
- Neue Funktionen außen herum aufbauen, Legacy schrittweise strangulieren.
- Proxy-Schicht, die Alt-/Neu-Routing kapselt, mit Telemetrie und Feature-Flags.
- Dual Run/Shadow Traffic:
- Neue Services mitlesen lassen, Ergebnisse vergleichen, Drift tracken.
- Graduelle Umschaltung mit Canary, Rollback definiert.
- Datenmigration:
- CDC für schrittweises Umschalten, Backfill-Jobs, Idempotenz sicherstellen.
- Konsistenzprüfungen, Cutover-Fenster planen, Notfallpfade dokumentiert.
- Schnittstellenhygiene:
- Versionierte APIs/Schemata, Deprecation-Pläne, Contract-Tests als Gate.
Technical Ownership: Was es konkret bedeutet
- Eine accountable Einheit:
- Ein Team trägt Ende-zu-Ende-Verantwortung für NFRs, SLOs, Kosten, Security.
- Kein „Throw over the wall“ zu Betrieb oder Fachbereich.
- Entscheidungsdisziplin:
- ADRs für Architekturentscheidungen; regelmäßige „Readiness Reviews“ vor Releases.
- Messbare SLOs, Fehlerbudgets, Budgets für Zuverlässigkeit (Zeit und Geld).
- Dokumentation, die benutzt wird:
- Runbooks, Arch-Skizzen, Sequenzdiagramme für Kernpfade; keine PowerPoint-Architektur.
Fallskizzen aus der Praxis (anonymisiert)
- Defense: Bildauswertung an der Edge, komplett offline. Modelle werden als signierte Bundles verteilt, auf GPU-Edge-Knoten quantisiert ausgeführt. Jeder Inferenzpfad ist nachvollziehbar, Ausnahmen lösen definierte Eskalationsketten aus. „Buy“ scheiterte an Air-Gap und Auditierbarkeit.
- Fertigung: Visuelle Fehlererkennung in einer Montagelinie mit Sekunden-Taktzeit. Integration in bestehende PLC-Signale, Empfehlungen nur als „Assist“ mit Mensch-Freigabe. LLM-gestützte Störgrund-Ursache-Analyse läuft on-prem, ohne externe API. „Buy“ scheiterte an Latenz und OT-Integration.
- Bahn: Flottenintelligenz mit Event-Streaming von Fahrzeug- und Depotanlagen. Predictive-Modelle versioniert, Rollouts gestaffelt nach Depot. Reporting und Audit vollständig im eigenen Rechenzentrum. „Buy“ scheiterte an Datenresidenz und Vendor-Lock-in in der Streaming-Schicht.
Entscheidungs-Checkliste: Ist Build hier zwingend?
- Müssen Daten, Telemetrie und Modelle die eigene Domäne niemals verlassen?
- Gibt es harte Latenz-/Verfügbarkeitsanforderungen an der Edge/OT?
- Ist Auditierbarkeit/Reproduzierbarkeit eine Zulassungsvoraussetzung oder vertragliche Pflicht?
- Benötigen Sie Anpassungen an Protokollen/Legacy, die ein Standardprodukt nicht sauber abbildet?
- Dürfen Sie Vendor-Binaries/Closed-Source-Komponenten nicht in sicherheitskritische Pfade aufnehmen?
- Haben Sie eine Organisation, die Technical Ownership übernehmen kann oder aufbaut?
Wenn Sie mehrere Fragen mit „Ja“ beantworten, ist Build nicht Luxus, sondern zwingend. Der operative Aufwand ist real – aber kalkulierbar, wenn Sie Plattform, Governance und Qualität von Anfang an ernst nehmen.
Praktische Startempfehlung (90 Tage)
- Woche 1-2:
- Nicht verhandelbare Anforderungen dokumentieren, Threat Model erstellen.
- Entscheidungsprinzipien und ADR-Template festlegen.
- Woche 3-6:
- On-prem Grundplattform (GitOps, Registry, Observability, IdP) aufbauen.
- Vertical Slice definieren (ein Use-Case), Dummy-Integrationen erstellen, Latenz-Budgets festlegen.
- Woche 7-10:
- Echte Integrationen zu einem Altsystem, Datenpfad und Inferenzpfad Ende-zu-Ende fertigstellen.
- Testpyramide und Runbooks anlegen, SLOs instrumentieren.
- Woche 11-13:
- Canary-Rollout im Schattenbetrieb, Metriken evaluieren, Incident-Drills durchführen.
- Entscheidungsvorlage: Skalieren oder Kurs korrigieren.
Ein Wort zu LLMs in Industrien
Generative Systeme sind wertvoll für Wissensarbeit, Störungsanalyse, Prozedurengenerierung. Aber:
- On-prem-Inferenz reduziert Datenrisiken und Latenz. Für viele Aufgaben reichen mittelgroße Modelle, quantisiert, mit Retrieval aus Ihrer Domäne.
- Agenten brauchen harte Zäune: Tool-Permissions, Transparenz über Aktionen, Freigabepunkte.
- Beobachtbarkeit ist kein Nice-to-have: Prompt- und Antwort-Logging, Evaluationssets, Drift-Erkennung und reproduzierbare Konfigurationen sind Pflicht. Ohne das betreiben Sie eine unprüfbare Blackbox.
Fazit