Imported Post 2026-04-16 00:20:18

LLM/Agenten-Governance:
Policy-Engine für Toolzugriffe (welcher Agent darf welche Aktion), Least Privilege.
Prompt/Response/Tool-Call-Logging mit PII-Scrubbing; Reproducibility durch Fixierung von Modellversion und Konfiguration.
Evaluationsharness mit Domänen-Tasks, offline; Rollback-Pfade.
Air-gapped Update-Mechanismen für Modellartefakte, klar signiert und auditierbar.

4) Edge-Architektur und Air-Gap-Betrieb

Edge Nodes:
Minimal-Footprint Runtimes, Read-only Root-FS, transaktionale Updates (A/B-Partition).
Remote-Management über Pull-basierte, signierte Bundles; keine dauerhafte eingehende Ports.
Lokale Caches für Modelle/Policies, definierte TTLs, Degradationsverhalten bei Stale-Content.

Steuerungslogik:
Strikte Trennung: Empfehlungen (AI) vs. Steuerbefehle (PLC/Safety). Kein Direktdraht ohne Freigabe.
„Human-in-the-Loop“ als Systemkomponente: UI/UX für schnelle Freigaben, Eskalation, Begründungserfassung.

Qualitätssicherung: Wie „Done“ in sicherheitskritischen Domänen aussieht

Testpyramide konsequent:
Unit-Tests als Standard, Property-based Tests für kritische Logik.
Contract-Tests zwischen Services und zu Legacy-Gateways.
Simulations-/Hardware-in-the-Loop-Tests für OT-Interaktionen.
Fuzzing an Schnittstellen (Parser, Protokolle), Fault Injection, Chaos-Experimente unter kontrollierten Bedingungen.

Statische Analyse und Code-Standards:
Sprachspezifische Regeln (z. B. MISRA-ähnliche Strenge, wo passend), Linter/Gates in CI.
Pair-/Peer-Reviews mit Checklisten, dokumentierte Architekturentscheidungen (ADRs).

Nachweisführung:
Traceability vom Requirement über Testfall zum Artefakt/Build.
Unveränderliche Artefaktablage (WORM), signierte Reports, Auditbarkeit ohne Internet.

Kosten, Zeit und die Illusion der Abkürzung

„Buy“ wirkt schneller und billiger – bis die ersten nicht verhandelbaren Anforderungen auftauchen: Datenresidenz, Offline-Betrieb, Integrationen, Audit. Dann stapeln sich Workarounds, Gateways und Vertragszusätze. Die Gesamtkosten verschieben sich in die Zukunft – und verketten Fachlichkeit mit Vendor-spezifischer Technik.

„Build“ braucht eine ehrliche Planung:

Vertical Slice statt Big Bang:
Ein Ende-zu-Ende-Use-Case mit allen Schichten (Ingestion, Verarbeitung, Inferenz, HMI, Betrieb).
Früh sichtbare Risiken: Latenz, Datenqualität, Akzeptanz im Betrieb.

Plattform vor Feature-Feuerwerk:
CI/CD, Observability, Security, GitOps stehen vor „dritten Use-Case“.
Operative Fähigkeiten (On-Call, Runbooks) parallel zur Entwicklung aufbauen.

Entscheidungen bewusst reversibel halten:
Austauschbare Komponenten wählen (z. B. Message-Bus, Registry, Inferenz-Server).
Adaptermuster und klare Ports/Adapter statt Direktbindungen.

Migrationsstrategie ohne Betriebsunterbrechung

Strangler-Fig-Pattern:
Neue Funktionen außen herum aufbauen, Legacy schrittweise strangulieren.
Proxy-Schicht, die Alt-/Neu-Routing kapselt, mit Telemetrie und Feature-Flags.

Dual Run/Shadow Traffic:
Neue Services mitlesen lassen, Ergebnisse vergleichen, Drift tracken.
Graduelle Umschaltung mit Canary, Rollback definiert.

Datenmigration:
CDC für schrittweises Umschalten, Backfill-Jobs, Idempotenz sicherstellen.
Konsistenzprüfungen, Cutover-Fenster planen, Notfallpfade dokumentiert.

Schnittstellenhygiene:
Versionierte APIs/Schemata, Deprecation-Pläne, Contract-Tests als Gate.

Technical Ownership: Was es konkret bedeutet

Eine accountable Einheit:
Ein Team trägt Ende-zu-Ende-Verantwortung für NFRs, SLOs, Kosten, Security.
Kein „Throw over the wall“ zu Betrieb oder Fachbereich.

Entscheidungsdisziplin:
ADRs für Architekturentscheidungen; regelmäßige „Readiness Reviews“ vor Releases.
Messbare SLOs, Fehlerbudgets, Budgets für Zuverlässigkeit (Zeit und Geld).

Dokumentation, die benutzt wird:
Runbooks, Arch-Skizzen, Sequenzdiagramme für Kernpfade; keine PowerPoint-Architektur.

Fallskizzen aus der Praxis (anonymisiert)

Defense: Bildauswertung an der Edge, komplett offline. Modelle werden als signierte Bundles verteilt, auf GPU-Edge-Knoten quantisiert ausgeführt. Jeder Inferenzpfad ist nachvollziehbar, Ausnahmen lösen definierte Eskalationsketten aus. „Buy“ scheiterte an Air-Gap und Auditierbarkeit.

Fertigung: Visuelle Fehlererkennung in einer Montagelinie mit Sekunden-Taktzeit. Integration in bestehende PLC-Signale, Empfehlungen nur als „Assist“ mit Mensch-Freigabe. LLM-gestützte Störgrund-Ursache-Analyse läuft on-prem, ohne externe API. „Buy“ scheiterte an Latenz und OT-Integration.

Bahn: Flottenintelligenz mit Event-Streaming von Fahrzeug- und Depotanlagen. Predictive-Modelle versioniert, Rollouts gestaffelt nach Depot. Reporting und Audit vollständig im eigenen Rechenzentrum. „Buy“ scheiterte an Datenresidenz und Vendor-Lock-in in der Streaming-Schicht.

Entscheidungs-Checkliste: Ist Build hier zwingend?

Müssen Daten, Telemetrie und Modelle die eigene Domäne niemals verlassen?
Gibt es harte Latenz-/Verfügbarkeitsanforderungen an der Edge/OT?
Ist Auditierbarkeit/Reproduzierbarkeit eine Zulassungsvoraussetzung oder vertragliche Pflicht?
Benötigen Sie Anpassungen an Protokollen/Legacy, die ein Standardprodukt nicht sauber abbildet?
Dürfen Sie Vendor-Binaries/Closed-Source-Komponenten nicht in sicherheitskritische Pfade aufnehmen?
Haben Sie eine Organisation, die Technical Ownership übernehmen kann oder aufbaut?

Wenn Sie mehrere Fragen mit „Ja“ beantworten, ist Build nicht Luxus, sondern zwingend. Der operative Aufwand ist real – aber kalkulierbar, wenn Sie Plattform, Governance und Qualität von Anfang an ernst nehmen.

Praktische Startempfehlung (90 Tage)

Woche 1-2:
Nicht verhandelbare Anforderungen dokumentieren, Threat Model erstellen.
Entscheidungsprinzipien und ADR-Template festlegen.

Woche 3-6:
On-prem Grundplattform (GitOps, Registry, Observability, IdP) aufbauen.
Vertical Slice definieren (ein Use-Case), Dummy-Integrationen erstellen, Latenz-Budgets festlegen.

Woche 7-10:
Echte Integrationen zu einem Altsystem, Datenpfad und Inferenzpfad Ende-zu-Ende fertigstellen.
Testpyramide und Runbooks anlegen, SLOs instrumentieren.

Woche 11-13:
Canary-Rollout im Schattenbetrieb, Metriken evaluieren, Incident-Drills durchführen.
Entscheidungsvorlage: Skalieren oder Kurs korrigieren.

Ein Wort zu LLMs in Industrien

Generative Systeme sind wertvoll für Wissensarbeit, Störungsanalyse, Prozedurengenerierung. Aber:

On-prem-Inferenz reduziert Datenrisiken und Latenz. Für viele Aufgaben reichen mittelgroße Modelle, quantisiert, mit Retrieval aus Ihrer Domäne.

Agenten brauchen harte Zäune: Tool-Permissions, Transparenz über Aktionen, Freigabepunkte.

Beobachtbarkeit ist kein Nice-to-have: Prompt- und Antwort-Logging, Evaluationssets, Drift-Erkennung und reproduzierbare Konfigurationen sind Pflicht. Ohne das betreiben Sie eine unprüfbare Blackbox.

Fazit