Sobald LLMs Tools aufrufen, Pläne schmieden und über mehrere Schritte handeln, verlassen wir den Komfort statischer Inferenz. Die richtigen Fragen sind dann SRE-artig: Wer sieht was, wann, in welchem Kontext, und wer darf es stoppen?

Kernkomponenten für On-Prem-Agentensteuerung:

  • Deterministischer Policy Layer
  • Rollen- und kontextbasierte Tool-Freigaben („Wartungsassistent darf nur read-only in Ersatzteilkatalog; nur mit Freigabe darf er Bestellungen auslösen“).
  • Konfigurierbar als deklarative Policies, versioniert, signiert.

  • Strukturierte Traces pro Agentenschritt
  • Jeder Schritt erzeugt ein strukturiertes Ereignis: Prompt-Kontext-Hinweise (ohne vertrauliche Rohdaten, wenn nicht nötig), getroffene Auswahl, Tool-Aufruf, Ergebnis-Hash, Policy-Entscheidung, Nutzerinteraktion.
  • Kompatibel zu Telemetrie-Standards, damit man mit existierenden Observability-Stacks arbeiten kann.
  • Speicher- und Gedächtnis-Governance
  • Kurzzeitkontext vs. Langzeitspeicher strikt trennen. Kein unkontrolliertes „Anreichern“ mit personenbezogenen oder vertraulichen Betriebsdaten.
  • Speicherobjekte werden klassifiziert, mit Aufbewahrungsfristen versehen und können rechtssicher gelöscht werden.
  • Prompt- und Wissens-Provenienz
  • Alle Systemprompts, Toolbeschreibungen und Wissensartefakte sind versioniert. Jede Entscheidung ist einer konkreten Version zuordenbar.
  • RAG-Pfade dokumentieren: welche Dokumente wurden konsultiert, mit welchen Indizes, welche Passagen sind in die Antwort eingeflossen.
  • Test- und Replay-Harness
  • Agentenläufe müssen offline reproduzierbar sein: deterministische Seeds, eingefrorene Tool-Mocks, gleiches Policy-Set.
  • So wird aus einem Vorfall ein testbarer Fall – Voraussetzung für echte Ursachenanalyse.
  • Live-Kontrolle
  • Kill-Switch pro Agent, pro Tool, pro Nutzergruppe.
  • Autonomie-Drossel (z. B. Schrittlimit, Genehmigungspflicht ab Budget X).
  • Quotenmanagement, damit kein Agent das System flutet.

Welche Metriken sind in der Praxis tragfähig?

  • Task-Erfolgsdefinitionen, die im Business-Prozess verankert sind (z. B. „korrekt erstellter Wartungsbericht mit konsistenten Ersatzteilreferenzen“).
  • Eskalations- und Rücknahmequoten pro Agentenpfad statt generische „Halluzinationsraten“.
  • Policy-Verletzungen und Block-Events als SLO-Reibungspunkte.
  • Drift-Indikatoren im Wissensspeicher: Anteil veralteter Dokumente, nicht referenzierbare Zitate, steigende Nachfragen nach denselben Fakten.

Wir setzen diese Prinzipien in einer On-Prem-Stack-Architektur um: lokale Inferenzserver (z. B. vllm/llama.cpp Klassen), ein souveräner Vektor-Index, ein Policy- und Signaturlayer, ein Telemetrie-Bus, der Agenten-Traces aufnimmt, sowie ein UI für Triage, Replay und Freigaben. Unser eigener Plattformansatz (Alpi-M) ist genau in dieser Nische verankert: Observability und Governance für LLM-Agenten – on-premise und datensouverän. Entscheidend ist, dass Observability als Erstklasse-Bürger gebaut wird, nicht als nachträglicher Logger.

5) Daten- und System-Souveränität als Architekturkonstante

Souveränität bedeutet: Daten bleiben unter eigener Kontrolle; Haftung und Auditierbarkeit sind nicht an externe Blackboxes delegiert. Das hat technische Konsequenzen:

  • Netzwerkzonen
  • Air-Gap oder streng segmentierte Zonen zwischen Produktionsnetz, Wissensspeicher, Inferenzclustern und Management-Ebene.
  • Alle Agententools sind in diesen Zonen verortet und werden wie kritische Betriebssoftware gehärtet.
  • Identität und Signaturen
  • Jede KI-Aktion ist einem Dienstprinzipal zugeordnet (nicht „anonymous agent“), Ergebnisse werden digital signiert und mit Zeitstempel versehen.
  • Freigaben durch Menschen sind kryptografisch gebunden, sodass nachträgliche Manipulation ausgeschlossen ist.
  • Ressourcenplanung statt Cloud-Elastizität
  • On-Prem bedeutet konkrete Kapazitätsplanung: GPU-Scheduling, Prioritätsklassen für Echtzeit versus Batch, Puffer für Spitzen.
  • Vorteil: deterministisches Verhalten, klarer Kostenrahmen, keine Abhängigkeit von fremden SLAs.
  • Datenhaltung und DSGVO
  • Trennung zwischen personenbezogenem, betriebskritischem und öffentlichem Wissen im RAG.
  • Recht auf Vergessen: referenzbasierte Speicher, in denen sich Einträge tatsächlich entfernen lassen; Agenten müssen damit umgehen können (z. B. invalidierter Kontext).
  • Update- und Change-Window
  • Kein „permanent beta“. Geplante Wartungsfenster, Shadow-Rollouts, Canary-Freigaben – dokumentiert, testbar, rücknehmbar.

6) Governance: Wer ist verantwortlich, wenn die KI falsch liegt?

Verantwortung ist eine Funktion aus Design und Organisation. Ein klares Betriebsmodell verhindert, dass „die KI“ zum Sündenbock wird.

  • RACI für KI-gestützte Entscheidungen
  • Responsible: Der menschliche Genehmiger in Stufe 0/1 – mit Tooling, das ihm eine echte Entscheidung ermöglicht (Evidenz, Reversibilität).
  • Accountable: Prozess-/Systemeigentümer, der Policies definiert, SLOs verantwortet und den Änderungspfad steuert.
  • Consulted: Daten- und Modelleigentümer (Trainingsdaten, Modelldokumentation, Limitierungen).
  • Informed: Compliance, Arbeitssicherheit, Betriebsrat je nach Kontext.
  • Nachvollziehbare Freigaben
  • Jede Freigabe hat einen Zweck, eine Evidenzbasis, eine Policy-Version und eine Signatur.
  • Kein Dark-Pattern in der UI: Ablehnen ist gleichwertig zu Freigeben.
  • Vorfälle und Eskalation
  • Runbooks wie in der IT-Operations: Erkennung, Eindämmung (Kill-Switch), Ursachenanalyse (Replay), Korrekturmaßnahme (Policy/Modell/Tool).
  • Regelmäßige Blameless-Reviews mit konkreten Technik- und Prozessänderungen.
  • Change-Management
  • Modell- und Policy-Versionen mit Feature-Gates. Erst Shadow, dann Canary, dann Vollbetrieb – immer mit Telemetrie.
  • Akzeptanzkriterien sind vorab definiert: Welche Aufgaben, in welchem Bereich, mit welchen Eskalationsgrenzen.
  • Safety Case
  • Dokumentierte Annahmen, Betriebsgrenzen, Fallbacks und Evidenz, dass das System innerhalb dieser Grenzen sicher operiert.
  • Für sicherheitskritische Kontexte: Integration mit etablierten Verfahren wie Gefahrenanalysen in der Domäne.

7) Zwei prägnante Anwendungsszenarien

a) Visuelle Inspektion in der Fertigung

  • Problem: Minimieren von Pseudoausschuss ohne echte Fehler durchzuwinken.
  • Architektur:
  • Edge-Inferenz direkt an der Linie, asynchrone Triage für unklare Fälle.
  • Evidence Bus: Bounding-Boxen, Segmentierungen, Merkmale, ähnliche historische Fälle.
  • Kalibrierte Arbeitsbereiche pro Produktvariante; OOD-Erkennung erzwingt menschliche Prüfung.
  • Reversible Operationen: Bauteile erhalten Status „Quarantäne“ bis zur Freigabe.
  • Governance: Zwei-Augen-Freigabe bei hohen Fehlerkosten; Audit-Trail mit Signaturen.
  • Ergebnis: Operatoren entscheiden belastbar anhand konsistenter Evidenz; Prozessingenieure können objektiv nachjustieren (Schrauben an Kalibrierung, Policies, Workflows), statt über „die KI“ zu diskutieren.