Kontrollpunkte über den gesamten Lebenszyklus
Wir verorten Kontrollen an drei Stellen: vor Ausführung, während Ausführung, nach Ausführung.
Vor Ausführung (pre‑exec):
- Eingangsvalidierung: Format, Schema, PII‑Maskierung, Domänenrouting.
- Risiko‑Klassifizierung: Einschätzung der Aufgabe (nur lesend/analytisch vs. schreibend/steuernd), erwartete Wirkung, notwendige Genehmigungsebene.
- Budgetierung: Tokens, Kosten, Max‑Steps, Max‑Tools pro Task.
- Policy‑Matching: Welche Regeln gelten für diesen Benutzer/Use‑Case/Systemzustand?
Während Ausführung (in‑exec):
- Tool‑Wächter: Strikte JSON‑Schemas, Argument‑Whitelists, Ressourcen‑Scopes, Idempotency‑Keys, Timeouts, Retry‑Strategien, Sandboxing, least‑privilege‑Tokens, kurzlebige Credentials.
- Agent‑Begrenzer: Max Plan Depth, Zyklenerkennung, verpflichtende “Abbruch bei Unklarheit”.
- Inhalts‑Guardrails: Klassifikatoren für sensible Inhalte, PII‑Releaks, Exfiltrationsmuster; Ablehnungs‑Pfad aktivieren.
- Dynamische Politik: Kontextabhängige Freigaben (z. B. Notbetrieb vs. Normalbetrieb), Quorum‑Freigaben für Hochrisiko‑Aktionen.
Nach Ausführung (post‑exec):
- Menschliche Freigabe für Aktionen mit Seiteneffekt; Pflichtbegründungen bei Abweichungen.
- Notarisierung: Ergebnis + Belege + Policies als signierter Audit‑Datensatz.
- Rollback‑Haken: Wenn nachträglich als fehlerhaft erkannt, automatisierbare Gegenaktion, soweit fachlich möglich.
Governance: Verantwortlichkeit, Versionen, Freigaben
Technische Kontrolle ohne Governance ist Theater. Minimale Governance‑Bausteine:
- RACI je Artefakt: Wer besitzt Modell, Datenindex, Prompt, Tool, Policy? Wer reviewed Änderungen? Wer darf in Produktion bringen?
- Versionierung alles Relevanten: Prompts, Tool‑Schemas, Policies, Modelle, Indizes. Jede Änderung mit Ticket, Begründung, Testnachweis.
- Änderungsprozess: Experiment (Shadow), interne Abnahme mit Domänen‑Goldens, Canary‑Rollout, Monitoring‑Gate, breiter Rollout. Feature‑Flags für schnelles Abschalten.
- Reproduzierbarkeit vs. Erklärbarkeit: Perfekte bitweise Reproduktion generativer Outputs ist illusorisch; aber Sie können den Zustand (Versionen, Kontexte, Seeds, Policies) so erfassen, dass Verhalten nachvollziehbar wird. Das reduziert Streitfälle.
- Audit‑Readiness: WORM‑Logs, vollständige Traces, Unterschriften, Export‑Pakete für interne Revision.
Daten‑Souveränität als Systemannahme, nicht als nachträglicher Compliance‑Check
In DACH/BENELUX/Nordics ist On‑Premise oft keine Option, sondern Pflicht. Daraus folgen architektonische Entscheidungen:
- Modell‑Serving lokal (z. B. dedizierter Serving‑Stack mit GPU‑Nodes), Vektorindizes lokal, keine US‑Cloud‑Telemetrie.
- Telemetrie, Policies und Audit‑Daten bleiben im eigenen Netzwerk. Keine “kostenlosen” SaaS‑Dashboards mit Event‑Abfluss.
- Offline‑Fähigkeit: Air‑gapped Deployments, Replikation von Artefakten über geprüfte Kanäle, lokales Lizenz‑/Key‑Management.
- Performanceplanung: Token‑Budgetierung, Queueing, Priorisierung – weil Sie nicht “mal eben” in die Public Cloud ausweichen.
Referenzarchitektur (on‑prem) – in Worten
- Orchestrierung: Kubernetes‑Cluster mit Service‑Mesh und Secrets‑Management. Namespaces je Umgebung (dev/staging/prod), strikte Netzwerkpolicies.
- Modell‑Ebene: Inference‑Dienste für LLM/Embeddings. Modelle als versionierte Artefakte mit Hashes.
- Wissensebene: Vektordatenbank(en), Dokument‑Pipelines, Signierung/Hashing der Indexinhalte, Dokumenten‑Provenienz.
- Agent‑Runtime: Graph‑basierte Orchestrierung (z. B. DAGs), Schritt‑Budgetierung, Tool‑Registrierung mit strengen Schemas.
- Policy‑Engine: Laufzeit‑Durchsetzung von Regeln; Konfiguration versioniert, getrieben von Use‑Case und Benutzerrechten.
- Observability‑Pipeline: Interceptor‑SDKs, Events → Bus → Append‑Only‑Store + Index. Query‑Service für Traces, Dashboards, Alerts.
- Human‑in‑the‑Loop UI: Genehmigungs‑Queues, Evidenzansicht, Diff von Vorschlägen vs. finaler Aktion, Begründungspflicht.
- Integrationen: ERP/PLM/EAM via gesicherte Proxies, Idempotency‑Layer, Read/Write‑Trennung. Testdoubles für Pre‑Prod.
Operative Playbooks
- Incident‑Response (AI): Kill‑Switch je Tool, Herabstufung in Read‑Only‑Modus, Deaktivierung von Autonomie, Rückfall auf Q&A ohne Tools, Quarantäne von kompromittierten Indizes, rote Linie für Datenabfluss.
- Prompt/Policy‑Rollback: Versionen sind feature‑flag‑fähig; Rollback ist minutes, nicht days.
- Canary‑Strategie: Begrenzte Nutzergruppe oder Task‑Klasse, striktes Monitoring, automatischer Revert bei Schwellwertverletzung.
- “Safe to fail”: Idempotente Aktionen, Trockenläufe per default in neuen Pfaden, expliziter Opt‑In für Write‑Befehle.
Was messen – jenseits von “Genauigkeit”
Für Agenten sind Metriken nützlich, wenn sie Entscheidungen auslösen:
- Qualität/Vertrauen: Anteil genehmigter Vorschläge, Übersteuerungsrate (“override”), Rate an Ablehnungen mit Begründung “unklare Evidenz”, Groundedness‑Proxy unter Schwelle.
- Sicherheit: Geblockte Anfragen mit Exfiltrationsmustern, Anteil verweigerter gefährlicher Tools, PII‑Maskierungs‑Treffer.
- Kosten/Performance: Kosten pro erfolgreich genehmigter Aktion, Tokens/Task, Latenz P50/P95, Step‑Budget‑Verletzungen.
- Datenpfad: Anteil veralteter Dokumente im Retrieval, Index‑Drift pro Zeitfenster, Dokumente ohne Zitatnutzung (Tuningbedarf).
- Governance: Zeit von Änderungseinreichung bis Produktion, Anteil Änderungen mit Rollback, Coverage der Goldentests.
Anti‑Pattern, die wir in der Praxis häufig ausräumen
- Blackbox‑Bots: Keine Eventtraces, nur Konsolenlogs. Ergebnis: nicht auditierbar, nicht debuggbar.
- Unbegrenzte Agenten‑Loops: Keine Depth‑Limits, kein Zyklenschutz – führt zu Kostenexplosionen und unklaren Pfaden.
- Tool‑Zugriffe ohne Idempotenz: Doppelte Bestellungen, doppelte Tickets bei Retries.
- Dynamische Prompt‑Änderungen in Produktion ohne Versionierung/Freigabe: Verhalten driftet, Schuldfrage unklar.
- Logging/Monitoring in externe SaaS‑Dienste auslagern: Souveränität und Compliance verletzt; forensische Lücken.
- Gemischte Vektorindizes für dev/prod: Kontamination des Wissens, unklare Quelle, Schattenwissen.
- “Mehr Kontext löst alles”: Ohne Policies, Budgets, HITL vergrößert mehr Kontext nur den Angriffs- und Fehlerraum.