• Risiko-Checks inline:
  • PII-/Geheimnis-Detektion vor Persistenz.
  • Aufgabenumfangsprüfung („scope guard“): Wenn die Anfrage außerhalb des definierten Mandats liegt, wird sie blockiert oder zur Freigabe eingereicht.
  • Output-Moderation auf vordefinierte Regelmuster (nicht Moralfiltern, sondern domänenspezifische Verbotslisten, z. B. keine Spezifikationsextraktion aus gesperrten Zeichnungen).
  • Metriken:
  • Task-Erfolgsraten gegen Goldsets.
  • Halluzinations-Proxies über Antwort-zu-Beleg-Quoten.
  • Tool-Fehlschläge und „backoffs“.
  • Drift-Signale der Wissensbasis (Dokumentalter, Änderungsfrequenz, Index-Lücken).

On-Prem-Deployment-Pattern für Souveränität:

  • Air-gapped oder kontrolliertes Netzwerk:
  • Inferenzserver und Vektorsuche lokal.
  • Keine Telemetrie in Fremd-Clouds, keine externen Prompt-Logs.
  • Secret- und Policy-Storage:
  • Lokal verwaltete Secrets, HSM/TPM wo erforderlich.
  • Policies als Code im Unternehmens-Git, signierte Releases.
  • Observability-Stack:
  • Traces/Logs/Metriken via OpenTelemetry-kompatible Pipelines.
  • Getrennte Storage-Klassen: kurzlebige Debug-Traces vs. langzeitige Audit-Logs.
  • Identität und Zugriff:
  • Unternehmens-IdP (z. B. Keycloak/AD) für SSO, Rollen auf Aufgabenebene.
  • Protokollierte Impersonation nur via genehmigte Runbooks.

Wir haben dafür Alpi-M gebaut – eine On-Prem Observability- und Governance-Plattform für LLM-Agenten. Sie sammelt Traces, erzwingt Policies (Tool-Schemas, Rollen, Budgetgrenzen), ermöglicht deterministische Replays und integriert Genehmigungs-Workflows. Alles DSGVO-konform, ohne US-Cloud-Abhängigkeit. Wichtig: Alpi-M ist kein Chat-Frontend. Es ist das Kontrollzentrum für Teams, die Agenten als Produktionskomponenten betreiben müssen.

4) Governance: Wer ist verantwortlich, wenn die KI falsch liegt?

„Die KI hat entschieden“ ist kein Satz, der in Audits trägt. Verantwortlichkeit ist eine Organigramm-Entscheidung, die wir in Systeme gießen.

Rollenmodell (bewährt in Industrieprojekten):

  • Produkt-/Prozessverantwortlicher (Business Owner):
  • Definiert Impact-Klassen, akzeptables Risiko, Freigabepunkte.
  • Hält das Mandat für Betriebsfreigaben.
  • Modell-/Agent-Owner (Technischer Verantwortlicher):
  • Verantwortlich für Daten, Trainings-/Prompt-Pipelines, Evaluationskriterien.
  • Signiert Releases (Modelle, Prompts, Policies).
  • Safety/Compliance:
  • Definiert Prüfungskataloge, auditiert Artefakte.
  • Hält das Kill-Switch-Mandat für betroffene Systeme.
  • Operateur:
  • Trifft Entscheidungen im Ausnahme-/Freigabefluss.
  • Erteilt qualifiziertes Feedback (gebunden an Datenschemata).

Diese Rollen brauchen Werkzeuge:

  • Freigabe-Workflows:
  • Menschliche Freigaben mit nachvollziehbarem Erklärungspaket.
  • Vier-Augen-Prinzip für High-Impact-Aktionen.
  • Änderungskontrolle:
  • Jede Modell-, Prompt- oder Policy-Änderung ist ein Release mit Versionsnummer, Changelog, Evaluationsbericht und Rückrollplan.
  • Canary- und gestufte Rollouts: erst Schattenmodus, dann Teilpopulation, dann Vollausrollung.
  • Audit-Trail:
  • Unveränderliche Logs: Wer hat wann was gesehen, entschieden, überschrieben?
  • Korrelation zwischen Eingaben, Evidenzen, Entscheidung, Outcome.
  • Fallbackmodi:
  • Degradierte, sichere Betriebsarten ohne KI.
  • Definierte Wiederanlaufprozeduren nach Kill-Switch.

Rechtliche Verantwortung folgt dann den internen Freigaben: Wer freigibt, verantwortet – und wer die Freigaberegeln definiert, steht in der Verantwortung für deren Angemessenheit. Das lässt sich nicht an „die KI“ outsourcen.

5) Architektur-Blueprints für industrielle Umgebungen

Blueprint A: On-Prem Edge-Qualitätssicherung mit Human-in-the-Loop

  • Setup:
  • Kameras/PLC an Edge-Rechner (GPU/TPU nach Bedarf).
  • Inferenz via lokalem Server; Unsicherheit + OOD-Bewertung pro Bauteil.
  • Decision Router am Edge: Auto-Akzept, Exception-Queue, Hard-Stop.
  • Menschliche Station:
  • UI mit Erklärungspaket (Overlay, Kontextdaten, Konfidenz).
  • Shortcuts für Serienentscheidungen, Batch-Markierungen.
  • Feedback wird als strukturierte Labels gespeichert.
  • Zentrale Plattform:
  • Artefakt-Registry (Modelle, Konfigurationen).
  • Telemetrie-Sammlung (Edge → Zentrale), on-prem gespeichert.
  • Retraining-Pipeline asynchron, Updates als signierte Bundles.
  • Governance:
  • Impact-Mapping pro Linie (Ausschusskosten, Sicherheitsrelevanz).
  • Schwellwert-Management pro Schicht/Charge.
  • Canary-Rollouts auf ausgewählten Stationen.

Trade-offs:

  • Edge-Rechenleistung vs. Latenz/Robustheit.
  • Telemetrie-Granularität vs. Speicher- und Datenschutz.
  • Häufigkeit der Modellupdates vs. Validierungsaufwand.

Blueprint B: Air-gapped LLM-Agent für technische Dokumentation in der Instandhaltung

  • Setup:
  • Air-gapped Rechenzelle mit Inferenz, Vektorsuche, Agent-Runner.
  • Dokumente über signierte Offline-Bundles aktualisiert.
  • Observability/Governance:
  • Lokale Trace-Speicherung, periodische Exportpakete für Audits.
  • Genehmigungspflicht für Tools, die Tickets erstellen/ändern.
  • Offline-Goldsets zur Qualitätssicherung vor jedem Bundle-Update.
  • UI/Prozess:
  • Jedes Agenten-Statement hat Quellenzitat + Tool-Trace.
  • Für Aktionen an Assets: vorgeschaltete Freigabe mit Belegliste.
  • Kill-Switch: Agent schaltet in Read-only-Beratung um.

Trade-offs:

  • Höherer operativer Aufwand für Updates, dafür keine Datenabflüsse.
  • Replays einfacher, aber Wissensbasis-Drift muss proaktiv gemanagt werden.

6) Konkrete Checkliste für Ihren nächsten Sprint

  • Definieren Sie Impact-Klassen und mappen Sie Entscheidungen auf Auto/Exception/Approval.
  • Führen Sie kalibrierte Unsicherheits- und OOD-Signale als Pflichtausgaben ein.
  • Standardisieren Sie das Erklärungspaket als serialisierbares Artefakt.
  • Bauen Sie eine Ausnahme-Queue mit SLA, nicht nur „KI sagt unsicher“.
  • Implementieren Sie deterministische Replays für LLM-Agenten.
  • Erzwingen Sie Tool-Parameter über strikte JSON-Schemata.
  • Etablieren Sie Goldsets und Offline-Evals für alle kritischen Flows.
  • Führen Sie einen formalen Releaseprozess für Modelle/Prompts/Policies ein.
  • Legen Sie einen Kill-Switch und degradierte Betriebsmodi fest.
  • Verankern Sie Rollen und Verantwortungen (Owner, Freigaben, Audits) schriftlich.
  • Trennen Sie kurzlebige Debug-Logs von Langzeit-Audit-Logs.
  • Halten Sie alles on-prem, wenn Souveränität und DSGVO essenziell sind. Keine Schatten-APIs.

7) Warum Souveränität Intelligenz ermöglicht

Vertrauen ist keine UX-Schicht über eine Blackbox. Vertrauen entsteht, wenn Teams verstehen, sehen und kontrollieren, was ihr System tut – und wenn sie es im Zweifel abschalten können. Das geht nur, wenn die Datenflüsse, Modelle, Prompts, Policies und Telemetrie unter Ihrer Kontrolle stehen. On-prem heißt nicht „rückständig“, es heißt „reproduzierbar, prüffähig, gestaltbar“. Erst dann lohnt es sich, komplexe KI überhaupt in Produktionsprozesse zu integrieren.