Imported Post 2026-04-22 00:15:14

Retrieval-Abdeckung: Anteil der Antwort, der durch zitierte Quellen gedeckt ist (z. B. gemessen über Overlap/Entailment-Checks).
Tool-Kohärenz: Erfolgsrate, Fehlerklassen, Retry-Quoten pro Tool, Latenzen. Frühindikator für API-/Schnittstellenprobleme.
Policy-Verletzungen: Rate der Content-/Data-/Tool-Policy-Hits, manuelle Overrides.
Unsicherheits-Proxy: Auftreten von Selbst-Widersprüchen, niedrigen Evidenz-Quoten, Eskalationen zum Menschen.
Nutzer-Interaktion: Akzeptanzrate, durchschnittliche Bearbeitungszeit, Korrekturgründe aus dem HITL-Interface.

Kontrolle durch Policies und Ausführungsmodi

Guardrails auf drei Ebenen: Content (z. B. keine personenbezogenen Ausgaben), Tool (welche Parameterbereiche, Retry-Limits, Timeout), Data (welche Quellen erlaubt, maximale Kontexte).
Kill-Switch und Backpressure: Falls Metriken kippen (z. B. Tool-Error-Rate > x%), drosseln oder auf „Nur Vorschlag“-Modus zurückfallen.
Dry-Run/Shadow: Neue Agentenversionen laufen parallel, erzeugen Empfehlungen ohne Wirkung, werden gegen Ground-Truth/Operator-Entscheidungen evaluiert.
Change Management: Prompt-/Policy-/Code-Versionierung, Freigabeprozesse (Vier-Augen-Prinzip), Release-Notes. „Prompt-as-Code“ statt Copy-Paste im Wiki.

Alpi-M als Observability- und Governance-Schicht

Wir haben diese Anforderungen in Alpi-M gebündelt – eine On-Premise-Plattform für LLM-Agenten in industriellen Umgebungen. Sie deckt u. a. ab:

Vollständige Lauftraces und Artefakte im eigenen Rechenzentrum, DSGVO-konform.
Policy-Engine für Content-, Tool- und Data-Regeln mit deklarativer Konfiguration.
Experiment- und Versionsmanagement für Prompts, Policies und Agenten-Graphen.
Evaluationspipelines mit Regressionstests auf realen, kuratierten Szenarien.
Rollen, Rechte, Audit-Logs und Freigabe-Workflows, die zu ISO-ähnlichen Prozessen passen.

Wir integrieren dabei bewusst in bestehende Orchestratoren oder Eigenentwicklungen, statt Werkzeuge zu diktieren. Das Ziel: Souveränität über das Verhalten und die Nachvollziehbarkeit jedes Agentenlaufs.

Governance: Wer ist verantwortlich, wenn die KI falsch liegt?

„Die KI hat’s gesagt“ ist kein Freifahrtschein. Verantwortung ist gestaltbar – durch klare Zuständigkeiten, Artefakte und Prozesse.

Rollen und RACI

Fachverantwortung (A): Trägt die inhaltliche Verantwortung für die getroffene Entscheidung in einem Prozessschritt. Bei Autonomiebetrieb ist das ein definierter Systemverantwortlicher.
Operative Verantwortung (R): Trifft Entscheidungen im HITL-Interface, leitet Eskalationen ein.
Technische Verantwortung (R): Modell-, Daten- und Agentenbetreuer; hält die technischen Freigaben, betreibt die Observability.
Konsultation (C): Rechts-/Compliance, Qualitätsmanagement.
Information (I): Stakeholder, die Ergebnisse konsumieren.

Entscheidungsakte und Auditfähigkeit

Jede Entscheidung (automatisch oder manuell) erzeugt einen „Record of Decision“: Input-Artefakte, Modell-/Agenten-Versionen, Policies, Metriken, Erklärungen, menschliche Begründungen bei Overrides.
Reproduzierbarkeit: In Tests deterministisch, im Betrieb durch vollständiges Logging nachvollziehbar.

Änderungs- und Rollout-Prozesse

Datenänderungen: Kuratierte Datasets mit Herkunft, Nutzungsrechten, Versionen. Keine stillen Updates.
Modell-/Agentenänderungen: Canary/Shadow, definierte Abnahmekriterien, gestaffelter Rollout mit Metrik-Gates.
Incident Response: P0-P3-Klassen, On-Call, Runbooks (z. B. auf „Nur Mensch“ zurückfallen), Post-Mortems mit Korrekturmaßnahmen.

Rechtliche Aspekte werden dadurch nicht trivial, aber operational beherrschbar: Wer hat wann auf welcher Basis was entschieden – und war das gemäß der freigegebenen Policies?

On-Premise-Architektur: Souveränität ist ein Design-Constraint

In unseren Branchen ist On-Premise nicht Nostalgie, sondern Notwendigkeit: Schutz geistigen Eigentums, regulatorische Anforderungen, Exportkontrollen. Das prägt die Architektur:

Isolierte Ausführung: Air-gapped oder segmentiertes Netzwerk mit minimalem Egress. Modelle, Vektordatenbanken, Observability-Backends lokal.
Datenfluss-Kontrolle: Gateways mit Protokollumsetzung, erlaubte Systeme explizit whitelisten, PII-/IP-sensitive Felder frühzeitig maskieren.
Lieferkette und SBOM: Komponenten-Bills-of-Materials, reproduzierbare Builds, regelmäßige Scans, Notfall-Patches ohne Cloud-Abhängigkeit.
Update-Mechanik: Offline-Updates über signierte Artefakte, Umgebungspinning (Container/VMs), Rollback-fähig.

Referenzarchitektur für industrielle HITL-KI mit LLM-Agenten

Gedanklich teilen wir in vier Ebenen plus die Mensch-Maschine-Schnittstelle:

Data Plane: Sensor-/Systemdaten, Dokumentquellen, Vektorstore, Feature-Stores. Datenveredelung on-prem, einheitliche Semantik.
Execution Plane: Klassische Modelle (z. B. Vision), LLMs, Tools (ERP/MES/SCADA-Schnittstellen), Orchestrator (Zustandsmaschine/Graph).
Policy/Control Plane: Guardrails, Konfigurations- und Feature-Flags, Freigabe- und Rollenmodelle, Secrets.
Observability/Governance Plane: Tracing, Artefakt-Store, Metrikaggregation, Evaluationsjobs, Audit-Logs, Incident-Flow. Hier sitzt Alpi-M.
Human Console: HITL-UI mit Entscheidungskontext, Evidenzen, Erklärungen, Aktionsknöpfen, SLA-Anzeigen, Feedback-Kanälen.

Integration in bestehende Systeme (MES/SCADA/PLM) erfolgt über wohldefinierte Adapter, nicht durch direkte Tool-Steuerung aus der LLM-„Fantasie“. Werkzeuge laufen in Sandboxes mit klaren I/O-Verträgen, Timeouts und Rückfallwerten.

Fallbeispiele skizziert

Visuelle Montageprüfung: Klassifikator + Segmentierer liefern Befunde mit Konfidenz und Regionenvorschlägen. Schwelle a: autonom freigeben; Schwelle b: HITL. Bediener sieht Bild, fehlerhafte Region, alternative Hypothesen. Override-Gründe fließen zurück ins Labeling.
Dokumenten-Assistenz für Wartung: Retrieval-Augmented LLM mit strengem Quell-Corpus. Antwort nur mit belegter Passage. Geringe Evidenzabdeckung? HITL. Tool-Calls (Ersatzteilverfügbarkeit) nur mit validierten Parametern und Rate-Limits.
Flottenintelligenz Bahn: Zeitreihen-Anomalie → LLM erklärt in Klartext, welche Sensoren ausschlugen und welche Checks als Nächstes. Hohe Kritikalität? Mensch entscheidet, ob Fahrzeug aus dem Umlauf genommen wird. Alle Schritte in Audit-Log.

Checkliste für den Start – ohne Bauchlandung