Bei klassischer Software messen wir Latenz, Fehlerraten, Throughput. Bei KI kommt hinzu:

  • Eingabeverteilungen und Drift: Statistiken über Feature-Distributionen vs. Trainingsbaseline. Warnen bei Abweichungen (z. B. neue Kamera-Belichtung).
  • Qualitätsproxies: Auch ohne „Ground Truth“ im Takt: Korrelationen, Stabilität von Scores, Hitrate auf Feedback-Events, Konsistenz zwischen ähnlichen Inputs.
  • Feedback-Loops: Operator-„Override“, Korrekturen, nachträgliche Prüfungen – alles ist Trainingsgold. Sauber versioniert sammeln.
  • Kosten- und Ressourcen-Metriken: GPU-Auslastung, Speicher, Batch-Queues, Tokenkosten bei LLMs.
  • LLM/Agenten-spezifisch: Prompt/Response-Traces, Tool-Aufrufe, Fehlerketten, Halluzinations-Proxies (z. B. Zitationspflicht, Retrieval-Quoten), Sicherheitsverletzungen.

Für LLM-Agenten empfehlen wir ein dediziertes Observability- und Governance-System, das on-prem läuft. Genau dafür haben wir Alpi-M entwickelt: Tracing und Governance für LLM-Workflows, Werkzeugschnittstellen, Policies und Audits – ohne Daten in die US-Cloud zu kippen. Integration über standardisierte Instrumentierung, rollenbasierte Zugriffe, Export in bestehende SIEM/Monitoring-Systeme. Damit bleibt Transparenz über Prompt-Änderungen, Tool-Ergebnisse und Fehlpfade erhalten – Voraussetzung für Abnahmefähigkeit in regulierten Domänen.

6) LLM-Integration in Unternehmensanwendungen: Retrieval, Tools, Guardrails

LLMs sind nützlich, wenn sie saubere Grenzen bekommen.

  • Retrieval-über-DMS/PLM:
  • Extraktion: Asynchrone Pipelines zur Dokument- und CAD-Aufbereitung (Texthub, Metadaten, OCR), ACLs als Teil des Index.
  • Vektorindex on-prem: Keine Dokumente oder Embeddings in externe Dienste auslagern, wenn Souveränität zählt.
  • Zugriffsprüfung zur Laufzeit: Retrieval respektiert Benutzerrechte. Kein „leak by embedding“.
  • Tools/Agenten:
  • Erlaubnislisten: Jeder Tool-Aufruf ist explizit freigegeben, mit Input-Schemata und Limits (z. B. Max-API-Calls/Minute).
  • Orchestrator mit deterministischem Fallback: Wenn der Agent scheitert, greift ein definierter, nicht-probabilistischer Pfad.
  • Transaktionsgrenzen: Agenten dürfen nie eigenständig irreversible Aktionen auslösen (z. B. Bestellung abschicken). Immer Mensch im Loop oder Workflow-Gate.
  • Prompt- und Wissensgovernance:
  • Versionierte Prompts, reproduzierbare Kontexte, genehmigte Wissensquellen. Änderungen laufen über Change-Requests mit Tests (Approvals).
  • PII-Schutz: Prompt-Redaction, Filter vor und nach der Inferenz, Protokollierung für Audits.
  • Modellwahl:
  • On-prem LLMs, wenn Datenabfluss ausgeschlossen sein muss. API-LLMs nur mit klarer Risikoanalyse und vertraglichen Leitplanken. Kosten- und Latenzprofil vorab unter Last testen.

7) Testing und QA für KI-erweiterte Software

Die Testpyramide verändert sich, aber sie bleibt eine Pyramide – nicht ein Sammelsurium von Notebooks.

  • Unit- und Adapter-Tests: Alles um die KI herum bleibt streng testbar – Formatwandler, Normalisierung, Featurizer, Postprozessoren, Fehlermodi.
  • Vertragstests für Inferenz-APIs: Statische Schemata, Beispiel-Payloads, Grenzwerte. Build bricht bei Vertragsverletzung.
  • Goldens und Regressionen:
  • Goldensets mit repräsentativen Fällen, inklusive „schwieriger“ Randbedingungen.
  • Akzeptanzkriterien: „Nicht schlechter als Regel-Baseline“ oder „Precision/Recall über definiertem Korridor“.
  • Budgetierte Regression: Ein kontrollierter Rückgang in Metriken kann zulässig sein, wenn ein wichtiger Teilbereich besser wird – aber nur explizit beschlossen.
  • Simulation und Replay:
  • Zeitreihen-Replay von Produktionsdaten in isolierter Umgebung. Tests auf Latenz, Durchsatz, Stabilität.
  • Störungstests: Sensorrauschen, Dropped Frames, Clock Skew, Bandbreitenlimits.
  • Non-Funktional:
  • Worst-Case-Latenz, GPU/CPU-Contention, Speicherfragmentierung über lange Laufzeiten, Start-up-Zeit nach Kaltstart.
  • Degradation: Automatische Umschaltung auf Fallback bei Zeitüberschreitung, leere/ungültige Outputs definieren.
  • LLM-spezifisch:
  • Approvals-Tests für Prompts: Änderungen nur mit Diffs und Prüfbildern/Traces.
  • Red-Teaming: Unzulässige Anfragen, Prompt-Injection, Tool-Missbrauch.
  • Deterministische Stubs in CI: Sampling-Parameter fixieren, kleine Modelle für Rehearsal.

8) Migrationspfad: von Regeln zu ML – ohne Blackout

Die erfolgreichsten Projekte beginnen klein und behalten das Regelwerk als Sicherheitsnetz.

  • Phase 0: Instrumentierung
  • Telemetrie einbauen, Datenflüsse messbar machen, Labeling-Plan festlegen. Keine KI im Produktivpfad.
  • Phase 1: Shadow
  • KI rechnet parallel, Entscheidungen bleiben regelbasiert. Vergleichstelemetrie und Driftanalyse sammeln.
  • Phase 2: Vorschlagsmodus
  • KI schlägt vor, Mensch bestätigt. UI so gestalten, dass KI-Mehrwert klar und reversibel ist.
  • Phase 3: Partielle Automatisierung
  • KI übernimmt klar abgegrenzte, reversible Entscheidungen unterhalb definierter Risikoschwellen, sonst Fallback.
  • Phase 4: Regelreduktion
  • Regeln in Features umwandeln, als Weak Labels nutzen, Komplexität abbauen, aber Sicherheitsregeln behalten.
  • Phase X: Kontinuierliche Verbesserung
  • Trainingsdaten aus Feedback, periodisches Re-Training, kontrollierte Prompts/Policies für LLMs.

Mit jedem Schritt muss die Betreiberakzeptanz wachsen: Transparente Erklärungen, klare Fehlermeldungen, stabile Verhaltensgrenzen.

9) Deployment- und Betriebsmodelle: Souveränität als Randbedingung

Souveränität ist kein Marketingwort, sondern eine Architekturvorgabe.

  • On-Prem-Orchestrierung:
  • Schlanke Kubernetes-Distributionen (k3s/MicroK8s) oder Container-Orchestrierung mit Podman/nomad in Edge-Umgebungen.
  • GPU-Scheduling und -Isolation, vordefinierte Ressourcenklassen, keine Overcommitment-Überraschungen.
  • Airgap-Updates:
  • Signierte Artefakte, interne Registries, offline Update-Kanäle. Governance über Freigaben, nicht über spontane Pulls.
  • Zero-Trust-Prinzipien:
  • Service-Identitäten, mTLS, minimaler Netzwerkzugriff. Auch für Inferenz-Services.
  • Audits und DSGVO:
  • Vollständige Audit-Trails der Datenverarbeitung, Zweckbindung dokumentiert, Datenminimierung gelebter Standard.
  • Keine US-Cloud-Abhängigkeit:
  • Modelle, Telemetrie, Dokumente bleiben im Hoheitsgebiet. Für LLM-Observability und Agentensteuerung setzen wir auf Alpi-M on-prem – damit Prüf- und Compliance-Teams nicht auf Blackbox-Dashboards außerhalb der Domäne angewiesen sind.

10) Drei Integrationsmuster aus der Praxis

  • Visuelle Qualitätsprüfung an der Linie
  • Setup: Kamera-Stream, Sidecar-Inferenz auf Edge-IPC mit GPU, gRPC-Anbindung an bestehende Prüfsoftware.
  • Latenzbudget: <150 ms End-to-End, Fail-open mit manueller Prüfung bei Zeitüberschreitung.
  • Datenpfad: Frames und Metadaten in Kafka-Topic für Shadow/QA, keine Speicherung von PII.
  • Rollout: Shadow -> Vorschlagsmodus -> Automatischer „Grün-Stempel“ nur bei hoher Konfidenz und einfacher Geometrie, sonst Mensch.