Bei klassischer Software messen wir Latenz, Fehlerraten, Throughput. Bei KI kommt hinzu:
- Eingabeverteilungen und Drift: Statistiken über Feature-Distributionen vs. Trainingsbaseline. Warnen bei Abweichungen (z. B. neue Kamera-Belichtung).
- Qualitätsproxies: Auch ohne „Ground Truth“ im Takt: Korrelationen, Stabilität von Scores, Hitrate auf Feedback-Events, Konsistenz zwischen ähnlichen Inputs.
- Feedback-Loops: Operator-„Override“, Korrekturen, nachträgliche Prüfungen – alles ist Trainingsgold. Sauber versioniert sammeln.
- Kosten- und Ressourcen-Metriken: GPU-Auslastung, Speicher, Batch-Queues, Tokenkosten bei LLMs.
- LLM/Agenten-spezifisch: Prompt/Response-Traces, Tool-Aufrufe, Fehlerketten, Halluzinations-Proxies (z. B. Zitationspflicht, Retrieval-Quoten), Sicherheitsverletzungen.
Für LLM-Agenten empfehlen wir ein dediziertes Observability- und Governance-System, das on-prem läuft. Genau dafür haben wir Alpi-M entwickelt: Tracing und Governance für LLM-Workflows, Werkzeugschnittstellen, Policies und Audits – ohne Daten in die US-Cloud zu kippen. Integration über standardisierte Instrumentierung, rollenbasierte Zugriffe, Export in bestehende SIEM/Monitoring-Systeme. Damit bleibt Transparenz über Prompt-Änderungen, Tool-Ergebnisse und Fehlpfade erhalten – Voraussetzung für Abnahmefähigkeit in regulierten Domänen.
6) LLM-Integration in Unternehmensanwendungen: Retrieval, Tools, Guardrails
LLMs sind nützlich, wenn sie saubere Grenzen bekommen.
- Retrieval-über-DMS/PLM:
- Extraktion: Asynchrone Pipelines zur Dokument- und CAD-Aufbereitung (Texthub, Metadaten, OCR), ACLs als Teil des Index.
- Vektorindex on-prem: Keine Dokumente oder Embeddings in externe Dienste auslagern, wenn Souveränität zählt.
- Zugriffsprüfung zur Laufzeit: Retrieval respektiert Benutzerrechte. Kein „leak by embedding“.
- Tools/Agenten:
- Erlaubnislisten: Jeder Tool-Aufruf ist explizit freigegeben, mit Input-Schemata und Limits (z. B. Max-API-Calls/Minute).
- Orchestrator mit deterministischem Fallback: Wenn der Agent scheitert, greift ein definierter, nicht-probabilistischer Pfad.
- Transaktionsgrenzen: Agenten dürfen nie eigenständig irreversible Aktionen auslösen (z. B. Bestellung abschicken). Immer Mensch im Loop oder Workflow-Gate.
- Prompt- und Wissensgovernance:
- Versionierte Prompts, reproduzierbare Kontexte, genehmigte Wissensquellen. Änderungen laufen über Change-Requests mit Tests (Approvals).
- PII-Schutz: Prompt-Redaction, Filter vor und nach der Inferenz, Protokollierung für Audits.
- Modellwahl:
- On-prem LLMs, wenn Datenabfluss ausgeschlossen sein muss. API-LLMs nur mit klarer Risikoanalyse und vertraglichen Leitplanken. Kosten- und Latenzprofil vorab unter Last testen.
7) Testing und QA für KI-erweiterte Software
Die Testpyramide verändert sich, aber sie bleibt eine Pyramide – nicht ein Sammelsurium von Notebooks.
- Unit- und Adapter-Tests: Alles um die KI herum bleibt streng testbar – Formatwandler, Normalisierung, Featurizer, Postprozessoren, Fehlermodi.
- Vertragstests für Inferenz-APIs: Statische Schemata, Beispiel-Payloads, Grenzwerte. Build bricht bei Vertragsverletzung.
- Goldens und Regressionen:
- Goldensets mit repräsentativen Fällen, inklusive „schwieriger“ Randbedingungen.
- Akzeptanzkriterien: „Nicht schlechter als Regel-Baseline“ oder „Precision/Recall über definiertem Korridor“.
- Budgetierte Regression: Ein kontrollierter Rückgang in Metriken kann zulässig sein, wenn ein wichtiger Teilbereich besser wird – aber nur explizit beschlossen.
- Simulation und Replay:
- Zeitreihen-Replay von Produktionsdaten in isolierter Umgebung. Tests auf Latenz, Durchsatz, Stabilität.
- Störungstests: Sensorrauschen, Dropped Frames, Clock Skew, Bandbreitenlimits.
- Non-Funktional:
- Worst-Case-Latenz, GPU/CPU-Contention, Speicherfragmentierung über lange Laufzeiten, Start-up-Zeit nach Kaltstart.
- Degradation: Automatische Umschaltung auf Fallback bei Zeitüberschreitung, leere/ungültige Outputs definieren.
- LLM-spezifisch:
- Approvals-Tests für Prompts: Änderungen nur mit Diffs und Prüfbildern/Traces.
- Red-Teaming: Unzulässige Anfragen, Prompt-Injection, Tool-Missbrauch.
- Deterministische Stubs in CI: Sampling-Parameter fixieren, kleine Modelle für Rehearsal.
8) Migrationspfad: von Regeln zu ML – ohne Blackout
Die erfolgreichsten Projekte beginnen klein und behalten das Regelwerk als Sicherheitsnetz.
- Phase 0: Instrumentierung
- Telemetrie einbauen, Datenflüsse messbar machen, Labeling-Plan festlegen. Keine KI im Produktivpfad.
- Phase 1: Shadow
- KI rechnet parallel, Entscheidungen bleiben regelbasiert. Vergleichstelemetrie und Driftanalyse sammeln.
- Phase 2: Vorschlagsmodus
- KI schlägt vor, Mensch bestätigt. UI so gestalten, dass KI-Mehrwert klar und reversibel ist.
- Phase 3: Partielle Automatisierung
- KI übernimmt klar abgegrenzte, reversible Entscheidungen unterhalb definierter Risikoschwellen, sonst Fallback.
- Phase 4: Regelreduktion
- Regeln in Features umwandeln, als Weak Labels nutzen, Komplexität abbauen, aber Sicherheitsregeln behalten.
- Phase X: Kontinuierliche Verbesserung
- Trainingsdaten aus Feedback, periodisches Re-Training, kontrollierte Prompts/Policies für LLMs.
Mit jedem Schritt muss die Betreiberakzeptanz wachsen: Transparente Erklärungen, klare Fehlermeldungen, stabile Verhaltensgrenzen.
9) Deployment- und Betriebsmodelle: Souveränität als Randbedingung
Souveränität ist kein Marketingwort, sondern eine Architekturvorgabe.
- On-Prem-Orchestrierung:
- Schlanke Kubernetes-Distributionen (k3s/MicroK8s) oder Container-Orchestrierung mit Podman/nomad in Edge-Umgebungen.
- GPU-Scheduling und -Isolation, vordefinierte Ressourcenklassen, keine Overcommitment-Überraschungen.
- Airgap-Updates:
- Signierte Artefakte, interne Registries, offline Update-Kanäle. Governance über Freigaben, nicht über spontane Pulls.
- Zero-Trust-Prinzipien:
- Service-Identitäten, mTLS, minimaler Netzwerkzugriff. Auch für Inferenz-Services.
- Audits und DSGVO:
- Vollständige Audit-Trails der Datenverarbeitung, Zweckbindung dokumentiert, Datenminimierung gelebter Standard.
- Keine US-Cloud-Abhängigkeit:
- Modelle, Telemetrie, Dokumente bleiben im Hoheitsgebiet. Für LLM-Observability und Agentensteuerung setzen wir auf Alpi-M on-prem – damit Prüf- und Compliance-Teams nicht auf Blackbox-Dashboards außerhalb der Domäne angewiesen sind.
10) Drei Integrationsmuster aus der Praxis
- Visuelle Qualitätsprüfung an der Linie
- Setup: Kamera-Stream, Sidecar-Inferenz auf Edge-IPC mit GPU, gRPC-Anbindung an bestehende Prüfsoftware.
- Latenzbudget: <150 ms End-to-End, Fail-open mit manueller Prüfung bei Zeitüberschreitung.
- Datenpfad: Frames und Metadaten in Kafka-Topic für Shadow/QA, keine Speicherung von PII.
- Rollout: Shadow -> Vorschlagsmodus -> Automatischer „Grün-Stempel“ nur bei hoher Konfidenz und einfacher Geometrie, sonst Mensch.