- Servingebene für klassische ML/CV:
- Inferenz: Triton Inference Server, Seldon, Bento; A/B-Tests, Canary, Shadow-Modi.
- Optimierung: Quantisierung (INT8/FP8), TensorRT, Graph-Optimierung; klare Latenzbudgets und Throughput-Tests.
- Edge-Deployments: Jetson/IGX oder x86 mit GPU; Offline-Betrieb mit Synchronisationsfenstern.
- LLM- und Agentenebene:
- Modelle: On-prem-Modelzoo (z. B. Llama, Mistral) mit Varianten (7B–70B), quantisierte Builds, vLLM/TensorRT-LLM als Runtime.
- Retrieval: RAG mit pgvector, Qdrant oder Milvus; Index-Builds als CI-Job mit Prüfungen (PII-Filter, Deduplikation).
- Tooling: definierte Tools mit Safe-Interfaces (SAP, DMS, Ticketsystem), Policy-Layer der Tool-Nutzung, mTLS und Rate-Limits.
- Observability & Governance: Prompt-/Tool-Traces via OpenTelemetry; PII-Redaktion, Prompt-/Policy-Versionierung, Auswertungsharness mit golden tasks. Für Agenten nutzen wir in Projekten eine Governance-Schicht wie Alpi-M, um Verhalten, Qualität und Compliance messbar zu machen.
- Sicherheit und Compliance:
- Secrets im HSM/KMS on-prem; Schlüsselrotation, Audit-Trails unveränderbar (WORM).
- SBOM (CycloneDX), Signierung (Cosign), Supply-Chain-Härtung (SLSA-Levels).
- Rollen- und Attribut-basierte Zugriffskontrollen, least privilege; Tenant-Isolation für Werke/Kunden.
- Observability:
- Systemmetriken: Prometheus/Grafana; Liveness/Readiness, GPU-/IO-Metriken.
- Datenmetriken: Drift, Datenlücken, Verteilungsänderungen.
- Modellmetriken: Latenz, Throughput, Fehlerraten, Business-KPIs.
- LLM-spezifisch: Token-Kosten, Halluzinationsraten per Golden Set, Tool-Erfolgsquote, Policy-Verletzungen.
Entscheidungsbäume und Trade-offs, die Sie explizit machen müssen
- RAG vs. Finetuning für LLM-Anwendungen:
- RAG, wenn Wissen dynamisch oder vertraulich ist, das nicht ins Modell soll; erfordert gute Indexe, Chunking, Relevanzbewertung, aber hält Daten im Griff.
- Finetuning, wenn Stil/Prozesskonformität über generische Anweisungen hinausgehen muss; on-prem LoRA/QLoRA, klare Evaluationsmetriken, Datenkuratierung.
- Hybrid, wenn Retrieval den Kontext liefert, Feintuning die Ausführungsdisziplin.
- Modellgröße vs. Souveränität:
- Ein 7B-Modell on-prem mit strikter Governance schlägt oft die API zu einem 70B-Modell, wenn Compliance, Verfügbarkeit und Kosten pro Entscheidung zählen.
- Quantisierung (4/8 Bit), Knowledge Distillation und Prompt-Optimierung sind Hebel, bevor man skaliert.
- Batch vs. Streaming:
- Anomaly Detection am Zug in Echtzeit braucht Streaming mit State, Fensterlogik und deterministischen Latenzen.
- Dokumentenklassifizierung im Backoffice kann Batch fahren, simpler, günstiger, robuster.
- Human-in-the-Loop vs. Vollautomation:
- Starten Sie mit Assisted Automation: Mensch bestätigt Entscheidungen in unsicheren Bereichen, System lernt gezielt nach.
- Definieren Sie Confidence-Bänder und automatische Eskalationen. Ohne diese Leitplanken kippt Vertrauen.
- Update-Strategie:
- Immer mit Shadow/Canary anfangen, klare Exit-Kriterien, automatische Rollbacks.
- Trennen Sie Daten-/Feature-/Modell-/Policy-Änderungen; jeweils eigener Changelog, Tests, Freigabe.
Governance, Messbarkeit, ROI – in technischen Metriken gedacht
Verabschieden Sie sich von “wir verbessern KI um X Prozent” als Ziel. Führen Sie Ziele auf Business-KPIs zurück und koppeln Sie sie technisch:
- Kosten pro Entscheidung:
- Inferenzkosten (GPU/Token), Datenbewegung, Amortisation der Infrastruktur, Labeling.
- Ein limitierender SLO hilft: z. B. maximal 0,02 € pro Entscheidung.
- Kosten des Fehlers:
- Definieren Sie Kosten von False Positives/Negatives. Das justiert Thresholds, Human-in-the-Loop, Eskalationen.
- Prozess-SLOs:
- Latenz pro Entscheidung, Verfügbarkeit, Backlog-Limits. Mit SLOs schalten Sie Features bewusst frei oder ab.
- Evaluationsharness:
- Golden Datasets für jede Use-Case-Kategorie. Für LLMs: Task-Kataloge (z. B. 50 häufige Anfragen), automatisierte/halbautomatische Bewertung mit Safeguards.
- Regressionstests für Modelle und Prompts. Kein Release ohne grüne Metriken.
- Auditierbarkeit:
- Jede Entscheidung zurückführbar auf: Datenversion, Featureversion, Modellversion, Promptversion, Policyversion, Nutzerrolle. Ohne das sind Sie im Audit angreifbar.
Der minimal tragfähige Pfad vom POC zur Produktion (90 Tage)
Das Ziel ist ein “Thin Slice”, der den vollen Lebenszyklus abdeckt – klein, aber echt. Kein Big Bang.
- Woche 1–2: Problemdefinition, Randbedingungen, Risiken
- Use-Case präzisieren: Entscheidung, Taktzeit, Fehlerkosten, Nutzer, Systemumfeld.
- Datenlandkarte, Data Contracts, SLAs.
- Threat-Model, Compliance-Auflagen, On-Prem-Boundaries.
- Definition of Done: Welche Metriken müssen grün sein?
- Woche 3–6: Datenpfad und Inferenzpfad als vertikale Scheibe
- Dateninjest von 1–2 Quellen, Lakehouse-Setup, Basisqualitätstests, Versionierung.
- Einfaches Modell oder LLM-RAG, das echte Daten nutzt; erstes Serving auf K8s.
- Observability: Metriken, Traces, Logs; Kostenmessung pro Entscheidung.
- Woche 7–10: Governance, Evaluationsharness, Sicherheitskante
- Golden Set + Evaluationspipeline; A/B- und Shadow-Deployment.
- Rollen-/Rechtekonzept, PII-Redaktion, Audit-Logs, WORM-Storage.
- Für Agenten: Policy-Engine, Tooling-Sandbox, Alpi-M-Integration für Traces und Governance.
- Woche 11–13: Härtung, Runbooks, Abnahme
- Load-/Latenztests; Failover-/Degradationsmodi.
- Runbooks für Betrieb, Incident Response, Rollback.
- Betriebsübergabe mit KPIs; Change-Prozess für Modelle/Prompts/Daten.
Lernkurven aus realen Industrieprojekten
Ohne Kundennamen, aber mit Mustern, die sich wiederholen:
- Visuelle Qualitätskontrolle in der Fertigung:
- Was funktionierte: Kombination aus klassischen Bildvorverarbeitungen und Deep-Learning-Backbone, quantisiert und mit TensorRT für deterministische Latenzen. Dataset-Versionierung, aktive Nachlabelung durch Werker bei Unsicherheit.
- Was scheiterte, wenn man es ignorierte: Kalibrierungsdrift der Kameras nach Wartung, unerkannte Datenverteilung. Lösung: tägliche Kalibrierungschecks, automatisierte Driftanalysen und retraining triggers.
- Flottenintelligenz im Bahnsektor:
- Was funktionierte: Ereignis-Streaming mit Kafka aus Edge-Gateways, Feature-Store für Zustandsgrößen, Anomalie-Modelle mit Shadow-Deployment bevor Alarme live gehen.
- Was scheiterte, wenn man es ignorierte: Zentralisierung ohne Offline-Strategie. Lösung: Edge-Puffer mit lokalen Entscheidungen, synchrone Kompression/Upload-Fenster.
- Defense-nahe Systeme:
- Was funktionierte: Air-gapped-Betrieb, gespiegelte Artefakt-Repositories, SBOMs und reproducible builds; On-prem-LLM mit abgesicherten Tools und strikten Policies.
- Was scheiterte, wenn man es ignorierte: Abhängigkeit von externen APIs. Lösung: interne Modelzoo, Evaluationsharness, vorausschauende Kapazitätsplanung.