• Servingebene für klassische ML/CV:
  • Inferenz: Triton Inference Server, Seldon, Bento; A/B-Tests, Canary, Shadow-Modi.
  • Optimierung: Quantisierung (INT8/FP8), TensorRT, Graph-Optimierung; klare Latenzbudgets und Throughput-Tests.
  • Edge-Deployments: Jetson/IGX oder x86 mit GPU; Offline-Betrieb mit Synchronisationsfenstern.
  • LLM- und Agentenebene:
  • Modelle: On-prem-Modelzoo (z. B. Llama, Mistral) mit Varianten (7B–70B), quantisierte Builds, vLLM/TensorRT-LLM als Runtime.
  • Retrieval: RAG mit pgvector, Qdrant oder Milvus; Index-Builds als CI-Job mit Prüfungen (PII-Filter, Deduplikation).
  • Tooling: definierte Tools mit Safe-Interfaces (SAP, DMS, Ticketsystem), Policy-Layer der Tool-Nutzung, mTLS und Rate-Limits.
  • Observability & Governance: Prompt-/Tool-Traces via OpenTelemetry; PII-Redaktion, Prompt-/Policy-Versionierung, Auswertungsharness mit golden tasks. Für Agenten nutzen wir in Projekten eine Governance-Schicht wie Alpi-M, um Verhalten, Qualität und Compliance messbar zu machen.
  • Sicherheit und Compliance:
  • Secrets im HSM/KMS on-prem; Schlüsselrotation, Audit-Trails unveränderbar (WORM).
  • SBOM (CycloneDX), Signierung (Cosign), Supply-Chain-Härtung (SLSA-Levels).
  • Rollen- und Attribut-basierte Zugriffskontrollen, least privilege; Tenant-Isolation für Werke/Kunden.
  • Observability:
  • Systemmetriken: Prometheus/Grafana; Liveness/Readiness, GPU-/IO-Metriken.
  • Datenmetriken: Drift, Datenlücken, Verteilungsänderungen.
  • Modellmetriken: Latenz, Throughput, Fehlerraten, Business-KPIs.
  • LLM-spezifisch: Token-Kosten, Halluzinationsraten per Golden Set, Tool-Erfolgsquote, Policy-Verletzungen.

Entscheidungsbäume und Trade-offs, die Sie explizit machen müssen

  • RAG vs. Finetuning für LLM-Anwendungen:
  • RAG, wenn Wissen dynamisch oder vertraulich ist, das nicht ins Modell soll; erfordert gute Indexe, Chunking, Relevanzbewertung, aber hält Daten im Griff.
  • Finetuning, wenn Stil/Prozesskonformität über generische Anweisungen hinausgehen muss; on-prem LoRA/QLoRA, klare Evaluationsmetriken, Datenkuratierung.
  • Hybrid, wenn Retrieval den Kontext liefert, Feintuning die Ausführungsdisziplin.
  • Modellgröße vs. Souveränität:
  • Ein 7B-Modell on-prem mit strikter Governance schlägt oft die API zu einem 70B-Modell, wenn Compliance, Verfügbarkeit und Kosten pro Entscheidung zählen.
  • Quantisierung (4/8 Bit), Knowledge Distillation und Prompt-Optimierung sind Hebel, bevor man skaliert.
  • Batch vs. Streaming:
  • Anomaly Detection am Zug in Echtzeit braucht Streaming mit State, Fensterlogik und deterministischen Latenzen.
  • Dokumentenklassifizierung im Backoffice kann Batch fahren, simpler, günstiger, robuster.
  • Human-in-the-Loop vs. Vollautomation:
  • Starten Sie mit Assisted Automation: Mensch bestätigt Entscheidungen in unsicheren Bereichen, System lernt gezielt nach.
  • Definieren Sie Confidence-Bänder und automatische Eskalationen. Ohne diese Leitplanken kippt Vertrauen.
  • Update-Strategie:
  • Immer mit Shadow/Canary anfangen, klare Exit-Kriterien, automatische Rollbacks.
  • Trennen Sie Daten-/Feature-/Modell-/Policy-Änderungen; jeweils eigener Changelog, Tests, Freigabe.

Governance, Messbarkeit, ROI – in technischen Metriken gedacht

Verabschieden Sie sich von “wir verbessern KI um X Prozent” als Ziel. Führen Sie Ziele auf Business-KPIs zurück und koppeln Sie sie technisch:

  • Kosten pro Entscheidung:
  • Inferenzkosten (GPU/Token), Datenbewegung, Amortisation der Infrastruktur, Labeling.
  • Ein limitierender SLO hilft: z. B. maximal 0,02 € pro Entscheidung.
  • Kosten des Fehlers:
  • Definieren Sie Kosten von False Positives/Negatives. Das justiert Thresholds, Human-in-the-Loop, Eskalationen.
  • Prozess-SLOs:
  • Latenz pro Entscheidung, Verfügbarkeit, Backlog-Limits. Mit SLOs schalten Sie Features bewusst frei oder ab.
  • Evaluationsharness:
  • Golden Datasets für jede Use-Case-Kategorie. Für LLMs: Task-Kataloge (z. B. 50 häufige Anfragen), automatisierte/halbautomatische Bewertung mit Safeguards.
  • Regressionstests für Modelle und Prompts. Kein Release ohne grüne Metriken.
  • Auditierbarkeit:
  • Jede Entscheidung zurückführbar auf: Datenversion, Featureversion, Modellversion, Promptversion, Policyversion, Nutzerrolle. Ohne das sind Sie im Audit angreifbar.

Der minimal tragfähige Pfad vom POC zur Produktion (90 Tage)

Das Ziel ist ein “Thin Slice”, der den vollen Lebenszyklus abdeckt – klein, aber echt. Kein Big Bang.

  • Woche 1–2: Problemdefinition, Randbedingungen, Risiken
  • Use-Case präzisieren: Entscheidung, Taktzeit, Fehlerkosten, Nutzer, Systemumfeld.
  • Datenlandkarte, Data Contracts, SLAs.
  • Threat-Model, Compliance-Auflagen, On-Prem-Boundaries.
  • Definition of Done: Welche Metriken müssen grün sein?
  • Woche 3–6: Datenpfad und Inferenzpfad als vertikale Scheibe
  • Dateninjest von 1–2 Quellen, Lakehouse-Setup, Basisqualitätstests, Versionierung.
  • Einfaches Modell oder LLM-RAG, das echte Daten nutzt; erstes Serving auf K8s.
  • Observability: Metriken, Traces, Logs; Kostenmessung pro Entscheidung.
  • Woche 7–10: Governance, Evaluationsharness, Sicherheitskante
  • Golden Set + Evaluationspipeline; A/B- und Shadow-Deployment.
  • Rollen-/Rechtekonzept, PII-Redaktion, Audit-Logs, WORM-Storage.
  • Für Agenten: Policy-Engine, Tooling-Sandbox, Alpi-M-Integration für Traces und Governance.
  • Woche 11–13: Härtung, Runbooks, Abnahme
  • Load-/Latenztests; Failover-/Degradationsmodi.
  • Runbooks für Betrieb, Incident Response, Rollback.
  • Betriebsübergabe mit KPIs; Change-Prozess für Modelle/Prompts/Daten.

Lernkurven aus realen Industrieprojekten

Ohne Kundennamen, aber mit Mustern, die sich wiederholen:

  • Visuelle Qualitätskontrolle in der Fertigung:
  • Was funktionierte: Kombination aus klassischen Bildvorverarbeitungen und Deep-Learning-Backbone, quantisiert und mit TensorRT für deterministische Latenzen. Dataset-Versionierung, aktive Nachlabelung durch Werker bei Unsicherheit.
  • Was scheiterte, wenn man es ignorierte: Kalibrierungsdrift der Kameras nach Wartung, unerkannte Datenverteilung. Lösung: tägliche Kalibrierungschecks, automatisierte Driftanalysen und retraining triggers.
  • Flottenintelligenz im Bahnsektor:
  • Was funktionierte: Ereignis-Streaming mit Kafka aus Edge-Gateways, Feature-Store für Zustandsgrößen, Anomalie-Modelle mit Shadow-Deployment bevor Alarme live gehen.
  • Was scheiterte, wenn man es ignorierte: Zentralisierung ohne Offline-Strategie. Lösung: Edge-Puffer mit lokalen Entscheidungen, synchrone Kompression/Upload-Fenster.
  • Defense-nahe Systeme:
  • Was funktionierte: Air-gapped-Betrieb, gespiegelte Artefakt-Repositories, SBOMs und reproducible builds; On-prem-LLM mit abgesicherten Tools und strikten Policies.
  • Was scheiterte, wenn man es ignorierte: Abhängigkeit von externen APIs. Lösung: interne Modelzoo, Evaluationsharness, vorausschauende Kapazitätsplanung.