- Sicherheit/Robustheit:
- Prompt-Injection-Resistenz: Eingangsvalidierung, erlaubte Tool-Aufrufe whitelisten, Ausführungssandbox für Agenten.
- PII-Handling: Pseudonymisierung vor Indexierung; Löschkonzepte (Right-to-forget) im Vektorindex.
- Offline- und Online-Evaluierung: Golden-Set mit domänenspezifischen Fragen, Quellenpflicht, Messgrößen wie Faithfulness, Kontextnutzung, Verweis-Deckung.
- Governance:
- Modellkatalog mit Versionen, Card pro Modell/Use-Case, Risikoklassen.
- Change-Management: Approval-Gates für neue Prompts/Tools/Indizes; Canary- oder Shadow-Rollout.
4. Vom POC in die Produktion: der Bruch entsteht an den Nicht-Funktionsanforderungen
POCs ignorieren das, was im Betrieb zählt: Last, Drift, Sicherheit, Nachvollziehbarkeit, Kosten. Diese fünf Punkte entscheiden über Erfolg:
4.1 Reproduzierbarkeit
- Datenversionierung durch ACID-Table Time-Travel und Snapshotting; vermeiden Sie flüchtige „latest“-Ordner.
- Pipeline-Hashing: Trainingsjob = Commit-IDs von Code, Daten-Snapshot, Container-Digest. Ohne diese Tripel keine Nachvollziehbarkeit.
4.2 Packaging und Deployment
- Container deterministisch bauen (Build-Args gepinnt, ohne „latest“), SBOM generieren und scannen.
- GPU-Scheduling auf Kubernetes, getrennte Namespaces, Netzwerkpolicies default-deny.
- Air-Gap-Prozess für Modell- und Containerimporte: signierte Artefakte, eingehende Sicherheitsprüfung, Freigabe durch SecOps.
4.3 Observability mit KI-spezifischen Metriken
- Klassische ML: Feature-Drift, Datenabdeckung, Verteilungsshifts, Inferenzlatenzen, Fehlertaxonomie (z. B. FP/FN je Klasse).
- LLM: Tokenverbrauch, Kontexttrefferquote, Antwortdeckungsgrad der Quellen, Abstürze/Guardrail-Treffer, User-Feedback-Loops.
- Traceability auf Request-Ebene: Prompt/Context/Antwort/Model-Version/Index-Version gespeichert unter strikter Zugriffskontrolle.
4.4 Kosten- und Kapazitätsplanung
- CapEx: GPU-Typen und ‑Anzahl (Latenz/Throughput-Bedarf), Storage-Klassen (heiß/kalt), Netzwerkbandbreite.
- OpEx: Strom, Kühlung, Ersatzteile, Betriebsaufwand. Caching-Strategien (Prompt- und Embedding-Cache), Quantisierung (INT8/4) zur Kostenreduktion.
- Budget je Entscheidung: Kosten pro Inferenz sollten gegen den wirtschaftlichen Wert der Entscheidung validiert werden.
4.5 Security und Compliance ohne Produktivitätsverlust
- Rollen und Verantwortlichkeiten trennen (Training, Serving, Ops).
- Policy-as-Code (OPA) für Datenzugriffe und Deployment-Gates.
- Standardisierte Freigabepfade statt individueller Ad-hoc-Checks. Geschwindigkeit durch Klarheit, nicht durch Umgehung.
5. Souveräne KI-Architekturen: on-prem ohne US-Cloud-Abhängigkeit
Wer in sensiblen Industrien arbeitet, kann sich keine intransparenten Datenabflüsse oder extraterritoriale Zugriffsriskien leisten. Praktische Muster, die wir in Projekten bewährt sehen:
- Compute und Storage on-prem oder bei europäischen Providern ohne US-Jurisdiktionsbezug.
- S3-kompatibler Storage (MinIO/Ceph), Kubernetes-Distributionen on-prem, Identity- und Secrets-Management lokal.
- Keine ausgehenden Verbindungen aus Inferenzzonen; Updates über definierte, geprüfte Importkanäle.
- Open-Weight-Modelle mit lokalem Serving, eigene Evaluierung vor Produktiveinsatz.
- Vendor Risk Management: Abhängigkeiten minimieren, Lieferantenwechsel technisch planen (Austauschbarkeit von Vektor-DBs, Inferenzservern, Tooling).
6. Entscheidungsmatrix: RAG vs Fine-Tuning vs Rules
Nicht jede Aufgabe braucht ein großes Modell.
- Strukturierte Entscheidung mit klaren Regeln, hohem Risiko: Erst Regeln und Heuristiken, dann ML für Grenzfälle; Auditierbarkeit priorisieren.
- Dokumentenbasierte Auskünfte: RAG mit strenger Quellenbindung; Fine-Tuning nur, wenn Struktur/Formatierung stabilisiert werden muss.
- Generative Erstellung mit hohem Freiheitsgrad: Domänenspezifisches Fine-Tuning und striktes Offline-Eval; in der Produktion mit Post-Processing-Regeln und Moderation.
Ökonomische Heuristik:
- Wenn Ihr Wissensbestand häufig aktualisiert wird, gewinnen Sie mit RAG. Wenn der Stil/Workflow repetitiv und stabil ist, gewinnt Fine-Tuning beim Durchsatz und der Konsistenz. Kombinieren ist erlaubt, aber Governance wird dann zur Pflicht.
7. 90-Tage-Plan: Von Null zu einer tragfähigen vertikalen Scheibe
Ziel ist kein „Demo“, sondern eine dünne, vollständige Scheibe der Realität: vom Sensor/Dokument bis zur Entscheidung im produktionsnahen Betrieb.
Woche 0–2: Entscheidungslandkarte und Datenverträge
- Top-3-Entscheidungen definieren; je Entscheidung wirtschaftlichen Wert, Risiko, Latenz-SLA.
- Datenquellen inventarisieren; Data Contracts erstellen (Schema, Ownership, Qualität, Änderungsprozess).
- Architekturentscheidungen fällen: Lakehouse-Stack, Ingestion-Muster, Sicherheitszonen, Serving-Technologien.
Woche 3–6: Vertikale Scheibe bauen
- Ingestion aufsetzen (z. B. Kafka + Registry; Airflow/Prefect für Batch).
- Lakehouse mit ACID-Tabellen; erste Data-Quality-Checks; Katalog initialisieren.
- ML/LLM-Pfad als End-to-End: Modell auswählen, Trainingsdaten aus definiertem Snapshot, Serving auf Kubernetes, Observability angebunden.
- Zugriffe und Audits aktivieren; kein „später“.
Woche 7–12: Produktionshärtung
- Reproduzierbarkeit komplettieren (Snapshotting, Artefakt-Registry, SBOM).
- Eval-Harness und Golden-Set; Shadow-Kanäle/Canary-Rollout; Fehlertaxonomie.
- Kapazitäts- und Kostenmessung, Tuning (Batching, Quantisierung, Caching).
- Betriebsdokumentation, Runbooks, On-Call-Prozesse; formale Abnahme.
8. Was Sie streichen sollten, um schneller ans Ziel zu kommen
- Generische „KI-Roadmaps“ ohne Entscheidungsbezug. Ersetzen durch eine Entscheidungsmatrix mit Datenanforderungen.
- POC-Mentalität, die Security, Observability und Data Quality ignoriert. Ersetzen durch „Production-first“-Checklisten schon im ersten Sprint.
- Vendor-Lock-in ohne Exit-Strategie. Ersetzen durch austauschbare Komponenten: S3‑API, standardisierte Formate (Parquet), offene Inferenzserver, Portabilität der Prompts/Tools.
9. Metriken, die wirklich zählen
- Qualität: Für CV/ML – per Use-Case definierte KPIs (z. B. Ausfallstunden vermieden), nicht nur ROC/AUC. Für LLM – Faithfulness, Quellen-Deckung, Nutzerakzeptanz (z. B. Deflection-Rate in Callflows), Fehlerklassen-Quoten.
- Betrieb: P95/P99-Latenz, Erfolgsrate pro Route/Tool, Drift-Score, Data-Quality-SLA-Erfüllung.
- Wirtschaft: Kosten pro Entscheidung, Zeit bis zur Freigabe einer Änderung, MTTR bei Fehlverhalten.
10. Fazit: Souveränität ermöglicht Intelligenz
Wenn Sie die Daten nicht beherrschen, beherrscht Sie die KI. Eine gute KI-Strategie beginnt mit einer Datenstrategie, die Ownership, Qualität, Sicherheit und Reproduzierbarkeit ernst nimmt. Problem-first heißt: Die Entscheidung bestimmt die Architektur. On-premise und souverän heißt: Sie kontrollieren Datenflüsse, Kosten und Risiken. Erst wenn diese Grundlagen stehen, lohnt es sich, über das „Wie groß ist das Modell?“ zu reden. Nicht früher.
FAQ