• Sicherheit/Robustheit:
  • Prompt-Injection-Resistenz: Eingangsvalidierung, erlaubte Tool-Aufrufe whitelisten, Ausführungssandbox für Agenten.
  • PII-Handling: Pseudonymisierung vor Indexierung; Löschkonzepte (Right-to-forget) im Vektorindex.
  • Offline- und Online-Evaluierung: Golden-Set mit domänenspezifischen Fragen, Quellenpflicht, Messgrößen wie Faithfulness, Kontextnutzung, Verweis-Deckung.
  • Governance:
  • Modellkatalog mit Versionen, Card pro Modell/Use-Case, Risikoklassen.
  • Change-Management: Approval-Gates für neue Prompts/Tools/Indizes; Canary- oder Shadow-Rollout.

4. Vom POC in die Produktion: der Bruch entsteht an den Nicht-Funktionsanforderungen

POCs ignorieren das, was im Betrieb zählt: Last, Drift, Sicherheit, Nachvollziehbarkeit, Kosten. Diese fünf Punkte entscheiden über Erfolg:

4.1 Reproduzierbarkeit

  • Datenversionierung durch ACID-Table Time-Travel und Snapshotting; vermeiden Sie flüchtige „latest“-Ordner.
  • Pipeline-Hashing: Trainingsjob = Commit-IDs von Code, Daten-Snapshot, Container-Digest. Ohne diese Tripel keine Nachvollziehbarkeit.

4.2 Packaging und Deployment

  • Container deterministisch bauen (Build-Args gepinnt, ohne „latest“), SBOM generieren und scannen.
  • GPU-Scheduling auf Kubernetes, getrennte Namespaces, Netzwerkpolicies default-deny.
  • Air-Gap-Prozess für Modell- und Containerimporte: signierte Artefakte, eingehende Sicherheitsprüfung, Freigabe durch SecOps.

4.3 Observability mit KI-spezifischen Metriken

  • Klassische ML: Feature-Drift, Datenabdeckung, Verteilungsshifts, Inferenzlatenzen, Fehlertaxonomie (z. B. FP/FN je Klasse).
  • LLM: Tokenverbrauch, Kontexttrefferquote, Antwortdeckungsgrad der Quellen, Abstürze/Guardrail-Treffer, User-Feedback-Loops.
  • Traceability auf Request-Ebene: Prompt/Context/Antwort/Model-Version/Index-Version gespeichert unter strikter Zugriffskontrolle.

4.4 Kosten- und Kapazitätsplanung

  • CapEx: GPU-Typen und ‑Anzahl (Latenz/Throughput-Bedarf), Storage-Klassen (heiß/kalt), Netzwerkbandbreite.
  • OpEx: Strom, Kühlung, Ersatzteile, Betriebsaufwand. Caching-Strategien (Prompt- und Embedding-Cache), Quantisierung (INT8/4) zur Kostenreduktion.
  • Budget je Entscheidung: Kosten pro Inferenz sollten gegen den wirtschaftlichen Wert der Entscheidung validiert werden.

4.5 Security und Compliance ohne Produktivitätsverlust

  • Rollen und Verantwortlichkeiten trennen (Training, Serving, Ops).
  • Policy-as-Code (OPA) für Datenzugriffe und Deployment-Gates.
  • Standardisierte Freigabepfade statt individueller Ad-hoc-Checks. Geschwindigkeit durch Klarheit, nicht durch Umgehung.

5. Souveräne KI-Architekturen: on-prem ohne US-Cloud-Abhängigkeit

Wer in sensiblen Industrien arbeitet, kann sich keine intransparenten Datenabflüsse oder extraterritoriale Zugriffsriskien leisten. Praktische Muster, die wir in Projekten bewährt sehen:

  • Compute und Storage on-prem oder bei europäischen Providern ohne US-Jurisdiktionsbezug.
  • S3-kompatibler Storage (MinIO/Ceph), Kubernetes-Distributionen on-prem, Identity- und Secrets-Management lokal.
  • Keine ausgehenden Verbindungen aus Inferenzzonen; Updates über definierte, geprüfte Importkanäle.
  • Open-Weight-Modelle mit lokalem Serving, eigene Evaluierung vor Produktiveinsatz.
  • Vendor Risk Management: Abhängigkeiten minimieren, Lieferantenwechsel technisch planen (Austauschbarkeit von Vektor-DBs, Inferenzservern, Tooling).

6. Entscheidungsmatrix: RAG vs Fine-Tuning vs Rules

Nicht jede Aufgabe braucht ein großes Modell.

  • Strukturierte Entscheidung mit klaren Regeln, hohem Risiko: Erst Regeln und Heuristiken, dann ML für Grenzfälle; Auditierbarkeit priorisieren.
  • Dokumentenbasierte Auskünfte: RAG mit strenger Quellenbindung; Fine-Tuning nur, wenn Struktur/Formatierung stabilisiert werden muss.
  • Generative Erstellung mit hohem Freiheitsgrad: Domänenspezifisches Fine-Tuning und striktes Offline-Eval; in der Produktion mit Post-Processing-Regeln und Moderation.

Ökonomische Heuristik:

  • Wenn Ihr Wissensbestand häufig aktualisiert wird, gewinnen Sie mit RAG. Wenn der Stil/Workflow repetitiv und stabil ist, gewinnt Fine-Tuning beim Durchsatz und der Konsistenz. Kombinieren ist erlaubt, aber Governance wird dann zur Pflicht.

7. 90-Tage-Plan: Von Null zu einer tragfähigen vertikalen Scheibe

Ziel ist kein „Demo“, sondern eine dünne, vollständige Scheibe der Realität: vom Sensor/Dokument bis zur Entscheidung im produktionsnahen Betrieb.

Woche 0–2: Entscheidungslandkarte und Datenverträge

  • Top-3-Entscheidungen definieren; je Entscheidung wirtschaftlichen Wert, Risiko, Latenz-SLA.
  • Datenquellen inventarisieren; Data Contracts erstellen (Schema, Ownership, Qualität, Änderungsprozess).
  • Architekturentscheidungen fällen: Lakehouse-Stack, Ingestion-Muster, Sicherheitszonen, Serving-Technologien.

Woche 3–6: Vertikale Scheibe bauen

  • Ingestion aufsetzen (z. B. Kafka + Registry; Airflow/Prefect für Batch).
  • Lakehouse mit ACID-Tabellen; erste Data-Quality-Checks; Katalog initialisieren.
  • ML/LLM-Pfad als End-to-End: Modell auswählen, Trainingsdaten aus definiertem Snapshot, Serving auf Kubernetes, Observability angebunden.
  • Zugriffe und Audits aktivieren; kein „später“.

Woche 7–12: Produktionshärtung

  • Reproduzierbarkeit komplettieren (Snapshotting, Artefakt-Registry, SBOM).
  • Eval-Harness und Golden-Set; Shadow-Kanäle/Canary-Rollout; Fehlertaxonomie.
  • Kapazitäts- und Kostenmessung, Tuning (Batching, Quantisierung, Caching).
  • Betriebsdokumentation, Runbooks, On-Call-Prozesse; formale Abnahme.

8. Was Sie streichen sollten, um schneller ans Ziel zu kommen

  • Generische „KI-Roadmaps“ ohne Entscheidungsbezug. Ersetzen durch eine Entscheidungsmatrix mit Datenanforderungen.
  • POC-Mentalität, die Security, Observability und Data Quality ignoriert. Ersetzen durch „Production-first“-Checklisten schon im ersten Sprint.
  • Vendor-Lock-in ohne Exit-Strategie. Ersetzen durch austauschbare Komponenten: S3‑API, standardisierte Formate (Parquet), offene Inferenzserver, Portabilität der Prompts/Tools.

9. Metriken, die wirklich zählen

  • Qualität: Für CV/ML – per Use-Case definierte KPIs (z. B. Ausfallstunden vermieden), nicht nur ROC/AUC. Für LLM – Faithfulness, Quellen-Deckung, Nutzerakzeptanz (z. B. Deflection-Rate in Callflows), Fehlerklassen-Quoten.
  • Betrieb: P95/P99-Latenz, Erfolgsrate pro Route/Tool, Drift-Score, Data-Quality-SLA-Erfüllung.
  • Wirtschaft: Kosten pro Entscheidung, Zeit bis zur Freigabe einer Änderung, MTTR bei Fehlverhalten.

10. Fazit: Souveränität ermöglicht Intelligenz

Wenn Sie die Daten nicht beherrschen, beherrscht Sie die KI. Eine gute KI-Strategie beginnt mit einer Datenstrategie, die Ownership, Qualität, Sicherheit und Reproduzierbarkeit ernst nimmt. Problem-first heißt: Die Entscheidung bestimmt die Architektur. On-premise und souverän heißt: Sie kontrollieren Datenflüsse, Kosten und Risiken. Erst wenn diese Grundlagen stehen, lohnt es sich, über das „Wie groß ist das Modell?“ zu reden. Nicht früher.

FAQ