• Use Case: Werkstatt-Ingenieure stellen Anfragen zu Bauteilen, Varianten, Drehmomenttabellen, Änderungsständen. Ziel: korrekte, auditierbare Antworten mit Quellverweis in <1,5 s.
  • Pipeline:

1) Intake: CAD-PDFs, Montageanleitungen, Änderungsmitteilungen; OCR/Layout-Parsing; semantisches Chunking mit Abschnitts-IDs
2) Embeddings: On-Prem Embedding-Modell (z. B. deutsch/technikorientiert), periodisches Re-Embedding bei Revisionswechsel
3) Index: Hybrid BM25 + Vektor; Felder: Teilnummer, Revision, Gültigkeitszeitraum, Sicherheitsfreigabe
4) Retrieval: Top-k hybrid + Cross-Encoder-Rerank; Filter nach Revision/Variante/Standort
5) LLM: On-Prem Inferenz; Prompt mit striktem Antwortschema und Quellenzitaten
6) Guardrails: Wenn Konfidenz/Abdeckung zu niedrig: keine Antwort, stattdessen verlinkte Dokumentstelle + Eskalation
7) Observability: Trace mit Quellen, Score, Antwortzeit, Prompt-/Model-Version; PII-Redaction

  • Betriebsanforderungen:
  • Latenzbudget Aufteilung: Retrieval 400 ms, Rerank 250 ms, LLM 600 ms, Rest 250 ms
  • Caching: Semantisches Cache für wiederkehrende Fragen; Warm-Cache pro Schichtstart
  • Schema-Validierung: JSON-Ausgabe mit Pflichtfeldern; Parser-Fallbacks

Feintuning vs. RAG vs. Klassisches ML: Wann was?

  • Starten Sie mit RAG, wenn Wissen primär in Text/Dokumenten steckt und sich ändert. Vorteile: schnelle Aktualisierbarkeit, geringere Datenanforderungen, bessere Auditierbarkeit (Quellen).
  • Feintuning (Adapter/LoRA), wenn das Modell in Ihrer Domänensprache besser parieren muss (z. B. spezifische Fehlermeldungen, enges Format). Voraussetzung: kuratierte, qualitativ hochwertige Trainingsdaten; klare Evaluierung. Achten Sie auf Lizenz und Reproduzierbarkeit.
  • Klassische ML, wenn Daten strukturiert und Ziel deterministisch ist: Vision-basierte Defekterkennung, Zeitreihen-Anomalien, Predictive Maintenance. Hier zählen robuste Datenpipelines, Feature-Stores, wiederholbare Trainingsläufe, statt Prompts.

Kosten- und Latenzdisziplin: harte Budgets statt Hoffnung

  • GPU-Planung: Kapazität in Token/s und Durchsätzen statt in „Anzahl User“. Batch- und Prefill/Decode-Optimierungen nutzen.
  • Quantisierung: 4/8-Bit (z. B. AWQ/GPTQ) für Latenz/Kostensenkung, wenn Qualitätsverlust tragbar ist.
  • Caching: Prompt- und KV-Cache; semantische Antwortcaches mit Gültigkeitsfenstern.
  • Fallback-Ökonomie: Für niedrige Kritikalität kleinere Modelle, für hohe Kritikalität robustere Pfade (oder Mensch-in-der-Schleife).

Security- und Compliance-first, nicht „später“

  • Policy Enforcement: zentraler Policy-Engine-Layer (z. B. OPA-ähnliche Prinzipien) für Toolzugriffe, Datenfilter, Ausführungsgrenzen.
  • Audit-Trails: Unveränderliche Logs (WORM), signierte Ereignisse, nachvollziehbare Freigaben.
  • Evaluierung als Gate: Kein produktiver Agent ohne dokumentierte Evals, Red-Teaming und Abnahmekriterien.
  • Lieferketten-Sicherheit: SBOM, signierte Container, reproduzierbare Builds, gesperrte Registries.

Konkrete Übergangs-Checkliste: POC → Produktion
Gate 0 – Problem

  • Geschäftsentscheidung, Metriken, Toleranzen, Risiken, Nichtziele
  • Baseline ohne KI und wirtschaftlicher Zielkorridor

Gate 1 – Daten

  • Datenprodukte, Verträge, Eigentümer
  • Lineage, Qualität, Zugriff, Zweckbindung

Gate 2 – Architektur

  • RAG/ML-Design, On-Prem-Deployments, Security-Zonen, Egress-Politik
  • Betriebskonzepte: SLOs, Observability, Runbooks

Gate 3 – Modell & Eval

  • Modellwahl, Lizenzen, Registry
  • Gold-Datasets, Evaluierungsmetriken, Red-Teaming, Akzeptanzschwellen

Gate 4 – Governance

  • Policy-Engine, Guardrails, HI/LOA (Human-in-/out-of-the-loop) je Risikostufe
  • Audit- und Freigabemechanismen

Gate 5 – Inbetriebnahme

  • Canary/Shadow-Phase, Monitoring/Alerting
  • Rollback-Strategie, Ownership im Betrieb, Iterationsplan

Was Sie weglassen sollten

  • POCs auf Public-LLM-APIs mit produktiven Daten, wenn Souveränität/DSGVO relevant ist
  • Unstrukturierte Dokumentenindizes ohne Metadaten/Versionen
  • Agenten mit Write-Berechtigung in Produktivsysteme ohne Policy-/Approval-Layer
  • „Wir messen später“ – ohne Evals/Tracing sind Sie blind

Die Rolle von Observability & Governance
LLMs sind probabilistische Systeme. In regulierten Domänen brauchen Sie:

  • Vollständige Nachvollziehbarkeit: Warum kam diese Antwort zustande? Welche Quellen? Welche Prompt-/Modellversion?
  • Steuerbarkeit: Wer darf was ausführen? Unter welchen Bedingungen? Mit welcher Freigabe?
  • Schutzmechanismen: Redaction, Output-Validierung, Fallbacks, Circuit-Breaker
  • Kontinuierliche Qualitätssicherung: Regressionsevaluierungen bei jedem Modell-/Prompt-Update

In unseren Projekten setzen wir dafür eine dedizierte Plattformschicht ein, die LLM-Interaktionen sichtbar macht, Richtlinien durchsetzt und auf Premises betrieben wird. Ohne diese Schicht ist Produktion eine Wette.

Starten – aber richtig

  • Woche 1-2: Use-Case-Selektion mit klaren Metriken und Nichtzielen; Systeminventar; Datenprodukt-Definition
  • Woche 3-4: Minimaler RAG- oder ML-Prototyp auf produktionsnaher Architektur (on-prem), mit Observability von Tag 1
  • Woche 5-6: Evaluierung auf Gold-Set, Guardrails, Policy-Layer; Kosten-/Latenz-Budgets schließen
  • Woche 7+: Canary, Shadow, harte Gates; danach inkrementelle Ausweitung auf weitere Domänen

Mein Fazit
KI kennt Ihr Business nicht. Ihre Daten, Ihre Prozesse, Ihre Risiken definieren die Architektur – nicht das Modell-Du-jour. Wer Souveränität, Datenprodukte, Governance und Betrieb von Anfang an ernst nimmt, bringt KI in Produktion – sicher, auditierbar, wirtschaftlich. Souveränität ermöglicht Intelligenz.

FAQ

1) Brauche ich wirklich On-Prem? Oder reicht eine EU-Cloud?

  • Es hängt von Datenklassifizierung, Vertragslage und Risikoappetit ab. Wenn Sie streng regulierte oder verteidigungsnahe Daten verarbeiten, ist On-Prem meist gesetzt. In weniger kritischen Szenarien kann eine EU-Cloud funktionieren – aber nur mit egress-Kontrolle, klaren Datenflüssen und ohne Abhängigkeit von US-LLM-APIs, wenn Datenbindung/Souveränität das erfordert.

2) Welche Modelle machen on-prem Sinn für deutsch/technische Domänen?

  • Für Retrieval-lastige Anwendungsfälle: solide Mid-Size-Modelle mit starkem Deutsch-Support und guter Inferenz-Performance auf Ihrer Hardware, kombiniert mit hochwertigem Retriever/Reranker. Für Embeddings: domänentaugliche Modelle, die on-prem lizenziert sind. Fokus weniger auf Modelgröße, mehr auf Kontexte, RAG-Qualität, Reranking und Guardrails.

3) Wann sollte ich feintunen statt „nur“ RAG zu bauen?

  • Feintuning lohnt sich, wenn (a) ein enges, wiederkehrendes Aufgabenformat mit klaren Qualitätsmetriken vorliegt, (b) ausreichend kuratierte Trainingsdaten verfügbar sind und (c) die Betriebslast Feintuning- und Re-Deploy-Zyklen trägt. Starten Sie mit RAG; feintunen Sie gezielt für Lücken (z. B. sehr spezielle Fehlermeldungen oder streng formatierte Ausgaben).