Was in die Governance-Schicht gehört:
- Vollständige Trace-Erfassung: Prompt, Kontext, Werkzeuge, Antworten, Modelle/Versionen.
- PII/Secret-Scrubbing in Logs.
- Richtlinien: Wer darf welche Tools in welchem Kontext, mit welchem Datenraum?
- Evaluationssets für Regressionstests: Prompts und erwartete Antworten mit Quellen.
- Genehmigungsflüsse: Änderungen an Prompts, Tools, Policies durchlaufen Freigaben.
- On-Prem-Betrieb: Keine Telemetrie nach außen; alle Artefakte bleiben intern.
Wir setzen in Projekten eine dedizierte Plattform für diese Anforderungen ein, weil Spreadsheets und lose Logfiles dem Anspruch an Nachvollziehbarkeit, Sicherheit und Wartbarkeit nicht genügen.
9. Entscheidungscheckliste für Ihren ersten Use Case
- Prozessschnitt definiert? Ein Arbeitsplatz, eine Linie, ein Dokumentenraum.
- Datenzugang rechtlich und technisch geklärt? Exportwege sauber?
- Akzeptanzmetriken und Shadow-Mode-Szenario unterschrieben?
- Minimal-Architektur gezeichnet, inklusive Fallback?
- Betriebspaten benannt: Wer owned das System nach Woche 12?
- Sicherheits- und Datenschutzmaßnahmen konkret dokumentiert?
Konkrete nächste Schritte
- 90-Minuten-Workshop am Ort des Geschehens: Prozess aufnehmen, Ziel-KPI definieren, Go/No-Go.
- 10-Tage-Prototyp: Daten sichten, Baseline bauen, Minimal-UI oder API anbinden.
- 8-Wochen-Pilot mit Shadow-Mode: Qualität messen, Guardrails scharf schalten, Handover vorbereiten.
FAQ
Frage 1: Brauchen wir wirklich On-Premise? Cloud ist doch „einfacher“.
Antwort: „Einfacher“ ist relativ. Wenn Daten das Haus nicht verlassen sollen oder dürfen, ist On-Prem der geradere Weg, weil Sie Zugriff, Kosten und Risiken selbst steuern. Technisch lässt sich ein moderner, reproduzierbarer Stack on-prem schlank betreiben: Container, GitOps, Observability. Für unkritische Experimente kann ein Hybridansatz sinnvoll sein – aber klare Datendiäten und Reproduzierbarkeit sind Pflicht.
Frage 2: Wie groß muss das Sprachmodell sein?
Antwort: Für faktennahe, zitatgestützte Antworten in einem spezifischen Dokumentenraum reicht häufig ein kompaktes Modell. Den Unterschied machen gutes Retrieval, saubere Chunking-Strategien, Metadaten und strenge Antwortregeln. Messen Sie zielgerichtet: Grounded-Antwortquote und Korrektheit der Zitate sind wichtiger als Benchmark-Scores.
Frage 3: Wieviel Daten brauchen wir für visuelle Qualitätskontrolle?
Antwort: Für einen belastbaren Start reichen oft hunderte bis wenige tausend repräsentative Bilder – wenn sie sauber annotiert und die Fehlerklassen sinnvoll geschnitten sind. Der Schlüssel ist der kontinuierliche Verbesserungsprozess: systematisch harte Negative sammeln, Nachannotationen priorisieren und Modelle regelmäßig nachziehen.
Frage 4: Wie vermeiden wir „KI-Halluzinationen“ in der Praxis?
Antwort: Architekturentscheidungen: RAG mit Quellenpflicht, niedrige Temperatur, Antworten nur innerhalb des kontextuellen Korridors. Evaluationsentscheidungen: Golden Sets, Regressionstests, Shadow-Mode. Betriebsentscheidungen: Eskalation an den Menschen bei Unsicherheit oder fehlender Evidenz, Tool-Aufrufe nur über Whitelists.
Frage 5: Was kostet der Betrieb – personell?
Antwort: Planen Sie realistisch mit einem kleinen Kernteam, das sowohl Entwicklung als auch Betrieb versteht. Reduzieren Sie Plattformvielfalt, setzen Sie auf GitOps und wiederholbare Pipelines. Teurer als Hardware ist in der Regel Komplexität – halten Sie die Architektur schlank und die Automatisierung hoch.
Schlussgedanke
Intelligente Systeme im Mittelstand entstehen dort, wo Souveränität, echtes Prozessverständnis und pragmatische Architekturentscheidungen zusammentreffen. Nicht das größte Modell, nicht die lauteste Cloud, sondern der sauber geschnittene Use Case mit beherrschbarer Technik gewinnt. Wenn Sie in 12 Wochen messbare Ergebnisse liefern wollen, wählen Sie einen dünnen, aber echten Schnitt durch den Prozess, bauen Sie auf reproduzierbarem On-Prem-Stack – und messen Sie Qualität wie jede andere produktionsrelevante Größe.