- Hosting und Egress
- Läuft on‑prem/Edge ohne Internet? Egress policy technisch erzwingbar?
- Transparenz
- SBOM verfügbar? Signierte Artefakte? Reproduzierbare Builds?
- Governance
- Logging/Tracing auf Prompt/Antwort/Modell‑Version? RBAC bis Funktionsaufruf?
- Compliance
- Daten bleiben in kontrollierten Zonen? Verschlüsselung at rest/in transit? Audit‑Fähigkeit?
- Betrieb
- Update‑Pfad, Security‑Advisories, SLA für Patches, Backup/Restore dokumentiert?
- Integration
- Standard‑Schnittstellen (REST/gRPC/OPC UA), klare Versionierung, keine proprietären Lock‑ins ohne Exit‑Pfad.
Häufige Fragen (FAQ)
Frage: Brauchen wir zwingend eine GPU‑Infrastruktur für den Start?
Antwort: Nicht zwingend. Viele Bild‑ und Zeitreihenmodelle laufen performant auf CPU. Für lokale LLMs helfen quantisierte Modelle. Starten Sie mit CPU/Edge‑Devices; investieren Sie in GPUs erst, wenn der Engpass wirklich dort liegt.
Frage: Ist Fine‑Tuning von LLMs auf unseren Daten besser als RAG?
Antwort: Für die meisten industriellen Wissensaufgaben liefert ein sauberer RAG‑Stack mit Qualitätsdokumenten, gutem Chunking, Filtern und Guardrails schneller robuste Ergebnisse. Fine‑Tuning lohnt sich bei stark idiomatischer Sprache oder speziellen Stilen – dann aber on‑prem und kontrolliert.
Frage: Wie vermeiden wir Halluzinationen bei LLM‑Einsätzen?
Antwort: Strenge Prompt‑Vorlagen, nur erlaubte Tools, Antwortschemas mit Validierung, Quellenzitate als Pflicht, Confidence‑Schwellen mit Fallback an Menschen sowie Evaluationssuites mit realen Queries. Retrieval muss präzise und gefiltert sein.
Frage: Wie viel Daten brauchen wir für einen sinnvollen Start?
Antwort: Für überwachte Aufgaben genügen oft einige Hundert gut annotierte Beispiele, wenn der Wirkraum eng ist. Für Anomalieerkennung zählen Kontinuität und Repräsentativität mehr als Größe. Qualität schlägt Quantität; starten Sie klein, aber kuratiert.
Frage: Wie organisieren wir den Betrieb ohne großen MLOps‑Apparat?
Antwort: Minimalstack: Git + Container + private Registry + einfache Model Registry + Monitoring. Saubere ADRs, reproduzierbare Deployments, Canary‑Releases und klare Rollback‑Wege. Wachsen Sie erst, wenn operative Last es erfordert.
Fazit
Souveränität ist kein Gegensatz zu Geschwindigkeit – sie ist die Voraussetzung dafür, in kritischen Umgebungen skalierbar zu liefern. Der Mittelstand hat mit kurzen Wegen und tiefem Domänenwissen echte Vorteile. Wenn Sie problemgetrieben starten, eine on‑prem Architektur mit harten Egress‑Kontrollen und Observability aufbauen und einen 90‑Tage‑Plan diszipliniert umsetzen, dann liefert KI in drei Monaten messbaren Nutzen – ohne Ihre Daten aus der Hand zu geben.