- Woche 11–12: Abnahme und Betrieb
- Runbooks: Retraining, Rollback, Incident-Response
- Ownership klar: wer betreibt, wer ändert, wer genehmigt
- Go/No-Go gegen definierte Metriken; wenn No-Go: Gap-Analyse und nächste Iteration planen
8) Häufige Anti-Patterns – vermeiden spart Monate
- „Erst Strategie, dann Projekte“: Große Roadmaps ohne Produktionsnähe scheitern oft. Starten Sie mit einem konkreten Prozess und liefern Sie innerhalb 3 Monaten.
- „Chatbot für alles“: Ohne hochwertige, indexierte Inhalte und Governance wird der Bot Halluzinationen hübsch verpacken. Bauen Sie erst den Inhaltsunterbau.
- „Wir sammeln ‘mal alle Daten“: Ein Data Lake ohne klare Verwendungsfälle wird zum Datenfriedhof. Beginnen Sie mit Daten, die direkt einem KPI dienen.
- „Wir nehmen die größte Cloud-API“: Souveränität weg, Vendor-Lock-in da. On-Prem-Alternativen existieren – vielleicht nicht mit SOTA-Benchmarkwerten, aber ausreichend für praktische Aufgaben.
- „Labeling machen wir am Ende“: Ohne frühzeitige, qualitativ hochwertige Labels (oder ein gutes Surrogat) iterieren Sie im Blindflug.
Konkrete Handlungsempfehlungen für den Start in den nächsten 30 Tagen
- Wählen Sie einen Prozess mit klarer Metrik (Ausschuss, MTTR, Suchzeit).
- Setzen Sie eine minimale On-Prem-Umgebung auf:
- 1 Server, Docker, MinIO, MLflow, Prometheus/Grafana, GitLab CI, Keycloak.
- Definieren Sie ein Datenkontrakt-Dokument:
- Schema, Aktualisierungsfrequenz, Zugriff, PII-Klassifikation.
- Bauen Sie eine Baseline:
- Ohne „KI“, nur Regeln/Heuristiken. Das ist Ihr Vergleich.
- Planen Sie Observability ab Tag 1:
- Metriken und Logs, die Sie in 12 Wochen für die Abnahme brauchen.
- Legen Sie Fallbacks fest:
- Wann schaltet sich das System aus, wer entscheidet, wie erfolgt Rollback?
Abschließender Standpunkt
Der Mittelstand hat einen Vorteil: kurzes Feedback, viel Domänenwissen, wenig Overhead. Nutzen Sie das. Verzichten Sie auf den Griff zur großen Cloud-API, wenn Sie Souveränität und Nachvollziehbarkeit benötigen. Kleine Modelle, gute Daten und sauberes Engineering schlagen große Versprechen. Und: Governance und Observability sind Teil der Lösung, nicht lästige Anhängsel. Souveränität ermöglicht Intelligenz – technisch, organisatorisch, operativ.
FAQ
Frage: Reichen unsere kleinen Datenmengen überhaupt für KI?
Antwort: Oft ja, wenn das Signal klar ist. Für visuelle Defekte liefern 5–20k sauber gelabelte Bilder bessere Ergebnisse als 200k uneinheitliche. Für Zustandsüberwachung funktionieren unüberwachte Verfahren mit Wochen/Monaten an Normalbetrieb. Für LLM-gestützte Suche ist Datenqualität (strukturierte, versionierte Dokumente) wichtiger als Menge. Starten Sie mit einer Baseline und quantifizieren Sie den Nutzenzuwachs je weiterer Datencharge.
Frage: Müssen wir zuerst einen Data Lake bauen?
Antwort: Nein. Beginnen Sie mit einem zweckgebundenen Datenpfad: Quelle → Validierung → Feature-/Index-Pipeline → Modell → Metriken. Ein objektbasiertes Storage (MinIO) mit klaren Buckets und ein Time-Series-Store reichen oft. Wenn mehrere Use Cases wachsen, kann ein Lake/House sinnvoll werden. Aber bauen Sie ihn aus konkreten Anforderungen heraus, nicht voraus.
Frage: On-Prem LLMs sind doch zu langsam/teuer – lohnt sich das?
Antwort: Für generische Chatbots vielleicht. Für domänenspezifische, quellengestützte Antworten und klar definierte Workflows funktionieren 7–13B-Modelle on-prem gut – insbesondere mit starkem Retrieval und Quantisierung. Sie behalten Datenhoheit, senken variable API-Kosten und vermeiden Vendor-Lock-in. Planen Sie Kapazität in Tokens/Sekunde und nutzen Sie Prompt-Caching.
Frage: Wie gehen wir mit Halluzinationen um?
Antwort: Architektur statt Hoffnung. Retrieval-augmented Generation mit Quellenpflicht, strikte Prompt-Policies („keine Antwort ohne Quelle“), Domänen-Guardrails und ein Fallback-Dialog reduzieren Halluzinationen betrieblich relevant. Evaluieren Sie mit realen Fragen und messen Sie „Antwort mit Quelle“-Quoten. Logging und Replay machen Probleme reproduzierbar.
Frage: Wir haben noch keine GPUs – können wir trotzdem starten?
Antwort: Ja. Vieles läuft CPU-basiert (klassisches ML, Anomalieerkennung, sogar kleinere LLMs mit Quantisierung für Tests). Für Inferenz in Produktion und Bildverarbeitung ist eine kleine GPU hilfreich. Mieten Sie temporär Hardware oder starten Sie mit einem einzelnen Inferenz-Server. Edge-Geräte können Sie später gestaffelt ausrollen.
Über den Autor
Wir entwickeln bei AlpiType industrielle KI-Systeme für Branchen, in denen Datensouveränität nicht verhandelbar ist – on-premise, DSGVO-konform, ohne US-Cloud. Wir liefern technische Ownership von der Anforderung bis zur Qualitätssicherung und betreiben LLM-Agenten mit Observability und Governance. Wenn Sie ein konkretes Problem identifiziert haben, aber kein „API-Risiko“ eingehen können: Fangen wir pragmatisch an.