Woche 0–1: Scoping und Daten-Audit
- Zielprozess definieren, harte Akzeptanzkriterien schriftlich fixieren (z. B. „False-Reject-Rate <= 2 %“, „Antwortlatenz = 8 h“).
- Datenzugänge klären, 1–2 reale Datentage sichern. Security/DSGVO-Rahmen abstecken.
- Baseline-Ansatz definieren: Regelbasiert/klassisch wo möglich (zum Vergleich).
Woche 2–3: Pipeline-MVP
- Dateningestion und -speicherung produktionsnah aufsetzen (Compose/k3s).
- Labeling/Annotation für 200–1000 relevante Beispiele anstoßen (Vision) oder FAQ/Fragenkorpus definieren (RAG).
- Schnelltest: Embeddings-/Indexierungsstrategie (Chunking, Metadaten) evaluieren.
Woche 4–6: Modell-Baselines und Offline-Evaluation
- Vision: Erste ONNX/TensorRT-Modelle, augmentierte Trainingssätze, Offline-Precision/Recall messen.
- RAG: Top-k-Recall, Antwortgrundierung (Zitationspflicht), Benchmarks gegen definierte Fragen.
- Predictive: Einfache Anomalie-Detektoren (z-score, STL-Decomposition) als Base, dann ML/Hybrid. Ergebnis als ROC/PR-Kurven dokumentieren.
- Entscheidungspunkte: Reicht 7B-LLM? Muss quantisiert werden? Reicht pgvector?
Woche 7–8: Integration und Human-in-the-Loop
- UI/Operator-Workflow: Klare Oberflächen für Freigabe/Zurückweisung, Begründungen erfassen.
- Schnittstellen: ERP/MES/DMS read-only integrieren; Schreibrechte erst nach Shadow-Phase.
- Observability: Prompt-/Tool-Use-Logging, Guardrails (z. B. Redaktionsregeln, Blacklist-Fragestellungen).
Woche 9–10: Shadow Mode im Live-Betrieb
- Echtbetrieb parallel zum Menschen/Bestandsprozess, keine automatischen Aktionen.
- Monitoring: Drift-Indikatoren, Fehlklassen-Analyse, Latenz-/Durchsatzmessung.
- Iteration: Gezielt Top-Fehlerklassen datenmäßig anreichern (Active Learning).
Woche 11–12: Bewertung und kontrollierte Freigabe
- Gegen Akzeptanzkriterien aus Woche 1 testen. Wenn erfüllt: begrenzte Freigabe mit Rollback-Plan.
- Schulung, Betriebshandbuch, Wartungsfenster, Update-Prozeduren.
- Abschlussbericht: Was funktioniert, was als Nächstes zu tun ist (Skalierung, weitere Linien, erweiterte Agenten).
Messmetriken je Use Case
- Vision: Precision/Recall je Defektklasse, False-Reject-Rate, Taktzeit-Impact, OEE-Einfluss in Pilot.
- RAG/Assistenz: Top-k-Dokument-Recall, Anteil beantwortbarer Fragen, Zitationsabdeckung, Antwortlatenz P95, Anteil eskalierter Fälle.
- Predictive: Vorwarnzeit-Median, Kosten pro False Positive, Abdeckung (Prozent der relevanten Ausfälle erkannt).
4) Datensouveränität und DSGVO ohne US-Cloud – praktisch umgesetzt
Souveränität ist kein Slogan, sondern Architektur:
- Datenminimierung: Nur die Datenpunkte erfassen, die zur Zielmetrik nötig sind. PII aus Dokumenten frühzeitig maskieren/redigieren.
- Rechtliche Trennung: Entwicklungs- und Produktivumgebungen trennen. Produktivdaten verlassen die Umgebung nicht.
- Vollständige Protokollierung: Wer hat welches Modell mit welchen Daten wann in Betrieb genommen? Prompt-/Antwort-Logs für LLMs pseudonymisieren und intern speichern.
- RAG statt „LLM weiß alles“: Antworten nur mit Belegen aus dem eigenen Korpus. Keine Wissensverunreinigung, leichter auditierbar.
- Agenten-Governance: Kein „freier Internetzugang“, keine unkontrollierten Tools. Tool-Aufrufe erlaubnisbasiert, Outputs validiert. Observability-Plattformen wie Alpi-M unterstützen hier durch zentrale Policies, Test-Suites, Ausreißer-Erkennung und Audit-Logs – on-prem betreibbar.
So vermeiden Sie ungewollte Datenabflüsse:
- Keine Telemetrie zu externen Modellanbietern in Produktion.
- Modell- und Embedding-Inferenz lokal betreiben.
- Updates nur über signierte Container/Artefakte; ausgehender Traffic restriktiv.
5) Warum der Mittelstand oft schneller ist – und die typischen Gegenkräfte
Vorsprung
- Kürzere Entscheidungswege: Werksleiter, IT und Fachbereich sitzen an einem Tisch.
- Klarere Prozesse: Ein Produkt, eine Linie, definierte Taktzeiten – perfekte Bedingungen für sauber abgegrenzte Use Cases.
- Höhere Domänentiefe: Jahrzehnte an implizitem Wissen, das sich in Daten-Features und Heuristiken konkretisieren lässt.
Gegenkräfte – und Gegenmaßnahmen
- Knappe IT-Ressourcen: Bauen Sie eine „thin platform“ statt eines „Data Lakehouse“. Wenige, robuste Komponenten, die Sie wirklich betreiben können.
- Heldenabhängigkeit: Dokumentieren, standardisieren, Rollen klären (PO, Data/ML, Software, Betrieb).
- Schatten-IT: Frühe Einbindung von IT-Security, klare Freigabewege, Identity-Management von Tag 1.
6) Typische Fallen – und wie Sie sie vermeiden
- Technologie vor Problem: „Wir brauchen einen Vektorstore/Agenten“ ohne definierte Zielmetrik. Gegenmittel: Akzeptanzkriterien vor der ersten Zeile Code.
- Zu breite Scope: „Alle Dokumente, alle Anwender“. Gegenmittel: Ein Korpus, eine Nutzergruppe, eine KPI.
- Vernachlässigte Integration: Ein großartiges Modell ohne UI/Workflow ist wertlos. Gegenmittel: Human-in-the-Loop, UI früh mitdenken.
- Mangelnde Versionierung: Kein reproduzierbarer Weg von v0.1 zu v0.2. Gegenmittel: Git + DVC/MLflow, Artefakt-Registry, Release-Notizen.
- Vendor-Lock-in: Proprietäre SaaS im Kernpfad. Gegenmittel: On-prem-fähige Open-Source-Bausteine, klare Exit-Strategie, Datenportabilität.
7) Hardware- und Kostenüberlegungen – ohne Zahlenzauber
Planen Sie entlang des tatsächlichen Lastprofils:
- Vision Edge: Industrie-PC oder Jetson mit NVIDIA-GPU reicht oft. Rechenlast ist gut vorhersagbar (Taktzeit, Bildauflösung).
- Zentrales LLM/RAG: 7–13B-Modelle mit quantisierter Inferenz liefern oft ausreichende Qualität bei moderatem Speicherbedarf. Wichtig ist VRAM für Kontextlängen und Concurrency.
- Training vs. Inferenz: Training (oder Feintuning) braucht Spitzenleistung – das kann in einer EU-Cloud-Phase stattfinden. Dauerhafte Inferenz gehört on-prem.
- 24/7-Dienst: Verlässlichkeit vor Maximalleistung. Planen Sie Redundanzen (N+1), Ersatzgeräte und klar definierte Wartungsfenster ein.
- Netzwerk: Bandbreite und Latenz zwischen Edge und Zentrale sind echte Systemparameter. Komprimieren Sie Bilddaten, übertragen Sie Metadaten statt Rohvideo wenn möglich.
8) Governance, Qualitätssicherung und Wartbarkeit
- Test-first: Legen Sie einen festen Offline-Testkorpus an (Bilder, Fragen, Zeitreihen-Segmente). Jeder Modellwechsel muss diesen Korpus schlagen.
- Canary/Shadow-Deployments: Neue Modelle erst im Schattenmodus, dann gestaffelte Freigaben.
- Drift-Monitoring: Eingabeverteilungen und Ausgabequalitäten überwachen, Retraining/Review auslösen.
- Dokumentation: Prozessdiagramm, Datenflüsse, Konfigurationsparameter, Abnahmekriterien – ausführbar in einem Repo.
- Rollen & Verantwortung:
- Product Owner (Fachbereich): Problem, KPI, Akzeptanz.
- Software/ML-Engineer: Pipeline, Modelle, Qualität.
- IT/Operations: Betrieb, Sicherheit, Backups, Monitoring.
9) Wann Sie nicht starten sollten