Qualität und Sicherheit:
- Starten Sie mit „Fehler-Fenstern“ aus der Historie; definieren Sie, welche Alarme wirklich zu Handlungen führen.
- Metriken: Vorwarnzeit, Präzision der Alarme, Belastung der Mannschaft (Alarm-Fatigue).
- Betriebsregeln: „Don’t surprise Ops“ – jede neue Alarmklasse geht erst in Shadow-Mode.
Wo Sie am Anfang nicht starten sollten
- „Unternehmensweiter KI-Chatbot“ ohne klares Rechte- und Haftungskonzept.
- Vollautomatisierte Closed-Loop-Steuerungen ohne vorgelagerte SOTIF-/FMEA-Betrachtung.
- Greenfield-„KI für alles im ERP“: erst gezielte Satellitenfunktionen bauen, nicht das Herzsystem anfassen.
- Reine Datenplattform-Projekte ohne klaren ersten Produktinkrement.
3. Architekturmuster für Datensouveränität ohne US-Cloud
Das Betriebsmodell entscheidet. Drei praxistaugliche Muster:
Muster A: Streng on-prem, ggf. air-gapped
- Artefaktspiegel: Eigene Container-/Model-Registry (z. B. Harbor), SBOM und Signaturen.
- Orchestrierung: k3s/RKE2 oder klassisches Kubernetes je nach Teamreife; GitOps (Argo CD/Flux).
- Keine ausgehenden Verbindungen zur Laufzeit; Updates über geprüfte Offline-Pakete.
- IAM: On-Prem SSO (Keycloak), feingranulare Rollen; Audit-Logs zentral.
Muster B: On-Prem mit kontrolliertem Egress
- Training/Inference on-prem; Telemetrie in interne Observability-Stacks.
- Selektive Updates aus kuratierten Quellen via Proxy, mit Scans und Freigaben.
Muster C: Hybrid mit EU-Cloud für Nicht-Geheimschutz-Daten
- Strikte Trennung: Sensibles on-prem; unkritisches Preprocessing/Experimentieren in EU-Rechenzentren.
- Datendiäten: Nur pseudonymisierte, minimierte Slices verlassen das Werk.
- Reproduzierbarkeit: Gleiche Container/Configs on-prem und in der Cloud.
Querschnittsthemen
- Reproduzierbarkeit: Infrastructure-as-Code, versionierte Datasets/Features, deterministische Seeds, Modellkarten mit Training-Commit und Hyperparametern.
- Sicherheit: Least Privilege für Dienste, signierte Artefakte, Secrets über Vault-Mechanismen, Netzwerk-Policies.
- Modelle: Offene Modelle werden intern gespiegelt; keine Direktaufrufe externer Foundation-APIs für sensible Daten.
- Datenschutz: Datenminimierung, Protokollierung, Rechteprüfung vor Inferenz. Wo möglich, PII-Redaktion in Vorverarbeitung.
4. 12-Wochen-Fahrplan: Von Null zu produktivem Pilot
Woche 0–2: Problem-Sprint
- Stakeholder-Interviews am Band/Arbeitsplatz, Walkthrough des realen Prozesses.
- Formulierung der Akzeptanzkriterien: z. B. „Reduziert Fehlalarme gegenüber heutiger Regel um X, maximal Y verpasste Fehler im Shadow-Mode“.
- Dateninventur und Risikoanalyse (Berechtigungen, Exportwege, Aufbewahrungsfristen).
- Festlegen des Betriebsmodells (A/B/C), Bill of Materials, Rollen.
Woche 2–4: Thin-Slice-Architektur und Baselines
- Aufsetzen der minimalen Plattform: Git, Container-Registry, CI-Pipeline, Observability (Logs/Metrics/Traces), Zugriffsmanagement.
- Erstellen der Baseline: für CV einfache klassische Verfahren gegen ML vergleichen; für RAG reines Keyword-BM25 gegen Embeddings; für Maintenance robuste Schwellwerte gegen ML.
- UX-Prototyp am echten Arbeitsplatz/System, Feedback sammeln.
Woche 4–8: Iteration mit echten Daten
- Annotation/Labeling-Runden mit Fachexperten, aktives Lernen zur Datenauswahl.
- Hartes Negative-Mining: jene Fälle einsammeln, in denen das Modell scheitert.
- Integration in die Zielumgebung (UI-Panel, API, Dashboard), damit Shadow-Mode möglich ist.
- Evaluationssuite fixieren: Golden Set, Metriken, Regressionschecks.
Woche 8–12: Shadow-Mode und Härtung
- Betrieb in Shadow-Mode am echten Prozess, tägliche Auswertungen.
- Guardrails aktivieren: Fallback-Pfade, Unsicherheits-Schwellen, Notausschalter.
- Betriebsdokumentation, Onboarding der Mannschaft, Übergabeplan inkl. Update-/Rollback-Prozeduren.
- Entscheidung Go/No-Go für produktiven Einsatz und Skalierung.
Team und Rollen (schlank)
- 1 Tech Lead/Owner: Architektur, Schnittstellen, Qualität.
- 1–2 ML/Software Engineers: Datenpipelines, Modelle, Integration.
- 1 Domänenexperte aus dem Fachbereich: tägliche Entscheidungen, Labels, Akzeptanz.
- Optional: IT/OT-Vertreter für Netzwerk/Deployment.
5. Hardware- und Kostenüberlegungen—pragmatisch
- Trainings-/Experimentierstation: Solide Workstation mit einer mittelgroßen GPU und ausreichend RAM/SSD. Reicht für die genannten Erstprojekte oft aus.
- Edge-Inferenz: Industrie-PC mit dedizierter, gemäß Umgebung ausgewählter Beschleunigerkarte oder optimiertem CPU-Stack. Achten Sie auf thermische Bedingungen, Staubschutz und Wartbarkeit.
- Quantisierung und Kompression: Für Inferenz häufig sinnvoll (z. B. INT8), wenn Qualitätsverlust akzeptabel ist. Messen, nicht raten.
- Speicherkonzept: Rohdaten getrennt von Trainings-/Inferenzartefakten; Vektorindizes und Modellartefakte regelmäßig sichern; Restore testen.
- Lizenz- und Wartungskosten transparent machen: GPU-Treiber, Container-Orchestrierung, Observability-Stack, Annotation-Werkzeuge.
6. Qualität, Sicherheit, Compliance – wie in der Produktion
- Evaluation:
- Offline: Festes Golden Set, reproduzierbare Messung pro Commit/Release.
- Online: A/B oder Shadow-Mode, Canary-Releases, klare Abbruchkriterien.
- Guardrails:
- CV: Unsicherheitsbereiche definieren, Pflicht zur menschlichen Bestätigung.
- RAG/LLM: Quellenpflicht, Antwortgrenzen, Tool-Aufruf-Whitelist, Temperatur niedrig, Eskalation bei fehlender Evidenz.
- Auditierbarkeit:
- Versionierung von Daten, Modellen, Prompts.
- Vollständige Traces von Inferenz und Agentenentscheidungen.
- Unveränderliche Logs mit Aufbewahrungsfristen.
- Datenschutz:
- Datenminimierung am Eingang, Pseudonymisierung wo möglich.
- Zweckbindung dokumentieren; Zugriff nach Rollen; DSFA bei personenbezogenen Szenarien prüfen.
- Betrieb:
- Kill-Switch je Service.
- Rollback geübt, nicht nur dokumentiert.
- Verantwortlichkeiten schriftlich (wer darf deployen, wer darf Daten freigeben, wer genehmigt Modellwechsel).
7. Warum der Mittelstand hier oft schneller ist als der Konzern
- Kürzere Entscheidungswege: Der Meister, der die Schraube täglich sieht, sitzt wirklich mit am Tisch.
- Brownfield-Stärke: Bestehende Linien, Werkzeuge, Spezifika – dort lebt das Differenzierungswissen.
- Fokussierte Inkremente: Eine Linie, eine Station, ein Dokumentenraum – und dann skaliert man das Muster.
Die Kehrseite:
- Jede zusätzliche Plattformkomponente ist realer Betriebsaufwand. Deswegen: minimaler Stack, maximal reproduzierbar. Lieber ein k3s-Cluster gut beherrschen als fünf Spezialprodukte halb.
8. Governance und Observability für LLM-gestützte Prozesse
Wenn Sprachmodelle anfangen, Werkzeuge aufzurufen (Dateisystem, Suchindizes, Service-APIs), steigt das Risiko. Ohne Observability und Governance sind Sie im Blindflug.