Phase 4 (Woche 9–12): Absicherung, Pilotbetrieb, Go/No-Go

  • A/B oder Shadow Mode: Modell läuft parallel, ohne Entscheidungen zu erzwingen.
  • Drift-Checks: Daten-/Konzeptdrift überwachen; Alarmierung einführen.
  • Dokumentation: DPIA/DSFA, TOMs, Betriebsanleitung für IT/OT, SOPs für Retraining.
  • Entscheidungsvorlage: Ergebnisse gegen Metriken; Plan für Rollout/Skalierung, TCO-Abschätzung.

4) Referenzarchitekturen für drei typische Mittelstands-Use-Cases

4.1 Visuelle Defekterkennung am Edge

  • Hardware: Industrie-PC mit GPU (z. B. 1× mid-range), IP-Kameras, strukturierte Beleuchtung.
  • Ingestion: GStreamer/RTSP, Bildvorverarbeitung am Edge (Maskierung sensibler Bereiche).
  • Modell: Detektor/Segmentierer; Training on-prem; Export als ONNX; Beschleunigung via TensorRT/OpenVINO.
  • Serving: Leichtgewichtiger Inferenzserver (Triton oder eigener gRPC-Dienst) auf k3s.
  • Integration: Ergebnis per OPC UA an SPS/MES; Bilder nur bei Events speichern (Datenminimierung).
  • Updates: GitOps mit Argo CD; signierte Modell-Artefakte; Blue/Green-Rollout.
  • Metriken: FP/FN, Latenz, Throughput, Operator-Overrides.

Trade-offs:

  • On-Device vs. Zentrales Inferenzcluster: Edge reduziert Latenz und Bandbreite, dafür mehr Fleet-Management.
  • Vollbildspeicherung vs. Crop: Privacy und Speicherbedarf sprechen für Event-basierte Crops/Features.

4.2 Wartungsassistenz mit on-prem LLM und RAG

  • Dokumentpipeline: Extraktion (PDF->HTML), Canonicalization, Chunking (semantische Sätze/Abschnitte), Metadaten (Version, Gültigkeit).
  • Vektorspeicher: Postgres+pgvector oder dedizierter Store; Relevanzbewertung über Hybrid-Search (BM25 + Vektor).
  • LLM Serving: Offenes Modell on-prem mit vLLM oder TGI; konfigurierbare Token-Limits, Rate-Limiting.
  • Guardrails: Prompts mit Rollen und Policies; Outbound-Requests blockiert; nur freigegebene Quellen.
  • Observability: Prompt/Response-Logs, Retrieval-Debug (welche Dokumente wurden genutzt), Feedback-Knopf, Halluzinationsrate messen.
  • Integration: SSO (Keycloak); Rechteprüfung auf Dokumentebene; keine Daten das Rechenzentrum verlassend.

Trade-offs:

  • Fine-Tuning vs. RAG: Für Domänenwissen fast immer RAG zuerst. Fine-Tuning lohnt nur bei systematischen Antwortmustern.
  • Größeres Modell vs. bessere Retrieval-Qualität: In Mittelstands-Setups gewinnt meist bessere Indexierung/Chunking über reine Modellgröße.

4.3 Anomaliedetektion in Maschinenzeitreihen

  • Ingestion: OT-Gateway (OPC UA/MQTT) in Timeseries-DB (Timescale/Influx).
  • Features: Fensterbildung, Spektralmerkmale, Rolling Statistics; optional Feature Store.
  • Modell: Isolation Forest/One-Class SVM/Autoencoder – Start einfach, erklärbar halten.
  • Inferenz: Online-Score mit Konfidenz; Alarmaggregation (keine Alarmschauer).
  • Feedback: Techniker kategorisiert Alarme; Active Learning-Loop.
  • Visualisierung: Grafana mit Ereignis-Anreicherung (Schicht, Werkstücktyp).

Trade-offs:

  • Erklärbarkeit vs. Performance: Für Shopfloor-Akzeptanz ist ein „Warum?“ wichtiger als 2% AUC mehr.
  • Globales Modell vs. Pro-Maschine: Pro-Maschine ist robuster und schneller lieferbar; global erst nach Stabilisierung.

5) Mittelstand vs. Konzern: Wo der Geschwindigkeitsvorteil entsteht

Warum mittelständische Teams bei KI oft schneller sind:

  • Kurze Wege: Prozessverantwortliche und Domänenexperten sitzen physisch nah am Ort des Geschehens. Labeling, Abnahmen, Edge‑Tests gehen in Tagen, nicht Quartalen.
  • Keine „Plattform um der Plattform willen“: Weniger Zwang zu unternehmensweiten Big-Bang-Architekturen. Sie können Use-Case-zentriert bauen und später konsolidieren.
  • Realistische Data-Volumes: Sie brauchen kein Exabyte-Data-Lake. Edge-Speicherung und Datenminimierung funktionieren.

Typische Fallstricke:

  • Vendor Lock-in: Proprietäre Cloud-APIs wirken verführerisch. In 12 Monaten zahlen Sie mit Souveränität. Planen Sie BYOM (Bring Your Own Model) und Portabilität.
  • Wartungslast unterschätzt: Ein gutes Modell ohne Observability/Governance kippt nach 6 Monaten. Planen Sie Metriken, Drift-Checks und Rollouts von Anfang an.
  • „KI-Team ohne Prozessverantwortung“: Ohne gelebte Co-Ownership mit Produktion/Service bleibt es ein IT-Projekt.

6) Governance und Observability – besonders für LLM-Workflows

LLMs verhalten sich probabilistisch und sind anfällig für Prompt-Injektionen, Datenabfluss oder Halluzination. Governance ist kein „nice to have“, sondern ein Sicherheitsgurt.

Praktische Checks und Controls:

  • Policy-Gates vor Ausführung: Wenn ein Agent Aktionen ausführen darf (Ticket erstellen, Bestellung anstoßen), erzwingen Sie explizite Policies (z. B. OPA/Rego). Keine Aktionen ohne menschliche Freigabe in frühen Phasen.
  • Content Safety on-prem: PII-Redaktion, Prompt-Sanitization, Antwortklassifikation (z. B. „unsicher“, „außerhalb Kompetenzbereichs“).
  • Quellenpflicht: Bei RAG jede Antwort mit Dokumenten-Link, Versions- und Abschnittsangabe. Ohne Quelle -> niedrige Konfidenz.
  • Observability: Prompt-/Tool-Trace, Token-Verbrauch, Failure-Rate je Tool, Latenzen. Diese Signale sind die Grundlage für Tuning und Freigaben.
  • Änderungskontrolle: Modellwechsel wie Code-Deployments behandeln. Ticket, Review, Canary, Rollback.

Hinweis: Für LLM-Agenten lohnt sich eine dedizierte Observability- und Governance-Schicht. Sie muss on-prem laufen, DSGVO-konform sein und Logs/Policies zentral managen. Das reduziert Betriebsrisiko signifikant.

7) Team- und Betriebssetup: minimal, aber belastbar

Minimalteam für einen produktionsnahen KI-Use-Case:

  • Product Owner mit Prozessverantwortung (aus dem Fachbereich)
  • Software Engineer mit OT/IT-Schnittstellenkompetenz
  • ML Engineer (Training, Evaluation, Feature-Design)
  • DevOps/Platform Engineer (K8s, Storage, CI/CD, Security)
  • Optional: Labeling-Koordinator (Shopfloor/Service)

Arbeitsmodus:

  • Zweiwöchige Sprints, jede Iteration ein End-to-End-Inkrement (Daten->Modell->UI->Fachfeedback).
  • Definition of Done umfasst: Tests, Monitoring, Dokumentation, Security-Check, DPIA-Update.
  • Metriken als OKRs: Business- und Modellmetriken gemeinsam verantwortet.

Betrieb:

  • GitOps für Deployments (Argo CD).
  • Alerting auf Metriken und Datenflüsse (Prometheus Alertmanager).
  • Kapazitätsplanung: GPU-Auslastung, Speichermetriken, IO.
  • Backup/DR: Objekt-Storage-Versionierung, regelmäßige Restores testen.

8) Kostenrealismus und Buy/Build-Entscheidungen

  • Hardware: Für Edge-CV oft 3–5k EUR pro Knoten (Industrie-PC + GPU) als Richtwert. Zentral im RZ hängt es von Parallelität und Modellen ab. Starten Sie klein, messen Sie Auslastung, skalieren Sie schrittweise.
  • Software: Open-Source-Bausteine senken Lizenzkosten, erhöhen aber Betriebsaufwand. Bewerten Sie TCO inkl. Wartung, Security-Updates, Schulungen.
  • Datenlabeling: Planen Sie Zeit der Fachkräfte als Budget. Active Learning + halbautomatisierte Tools beschleunigen.
  • Externe Partner: Wählen Sie Partner, die Software übergeben können (Code, Pipelines, IaC) – nicht nur Modelle zeigen.

9) Konkrete Checkliste für Ihren Start in den nächsten 30 Tagen