Imported Post 2026-04-15 00:17:31

Phase 4 (Woche 9–12): Absicherung, Pilotbetrieb, Go/No-Go

A/B oder Shadow Mode: Modell läuft parallel, ohne Entscheidungen zu erzwingen.

Drift-Checks: Daten-/Konzeptdrift überwachen; Alarmierung einführen.

Dokumentation: DPIA/DSFA, TOMs, Betriebsanleitung für IT/OT, SOPs für Retraining.

Entscheidungsvorlage: Ergebnisse gegen Metriken; Plan für Rollout/Skalierung, TCO-Abschätzung.

4) Referenzarchitekturen für drei typische Mittelstands-Use-Cases

4.1 Visuelle Defekterkennung am Edge

Hardware: Industrie-PC mit GPU (z. B. 1× mid-range), IP-Kameras, strukturierte Beleuchtung.

Ingestion: GStreamer/RTSP, Bildvorverarbeitung am Edge (Maskierung sensibler Bereiche).

Modell: Detektor/Segmentierer; Training on-prem; Export als ONNX; Beschleunigung via TensorRT/OpenVINO.

Serving: Leichtgewichtiger Inferenzserver (Triton oder eigener gRPC-Dienst) auf k3s.

Integration: Ergebnis per OPC UA an SPS/MES; Bilder nur bei Events speichern (Datenminimierung).

Updates: GitOps mit Argo CD; signierte Modell-Artefakte; Blue/Green-Rollout.

Metriken: FP/FN, Latenz, Throughput, Operator-Overrides.

Trade-offs:

On-Device vs. Zentrales Inferenzcluster: Edge reduziert Latenz und Bandbreite, dafür mehr Fleet-Management.

Vollbildspeicherung vs. Crop: Privacy und Speicherbedarf sprechen für Event-basierte Crops/Features.

4.2 Wartungsassistenz mit on-prem LLM und RAG

Dokumentpipeline: Extraktion (PDF->HTML), Canonicalization, Chunking (semantische Sätze/Abschnitte), Metadaten (Version, Gültigkeit).

Vektorspeicher: Postgres+pgvector oder dedizierter Store; Relevanzbewertung über Hybrid-Search (BM25 + Vektor).

LLM Serving: Offenes Modell on-prem mit vLLM oder TGI; konfigurierbare Token-Limits, Rate-Limiting.

Guardrails: Prompts mit Rollen und Policies; Outbound-Requests blockiert; nur freigegebene Quellen.

Observability: Prompt/Response-Logs, Retrieval-Debug (welche Dokumente wurden genutzt), Feedback-Knopf, Halluzinationsrate messen.

Integration: SSO (Keycloak); Rechteprüfung auf Dokumentebene; keine Daten das Rechenzentrum verlassend.

Trade-offs:

Fine-Tuning vs. RAG: Für Domänenwissen fast immer RAG zuerst. Fine-Tuning lohnt nur bei systematischen Antwortmustern.

Größeres Modell vs. bessere Retrieval-Qualität: In Mittelstands-Setups gewinnt meist bessere Indexierung/Chunking über reine Modellgröße.

4.3 Anomaliedetektion in Maschinenzeitreihen

Ingestion: OT-Gateway (OPC UA/MQTT) in Timeseries-DB (Timescale/Influx).

Features: Fensterbildung, Spektralmerkmale, Rolling Statistics; optional Feature Store.

Modell: Isolation Forest/One-Class SVM/Autoencoder – Start einfach, erklärbar halten.

Inferenz: Online-Score mit Konfidenz; Alarmaggregation (keine Alarmschauer).

Feedback: Techniker kategorisiert Alarme; Active Learning-Loop.

Visualisierung: Grafana mit Ereignis-Anreicherung (Schicht, Werkstücktyp).

Trade-offs:

Erklärbarkeit vs. Performance: Für Shopfloor-Akzeptanz ist ein „Warum?“ wichtiger als 2% AUC mehr.

Globales Modell vs. Pro-Maschine: Pro-Maschine ist robuster und schneller lieferbar; global erst nach Stabilisierung.

5) Mittelstand vs. Konzern: Wo der Geschwindigkeitsvorteil entsteht

Warum mittelständische Teams bei KI oft schneller sind:

Kurze Wege: Prozessverantwortliche und Domänenexperten sitzen physisch nah am Ort des Geschehens. Labeling, Abnahmen, Edge‑Tests gehen in Tagen, nicht Quartalen.

Keine „Plattform um der Plattform willen“: Weniger Zwang zu unternehmensweiten Big-Bang-Architekturen. Sie können Use-Case-zentriert bauen und später konsolidieren.

Realistische Data-Volumes: Sie brauchen kein Exabyte-Data-Lake. Edge-Speicherung und Datenminimierung funktionieren.

Typische Fallstricke:

Vendor Lock-in: Proprietäre Cloud-APIs wirken verführerisch. In 12 Monaten zahlen Sie mit Souveränität. Planen Sie BYOM (Bring Your Own Model) und Portabilität.

Wartungslast unterschätzt: Ein gutes Modell ohne Observability/Governance kippt nach 6 Monaten. Planen Sie Metriken, Drift-Checks und Rollouts von Anfang an.

„KI-Team ohne Prozessverantwortung“: Ohne gelebte Co-Ownership mit Produktion/Service bleibt es ein IT-Projekt.

6) Governance und Observability – besonders für LLM-Workflows

LLMs verhalten sich probabilistisch und sind anfällig für Prompt-Injektionen, Datenabfluss oder Halluzination. Governance ist kein „nice to have“, sondern ein Sicherheitsgurt.

Praktische Checks und Controls:

Policy-Gates vor Ausführung: Wenn ein Agent Aktionen ausführen darf (Ticket erstellen, Bestellung anstoßen), erzwingen Sie explizite Policies (z. B. OPA/Rego). Keine Aktionen ohne menschliche Freigabe in frühen Phasen.

Content Safety on-prem: PII-Redaktion, Prompt-Sanitization, Antwortklassifikation (z. B. „unsicher“, „außerhalb Kompetenzbereichs“).

Quellenpflicht: Bei RAG jede Antwort mit Dokumenten-Link, Versions- und Abschnittsangabe. Ohne Quelle -> niedrige Konfidenz.

Observability: Prompt-/Tool-Trace, Token-Verbrauch, Failure-Rate je Tool, Latenzen. Diese Signale sind die Grundlage für Tuning und Freigaben.

Änderungskontrolle: Modellwechsel wie Code-Deployments behandeln. Ticket, Review, Canary, Rollback.

Hinweis: Für LLM-Agenten lohnt sich eine dedizierte Observability- und Governance-Schicht. Sie muss on-prem laufen, DSGVO-konform sein und Logs/Policies zentral managen. Das reduziert Betriebsrisiko signifikant.

7) Team- und Betriebssetup: minimal, aber belastbar

Minimalteam für einen produktionsnahen KI-Use-Case:

Product Owner mit Prozessverantwortung (aus dem Fachbereich)

Software Engineer mit OT/IT-Schnittstellenkompetenz

ML Engineer (Training, Evaluation, Feature-Design)

DevOps/Platform Engineer (K8s, Storage, CI/CD, Security)

Optional: Labeling-Koordinator (Shopfloor/Service)

Arbeitsmodus:

Zweiwöchige Sprints, jede Iteration ein End-to-End-Inkrement (Daten->Modell->UI->Fachfeedback).

Definition of Done umfasst: Tests, Monitoring, Dokumentation, Security-Check, DPIA-Update.

Metriken als OKRs: Business- und Modellmetriken gemeinsam verantwortet.

Betrieb:

GitOps für Deployments (Argo CD).

Alerting auf Metriken und Datenflüsse (Prometheus Alertmanager).

Kapazitätsplanung: GPU-Auslastung, Speichermetriken, IO.

Backup/DR: Objekt-Storage-Versionierung, regelmäßige Restores testen.

8) Kostenrealismus und Buy/Build-Entscheidungen

Hardware: Für Edge-CV oft 3–5k EUR pro Knoten (Industrie-PC + GPU) als Richtwert. Zentral im RZ hängt es von Parallelität und Modellen ab. Starten Sie klein, messen Sie Auslastung, skalieren Sie schrittweise.
Software: Open-Source-Bausteine senken Lizenzkosten, erhöhen aber Betriebsaufwand. Bewerten Sie TCO inkl. Wartung, Security-Updates, Schulungen.
Datenlabeling: Planen Sie Zeit der Fachkräfte als Budget. Active Learning + halbautomatisierte Tools beschleunigen.
Externe Partner: Wählen Sie Partner, die Software übergeben können (Code, Pipelines, IaC) – nicht nur Modelle zeigen.

9) Konkrete Checkliste für Ihren Start in den nächsten 30 Tagen