Imported Post 2026-04-08 00:15:12

Pragmatische KI im Mittelstand: Wo der Einstieg Sinn macht (und wo nicht) – souverän, on‑prem, ohne US‑Cloud

Der Mittelstand hat keine Zeit für Hype. Wenn KI eingeführt wird, muss sie ein konkretes Produktions- oder Serviceproblem lösen, in bestehende IT/OT-Strukturen passen und rechtlich sauber sein – ohne Datenabfluss in US‑Clouds. Dieser Beitrag richtet sich an CTOs, VP Engineering und Leiter Digitalisierung im industriellen Mittelstand und beantwortet drei Fragen:

Welche Probleme eignen sich für einen KI‑Einstieg – und welche nicht?

Wie bringen wir in 12 Wochen ein erstes System in die Produktion, on‑prem, DSGVO‑konform?

Welche Architekturbausteine und organisatorischen Muster funktionieren in der Praxis?

Der Blick ist bewusst technisch und problemorientiert. Es geht nicht um „KI ist wichtig“, sondern um Architekturen, Trade-offs und Betrieb.

Womit anfangen – und womit explizit nicht

Gute Startpunkte haben gemeinsam:

Das Problem existiert heute spürbar (Qualitätskosten, Stillstände, Suchaufwand, Nacharbeit).

Datenzugang ist möglich (Sensorik, Bilder, Dokumente) ohne monatelange IT-Hebearbeiten.

Es gibt eine kontrollierte Schnittstelle in den Prozess (Lesen/Schreiben), um Wirkung zu zeigen.

Das Fehlerbild ist messbar: Es gibt akzeptierte KPIs und Toleranzgrenzen aus der Linie.

Die Lösung kann mit klaren Fallbacks neben dem bestehenden Prozess laufen.

Typische sinnvolle Einstiege:

Visuelle Qualitätsprüfung an einer klar abgegrenzten Station (Bauteil X, Merkmal Y).

Anomalieerkennung an Rotating Equipment (Vibration/Temperatur), erst unsupervised, dann verfeinern.

Technische Wissenssuche über Montage- und Service-Dokumente (RAG – Retrieval Augmented Generation) mit lokalem LLM.

Ticket- oder Vorfalls-Triage (Klassifikation, Duplikaterkennung) in Service/After-Sales.

Wovon wir abraten für den Einstieg:

„Unternehmensweiter KI‑Assistent“ ohne klare Business‑Schnittstelle, der überall ein bisschen helfen soll.

Seltene Safety‑kritische Ereignisse ohne ausreichende Datenbasis und ohne Simulationsmöglichkeit.

Projekte, die erst ein neues Data Lakehouse, fünf neue Tools und drei Prozesse erfordern, bevor irgendetwas läuft.

POCs nur auf PowerPoint‑Niveau, ohne Integration in die reale IT/OT‑Umgebung.

Drei Projekte, die in 12 Wochen Ergebnisse liefern

1) Visuelle Qualitätsprüfung an einer Station

Ziel: Falsch‑Negativ‑Rate für Defekte senken und Prüfzeit stabilisieren.

Datenlage:

1–3 Kameras an einer Station, kontrollierte Beleuchtung.

1–5k Bilder aus realer Linie, minimal gelabelt (OK/NOK). Falls keine Labels: schwache Labels mit Prozessdaten (z. B. Nacharbeit) koppeln.

Architektur grob:

Edge‑Inference auf IPC mit GPU‑Beschleunigung.

Inferenz‑Service als Container, lokale Model-Registry, Konfig via Git.

Bildablage on‑prem, Zugriff via SMB/NAS oder S3‑kompatibles Storage.

Integration in SPS/MES via OPC UA oder REST für Rückmeldung/Stop/Andon.

Vorgehen in 12 Wochen:

Woche 1–2: Datensichtung, Kameraprüfung, Golden Sample definieren, Labeling‑Policy.

Woche 3–4: Baseline Modell (klassische Bildverarbeitung + CNN), Metriken fixieren (Precision/Recall, FPR/FNR).

Woche 5–6: Edge‑Deployment im Ghost‑Mode (nur beobachten), Latenz und Stabilität testen, Drift-Monitoring aktivieren.

Woche 7–8: Human‑in‑the‑Loop (Operator bestätigt Grenzfälle), aktives Lernen für neue Defekt‑Varianten.

Woche 9–10: Fallback‑Design (bei Unsicherheit -> Handprüfung), Alarmierung, Audit‑Logs.

Woche 11–12: Abnahme mit Produktion, Schulung, Monitoring-Dashboards, Change‑Freeze.

Besonderheiten Mittelstand:

Ein sauberer Licht- und Kamera‑Mount ist oft wichtiger als das nächste „State of the Art“‑Modell.

Tolerieren Sie 5–10% Unklar‑Klasse am Anfang und optimieren Sie mit Human‑in‑the‑Loop.

2) Predictive Maintenance für drehende Aggregate

Ziel: Frühwarnzeit vor Ausfällen schaffen und Inspektionsintervalle datenbasiert anpassen.

Datenlage:

Vibrationssensorik (AE, Beschleunigung) und Temperatur, 1–5 Hz bis kHz, abhängig von Aggregat.

Historie von Störungen/Nacharbeit wünschenswert, aber nicht zwingend.

Architektur grob:

Zeitreihenaufnahme on‑prem (TSDB), Feature‑Extraktion (z. B. Spektralmerkmale) als Batch‑Jobs.

Unsupervised Anomalie‑Modelle für Start (z. B. Rekonstruktion/Clustering) plus robuste Schwellen.

Ereignis‑Pipeline in CMMS/Ticketing, klare Befundtexte, keine Blackbox‑Signale.

Edge‑ oder Zellen‑nahe Verarbeitung, um Netzwerkabhängigkeit zu reduzieren.

Vorgehen in 12 Wochen:

Woche 1–2: Sensorik‑Check, Datenpfad und Zeitstempel‑Konsistenz sicherstellen.

Woche 3–4: Feature‑Baseline, einfache Schwellen, Alarm‑Fatigue vermeiden (konservative Trigger).

Woche 5–6: Unsupervised‑Modell anlernen, Rekonstruktionsfehler als Score, Drift‑Detektor aktivieren.

Woche 7–8: Ghost‑Mode gegen Wartungslog, Precision/Lead‑Time messen.

Woche 9–10: Integration CMMS, differenzierte Schweregrade, Rückmeldeschleife mit Instandhaltung.

Woche 11–12: SOP für Alarmklassifikation, Review Zyklen, Monitoring der Modellgüte.

Besonderheiten Mittelstand:

Lieber zwei solide Sensoren sauber montiert und kalibriert als zehn halbgare Messpunkte.

Starten Sie unsupervised; supervised Klassifikatoren erst, wenn belastbare Labels vorhanden sind.

3) Wissenssuche für Montage/Service (RAG mit lokalem LLM)

Ziel: Technische Fragen zu Varianten, Drehmomenten, Prüfvorschriften schneller beantworten, ohne proprietäre Cloud‑Dienste.

Datenlage:

Unstrukturierte Dokumente: PDFs, CAD‑Ableitungen, Bilder, interne Wikis, E‑Mails.

Berechtigungen oft fein granuliert (Arbeitsvorbereitung vs. Service vs. Lieferant).

Architektur grob:

On‑prem Vektorindex für Text/Tabellen/Bilder, periodische und eventbasierte Indizierung.

LLM‑Inference on‑prem (Containerisiert), Prompt‑Templates je Use‑Case, Abruf mit Kontextfenster.

Zugriffskontrolle auf Dokumentebene (ABAC), Berechtigungen schon im Retriever erzwingen.

Observability/Governance: Pro Prompt Versionierung, Tool‑Calls, Datenherkunft, Redaktions‑Workflows.

Vorgehen in 12 Wochen:

Woche 1–2: Korpus definieren, Datenqualität (OCR, Tabellen) heben, Zugriffsklassen klären.

Woche 3–4: Retriever‑Baseline, Chunking‑Strategie, Domain‑Synonymlexikon, Passage‑Scoring evaluieren.

Woche 5–6: LLM‑Antwort mit Zitaten, keine Halluzinationen durch „Answer only from provided context“-Policy.

Woche 7–8: Evaluationssatz aus echten Fragen, Metriken: Retrieval‑Hit@k, Faithfulness, Antwortzeit.

Woche 9–10: Integration mit DMS/AD, Audit‑Logs, PII‑Redaktion, Prompt‑Hardening.

Woche 11–12: Pilot mit Service‑Team, Feedbackschleifen, Eskalationspfad zu menschlichen Experten.

Besonderheiten Mittelstand:

Domänensprache ist Gold. Ein überschaubares Synonym‑ und Abkürzungsverzeichnis bringt oft mehr als ein größeres Modell.

Ohne Zugriffskontrolle im Retriever (nicht erst im LLM) entstehen Leaks durch Side‑Channels.

On‑prem Architekturbausteine für datensouveräne KI