Pragmatische KI im Mittelstand: Wo der Einstieg Sinn macht (und wo nicht) – souverän, on‑prem, ohne US‑Cloud

Der Mittelstand hat keine Zeit für Hype. Wenn KI eingeführt wird, muss sie ein konkretes Produktions- oder Serviceproblem lösen, in bestehende IT/OT-Strukturen passen und rechtlich sauber sein – ohne Datenabfluss in US‑Clouds. Dieser Beitrag richtet sich an CTOs, VP Engineering und Leiter Digitalisierung im industriellen Mittelstand und beantwortet drei Fragen:

  • Welche Probleme eignen sich für einen KI‑Einstieg – und welche nicht?
  • Wie bringen wir in 12 Wochen ein erstes System in die Produktion, on‑prem, DSGVO‑konform?
  • Welche Architekturbausteine und organisatorischen Muster funktionieren in der Praxis?

Der Blick ist bewusst technisch und problemorientiert. Es geht nicht um „KI ist wichtig“, sondern um Architekturen, Trade-offs und Betrieb.

Womit anfangen – und womit explizit nicht

Gute Startpunkte haben gemeinsam:

  • Das Problem existiert heute spürbar (Qualitätskosten, Stillstände, Suchaufwand, Nacharbeit).
  • Datenzugang ist möglich (Sensorik, Bilder, Dokumente) ohne monatelange IT-Hebearbeiten.
  • Es gibt eine kontrollierte Schnittstelle in den Prozess (Lesen/Schreiben), um Wirkung zu zeigen.
  • Das Fehlerbild ist messbar: Es gibt akzeptierte KPIs und Toleranzgrenzen aus der Linie.
  • Die Lösung kann mit klaren Fallbacks neben dem bestehenden Prozess laufen.

Typische sinnvolle Einstiege:

  • Visuelle Qualitätsprüfung an einer klar abgegrenzten Station (Bauteil X, Merkmal Y).
  • Anomalieerkennung an Rotating Equipment (Vibration/Temperatur), erst unsupervised, dann verfeinern.
  • Technische Wissenssuche über Montage- und Service-Dokumente (RAG – Retrieval Augmented Generation) mit lokalem LLM.
  • Ticket- oder Vorfalls-Triage (Klassifikation, Duplikaterkennung) in Service/After-Sales.

Wovon wir abraten für den Einstieg:

  • „Unternehmensweiter KI‑Assistent“ ohne klare Business‑Schnittstelle, der überall ein bisschen helfen soll.
  • Seltene Safety‑kritische Ereignisse ohne ausreichende Datenbasis und ohne Simulationsmöglichkeit.
  • Projekte, die erst ein neues Data Lakehouse, fünf neue Tools und drei Prozesse erfordern, bevor irgendetwas läuft.
  • POCs nur auf PowerPoint‑Niveau, ohne Integration in die reale IT/OT‑Umgebung.

Drei Projekte, die in 12 Wochen Ergebnisse liefern

1) Visuelle Qualitätsprüfung an einer Station

Ziel: Falsch‑Negativ‑Rate für Defekte senken und Prüfzeit stabilisieren.

Datenlage:

  • 1–3 Kameras an einer Station, kontrollierte Beleuchtung.
  • 1–5k Bilder aus realer Linie, minimal gelabelt (OK/NOK). Falls keine Labels: schwache Labels mit Prozessdaten (z. B. Nacharbeit) koppeln.

Architektur grob:

  • Edge‑Inference auf IPC mit GPU‑Beschleunigung.
  • Inferenz‑Service als Container, lokale Model-Registry, Konfig via Git.
  • Bildablage on‑prem, Zugriff via SMB/NAS oder S3‑kompatibles Storage.
  • Integration in SPS/MES via OPC UA oder REST für Rückmeldung/Stop/Andon.

Vorgehen in 12 Wochen:

  • Woche 1–2: Datensichtung, Kameraprüfung, Golden Sample definieren, Labeling‑Policy.
  • Woche 3–4: Baseline Modell (klassische Bildverarbeitung + CNN), Metriken fixieren (Precision/Recall, FPR/FNR).
  • Woche 5–6: Edge‑Deployment im Ghost‑Mode (nur beobachten), Latenz und Stabilität testen, Drift-Monitoring aktivieren.
  • Woche 7–8: Human‑in‑the‑Loop (Operator bestätigt Grenzfälle), aktives Lernen für neue Defekt‑Varianten.
  • Woche 9–10: Fallback‑Design (bei Unsicherheit -> Handprüfung), Alarmierung, Audit‑Logs.
  • Woche 11–12: Abnahme mit Produktion, Schulung, Monitoring-Dashboards, Change‑Freeze.

Besonderheiten Mittelstand:

  • Ein sauberer Licht- und Kamera‑Mount ist oft wichtiger als das nächste „State of the Art“‑Modell.
  • Tolerieren Sie 5–10% Unklar‑Klasse am Anfang und optimieren Sie mit Human‑in‑the‑Loop.

2) Predictive Maintenance für drehende Aggregate

Ziel: Frühwarnzeit vor Ausfällen schaffen und Inspektionsintervalle datenbasiert anpassen.

Datenlage:

  • Vibrationssensorik (AE, Beschleunigung) und Temperatur, 1–5 Hz bis kHz, abhängig von Aggregat.
  • Historie von Störungen/Nacharbeit wünschenswert, aber nicht zwingend.

Architektur grob:

  • Zeitreihenaufnahme on‑prem (TSDB), Feature‑Extraktion (z. B. Spektralmerkmale) als Batch‑Jobs.
  • Unsupervised Anomalie‑Modelle für Start (z. B. Rekonstruktion/Clustering) plus robuste Schwellen.
  • Ereignis‑Pipeline in CMMS/Ticketing, klare Befundtexte, keine Blackbox‑Signale.
  • Edge‑ oder Zellen‑nahe Verarbeitung, um Netzwerkabhängigkeit zu reduzieren.

Vorgehen in 12 Wochen:

  • Woche 1–2: Sensorik‑Check, Datenpfad und Zeitstempel‑Konsistenz sicherstellen.
  • Woche 3–4: Feature‑Baseline, einfache Schwellen, Alarm‑Fatigue vermeiden (konservative Trigger).
  • Woche 5–6: Unsupervised‑Modell anlernen, Rekonstruktionsfehler als Score, Drift‑Detektor aktivieren.
  • Woche 7–8: Ghost‑Mode gegen Wartungslog, Precision/Lead‑Time messen.
  • Woche 9–10: Integration CMMS, differenzierte Schweregrade, Rückmeldeschleife mit Instandhaltung.
  • Woche 11–12: SOP für Alarmklassifikation, Review Zyklen, Monitoring der Modellgüte.

Besonderheiten Mittelstand:

  • Lieber zwei solide Sensoren sauber montiert und kalibriert als zehn halbgare Messpunkte.
  • Starten Sie unsupervised; supervised Klassifikatoren erst, wenn belastbare Labels vorhanden sind.

3) Wissenssuche für Montage/Service (RAG mit lokalem LLM)

Ziel: Technische Fragen zu Varianten, Drehmomenten, Prüfvorschriften schneller beantworten, ohne proprietäre Cloud‑Dienste.

Datenlage:

  • Unstrukturierte Dokumente: PDFs, CAD‑Ableitungen, Bilder, interne Wikis, E‑Mails.
  • Berechtigungen oft fein granuliert (Arbeitsvorbereitung vs. Service vs. Lieferant).

Architektur grob:

  • On‑prem Vektorindex für Text/Tabellen/Bilder, periodische und eventbasierte Indizierung.
  • LLM‑Inference on‑prem (Containerisiert), Prompt‑Templates je Use‑Case, Abruf mit Kontextfenster.
  • Zugriffskontrolle auf Dokumentebene (ABAC), Berechtigungen schon im Retriever erzwingen.
  • Observability/Governance: Pro Prompt Versionierung, Tool‑Calls, Datenherkunft, Redaktions‑Workflows.

Vorgehen in 12 Wochen:

  • Woche 1–2: Korpus definieren, Datenqualität (OCR, Tabellen) heben, Zugriffsklassen klären.
  • Woche 3–4: Retriever‑Baseline, Chunking‑Strategie, Domain‑Synonymlexikon, Passage‑Scoring evaluieren.
  • Woche 5–6: LLM‑Antwort mit Zitaten, keine Halluzinationen durch „Answer only from provided context“-Policy.
  • Woche 7–8: Evaluationssatz aus echten Fragen, Metriken: Retrieval‑Hit@k, Faithfulness, Antwortzeit.
  • Woche 9–10: Integration mit DMS/AD, Audit‑Logs, PII‑Redaktion, Prompt‑Hardening.
  • Woche 11–12: Pilot mit Service‑Team, Feedbackschleifen, Eskalationspfad zu menschlichen Experten.

Besonderheiten Mittelstand:

  • Domänensprache ist Gold. Ein überschaubares Synonym‑ und Abkürzungsverzeichnis bringt oft mehr als ein größeres Modell.
  • Ohne Zugriffskontrolle im Retriever (nicht erst im LLM) entstehen Leaks durch Side‑Channels.

On‑prem Architekturbausteine für datensouveräne KI