Titel: Pragmatische KI im Mittelstand: Wo Sie starten sollten, wie Sie souverän bleiben – und warum kleinere Teams im Vorteil sind

Einführung

Wenn mittelständische Industrieunternehmen über KI sprechen, landet die Diskussion oft zu schnell bei Modellen und GPU-Größen. Das ist der falsche Einstieg. Der richtige Einstieg beginnt mit der Frage: Welches konkrete technische Problem wollen wir in einem klar abgegrenzten Prozessschritt unter realen Randbedingungen lösen – und lässt sich der Nutzen in 12 Wochen messen?

Aus Projekten in Bereichen wie Fertigungsprüfung, Bahn-Fleet-Intelligence, Bauvermessung, Textil-Predictive-Maintenance oder einem Cloud-basierten Training für Piloten sehen wir immer wieder dieselben Muster: Souveränität ist die Voraussetzung für belastbare Intelligenz. Konkret heißt das: Daten bleiben unter Kontrolle (DSGVO-konform, ohne Abhängigkeit von US-Clouds). Die Lösung ist integriert und betreibbar (on-prem oder kontrolliert hybrid). Und die Architektur folgt dem Prozess – nicht dem Hype.

In diesem Beitrag skizzieren wir einen praxisnahen Fahrplan:

  • Wo der Einstieg Sinn macht (und wo nicht)
  • Ein minimales, aber tragfähiges Architektur-Blueprint für datensouveräne KI on-prem
  • Ein 12-Wochen-Fahrplan bis zu messbaren Ergebnissen
  • Trade-offs bei LLMs, Computer Vision und Edge-Inferenz
  • Governance, Observability und DSGVO in der Praxis – ohne US-Cloud
  • Warum der Mittelstand bei KI oft schneller ist – und welche Stolpersteine Sie vermeiden sollten

1) Wo der Einstieg Sinn macht – und wo nicht

Gute Ersteinsatzfelder im Mittelstand haben drei Eigenschaften:

  • Datenzugang ist beherrschbar: Sie kommen an die relevanten Daten ohne monatelange ERP- oder IT-Großprojekte. Beispielquellen: Kamerastreams, SPS/MES-Daten via OPC UA/MQTT, Wartungsprotokolle, technische Handbücher als PDFs.
  • Der Prozess ist scharf umrissen: Wenige Schnittstellen, klare Betreiber, messbare Metriken. Ein Werk, eine Linie, ein Maschinentyp, ein Dokumentkorpus.
  • Der Nutzen ist nah am Kerngeschäft: Ausschussreduktion, kürzere Stillstände, weniger Fehlteile, schnellere Einarbeitung von Personal.

Bewährte Erstprojekte

  • Visuelle Qualitätsprüfung/Assembly-Fehlererkennung: Edge-Kamera, minimale Latenz, mensch-in-the-loop für Grenzfälle. Vorteil: Direkter KPI (False-Reject-Rate, Durchsatz).
  • Dokumentenassistenz für Instandhaltung und Montage: Retrieval-augmented Generation (RAG) auf eigenen Handbüchern, SOPs und Störungsberichten. Vorteil: Kurze Time-to-Value, gut eingrenzbar, kein Abfluss sensibler Daten nötig.
  • Predictive Maintenance für einen eng definierten Aggregat-Typ: Ein Maschinentyp, definierte Sensoren, Ziel “Frühwarnung X Stunden vor Ausfall” – nicht “alles vorhersagen”.
  • Flotten-/Anlagenintelligenz light: Konsolidierte Sicht auf Telemetriedaten mit einfachen Anomalie-Detektoren statt „End-to-End-Data-Lake“.

Projekte, die als Erstprojekt selten funktionieren

  • Chatbots „für alles“: Unklare Zielgruppe, diffuses Wissensuniversum, schwierige Erfolgsmessung.
  • Konzernweite Data-Lake-Programme: Für Mittelstand überdimensioniert, hoher Overhead, Nutzen spät.
  • Unklare Optimierer („Plant Scheduling mit KI“), wenn die Eingangsdaten volatil oder nicht digitalisiert sind.
  • Safety-/Zulassungskritische Autonomie ohne Vorlauf: Erst Simulation/Shadow-Mode aufbauen, dann schrittweise Freigabe.

Ein einfacher Eignungs-Score (0–2 je Kriterium)

  • Datenzugriff in 4 Wochen lösbar
  • Erfolgsmessung in 12 Wochen möglich
  • Ein Stakeholder-Team (Fachbereich + IT + Betrieb)
  • Sicherheits-/DSGVO-Risiko beherrschbar
  • Integration ohne Big-Bang

Ab 7 Punkten: guter Kandidat für den Start.

2) Architektur-Blueprint für datensouveräne KI on-prem

Das Ziel ist nicht „State of the Art“, sondern „State of Done“: So wenig Bausteine wie nötig, so robust wie möglich. Ein bewährtes Minimal-Setup:

Datenebene

  • Ingestion:
  • Industriell: OPC UA, MQTT, S7, CSV-Drops aus MES/ERP, Fileshares.
  • Dokumente: Filecrawler für PDFs/DOCX, Metadaten-Extraktion, OCR nur wo nötig.
  • Storage:
  • Zeitreihen: Postgres/TimescaleDB – reicht in 90 % der Mittelstandsfälle.
  • Objekt-Store: MinIO on-prem für Artefakte, Bilder, Modelle.
  • Vektorsuche: pgvector in Postgres, bevor man Milvus/Weaviate evaluiert. Weniger bewegliche Teile, leichter zu betreiben.

Modellebene

  • Computer Vision: ONNX Runtime oder TensorRT für Inferenz. Training initial in einer kontrollierten EU-Cloud oder on-prem Workstation; Artefakte wandern in den on-prem Objekt-Store.
  • LLM/RAG:
  • Modellhosting: vLLM/text-generation-inference für 7–13B Modelle, ggfs. quantisiert. Für schmale Q&A-Lasten sind 7B-Modelle plus gutes Retrieval oft ausreichend.
  • Retrieval: RAG-Pipeline mit pgvector, Dokumentensplitter, Embeddings (lokal generiert).
  • Keine Calls in externe US-APIs für produktive Systeme. Daten und Prompt/Completion-Logs bleiben on-prem.
  • Agenten: Tool-Use strikt allow-listen (z. B. nur ERP-Teilelookup, DMS-Suche). Observability/Guardrails on-prem betreiben. Für diesen Baustein setzen wir in Projekten auf eine Klasse von Plattformen wie Alpi-M (LLM-Agent Observability & Governance), um Prompt-Flows, Tool-Aufrufe, Redaktionsregeln und Audit-Trails zentral zu erzwingen.

Betriebsebene

  • Orchestrierung: Starten Sie mit Docker Compose oder k3s statt „Voll-Kubernetes“. Wichtig ist reproduzierbarer Betrieb, nicht Feature-Overflow.
  • CI/CD: GitLab on-prem, Artefakt-Registry, Infrastructure as Code für reproduzierbare Deployments.
  • Identity: Keycloak für SSO/Rollen, damit keine Schatten-Accounts entstehen.
  • Monitoring/Logs: Prometheus/Grafana, Loki. Metriken für Modelle (Latenz, Fehlerraten) neben Systemmetriken.
  • ML-Assets: Git + DVC (Data Version Control) oder MLflow on-prem; beides reicht für Versionierung und Reproduzierbarkeit.

Netzwerk- und Sicherheitsprinzipien

  • Datenflüsse minimal und gerichtet: Edge -> Zentrale; keine unnötigen Rückkanäle.
  • Air-Gap-fähig planen: Updates per signierten Artefakten, kein Zwang zu Internetzugang.
  • Protokollierung: Alle Modellversionen, Trainingsdaten-Snapshots, Prompt-/Antwort-Logs (pseudonymisiert wo nötig) versionieren.

Drei typische Deployment-Patterns

  • Edge-only Vision: Kamera + Jetson/Industrie-PC, inference lokal, nur Metadaten ins Werknetz. Niedrigste Latenz, höchste Souveränität.
  • Zentrales on-prem Cluster: Mehrere Fachanwendungen teilen sich GPU/CPU-Ressourcen; Identity, Monitoring, Vektor- und Objektspeicher zentral.
  • Hybrid-Entwicklung, on-prem Betrieb: Training/Prototyping in EU-Cloud, produktive Inferenz on-prem. Produktionsdaten bleiben im Haus; nur synthetische/annotierte Samples verlassen das Werk.

3) 12 Wochen bis zu messbaren Ergebnissen

Ziel: Ein System, das in der Produktion/Operation „Shadow Mode“ läuft, messbare Metriken liefert und einen klaren Go/No-Go erlaubt. Beispiel-Fahrplan: