Souveräne KI im Mittelstand: Wo der Einstieg Sinn macht, welche Architektur trägt – und wie man in 12 Wochen zu belastbaren Ergebnissen kommt
Der Mittelstand tickt anders als Konzerne: kleine Teams, kurze Wege, ausgeprägtes Domänenwissen, aber keine Lust auf Hype-Schleifen. Wer hier KI einführt, muss Probleme lösen – nicht bunte Demos zeigen. Und es gibt eine zentrale Prämisse: Souveränität ermöglicht Intelligenz. Ohne Kontrolle über Daten, Modelle und Laufzeitumgebung werden KI-Initiativen im industriellen Umfeld nicht nur riskant, sondern auch fragil.
Dieser Beitrag richtet sich an technische Entscheiderinnen und Entscheider in mittelständischen Industrieunternehmen. Er fokussiert auf drei Fragen:
- Wo ist KI im Mittelstand sinnvoll – und wo nicht?
- Welche Architekturen erlauben DSGVO-konforme Lösungen ohne Abhängigkeit von US-Clouds?
- Wie sieht ein 12‑Wochen‑Fahrplan aus, der in vertretbarer Zeit belastbare Ergebnisse liefert?
1) Wo KI im Mittelstand Sinn macht (und wo nicht)
Nicht jede Aufgabe ist ein KI-Problem, und nicht jedes KI-Problem lohnt sich. Eine nüchterne Einordnung spart Monate.
Sinnvolle Startpunkte
- Visuelle Qualitätsprüfung: Wiederkehrende Oberflächenfehler, Montagekontrolle, Vollständigkeitsprüfungen. Datenlage ist oft vorhanden (Kameras), die Integration in bestehende Prüfstände ist machbar, und Nutzen entsteht sofort an der Linie.
- Zustandsüberwachung von Maschinen: Anomalieerkennung auf Vibration, Stromaufnahme, Temperatur. Geringes Prozessrisiko durch „Beobachten statt Steuern“, schnelle Einsparung durch reduzierte Ausfallzeiten.
- Technische Dokumente durchsuchen statt durchlesen: Retrieval-gestützte Beantwortung interner Fragen aus Handbüchern, Wartungsanleitungen, Lasten-/Pflichtenheften. On‑prem, ohne Datenabfluss.
- Vorgangsklassifikation und Extraktion: Eingehende E‑Mails von Kunden/Lieferanten vorsortieren, Bestellnummern/Daten strukturiert erfassen, Service‑Tickets triagieren. Geringer Integrationsaufwand – hoher kumulativer Effekt.
- Wissensassistenz für interne Prozesse: Richtlinien, SOPs, Compliance‑Checklisten zugänglich machen, inkl. Rollen- und Rechtemodell.
Schlechte Startpunkte
- Safety‑kritische Steuerungen: Wenn Fehlentscheidungen physische Risiken bergen, ist der Reifegrad für autonome KI oft nicht gegeben. Hier nur Diagnose/Empfehlung in „Shadow Mode“, nie direkte Aktorik.
- Projekte ohne Datengrundlage: „Wir haben keine historischen Daten, aber wollen ein Vorhersagemodell“ scheitert fast immer. Erst Datenerfassung und -qualität aufbauen, dann Lernverfahren.
- Diffuse Ziele: „Wir wollen mal KI ausprobieren“ endet in POCs ohne Transfer. Definieren Sie messbare Business‑Metriken vorab (Fehlerquote, Durchlaufzeit, First‑Time‑Right).
- Reine Technologiespielwiese: „Wir brauchen Generative KI“ ist kein Ziel. Die Frage ist: Welches Dokument, welche Entscheidung, welcher Engpass?
Pragmatischer Entscheidungsrahmen (30‑Minuten‑Check)
- Wiederholt sich das Problem mindestens 1000‑mal pro Jahr? Wenn nein, ist manuelle Lösung günstiger.
- Gibt es heute eine regelbasierte Heuristik mit >80% Trefferquote? Wenn ja: KI lohnt nur, wenn die verbleibenden 20% wirtschaftlich relevant sind.
- Liegen mindestens 500–1000 Beispiele (Bilder/Vorgänge/Dokumente) vor oder können in 4 Wochen erzeugt werden? Wenn nein, erst Datenprojekt.
- Ist der Prozess tolerant gegen Fehlklassifikationen (z. B. manuelle Nachprüfung)? Wenn nein, lieber mit Empfehlungssystem und menschlicher Freigabe starten.
- Lässt sich die Lösung air‑gapped oder im isolierten VPC/On‑Prem‑Cluster betreiben? Wenn nein, prüfen Sie DSGVO‑Risiken und Lieferkettenthemen sehr genau.
2) Souveräne Architektur: DSGVO-konforme KI ohne US‑Cloud
Für industrielle Mittelständler ist die Architekturfrage nicht Beiwerk, sondern Kern: Wer kontrolliert Daten, Modell, Laufzeit und Governance? Folgende Muster haben sich für robuste, auditierbare Systeme bewährt.
Kernprinzipien
- Datenminimierung und Kontextkontrolle: Nur die minimal notwendigen Daten in den KI‑Kontext geben. Pseudonymisierung/Maskierung vor jeglicher Inferenz.
- Trennung von Speichern und Rechnen: Rohdaten bleiben im bestehenden Storage (on‑prem NAS/Objektspeicher). Die KI‑Komponenten greifen über schmale, auditierte Schnittstellen zu.
- Reproduzierbarkeit: Jedes Modell, jeder Prompt, jede Pipeline ist versioniert. Gleiches Input führt in Testumgebung zu gleichem Output.
- Policy‑by‑Default: Rollen- und Rechtemodell, Data‑Retention, Export‑Kontrollen und Protokollierung sind Standard – nicht „Add‑On“.
Bausteine für klassische ML‑Use‑Cases (z. B. Bilder, Sensorik)
- Datenaufnahme: Agents/Connectors an Kamera, PLC, SCADA, MES; schreiben in ein unternehmensinternes, versionierbares Rohdaten‑Repository.
- Labeling: On‑prem Labeling‑Tool mit Rollenrechten; aktive Lernstrategien (Uncertainty Sampling), um mit wenigen Labels zu starten und gezielt zu verbessern.
- Trainingsumgebung: Containerisierte Pipelines (z. B. mittels Workflow‑Orchestrierung), reproduzierbar, GPU‑fähig, aber air‑gapped betreibbar.
- Modell‑Registry: Artefakte, Metriken, Testberichte, Daten‑Snapshots; Freigabeprozess mit Vier‑Augen‑Prinzip.
- Inferenz am Rand (Edge) oder on‑prem: Geringe Latenz, keine Datenabflüsse; Health‑Checks, Circuit‑Breaker, Fallback auf Heuristiken.
- Beobachtbarkeit: Eingangsverteilungen (Data Drift), Performanz, Fehlertypen, Rückkopplung ins Training.
Bausteine für Sprach- und Dokumenten‑KI (LLMs) ohne US‑Cloud
- Self‑Hosted Inferenz: Deployment von Sprachmodellen auf eigener Hardware oder europäischer Infrastruktur ohne US‑Rechtsraumabhängigkeit. Für viele Aufgaben reichen mittelgroße Modelle bei sauberer Prompting‑Strategie und guter Retrieval‑Qualität.
- Retrieval‑Augmented Generation (RAG): Keine freien Antworten „aus dem Weltwissen“. Stattdessen: Abfrage nur auf Ihrer kuratierten Wissensbasis (Dokumente, Tickets, SOPs). Vektorspeicher on‑prem, Embeddings lokal erzeugt, Quellen immer zurückgeben.
- Redaktionsschicht vor dem Modell: PII‑Maskierung, Minimierung, Rollenprüfung. Prompt‑Eingaben protokollieren, aber mit irreversibler Hash‑/Tokenisierung sensibler Daten.
- Tool‑Use mit harten Grenzen: Wenn das Modell Aktionen ausführt (Datenbank lesen, Ticket anlegen), dann nur über explizite, freigegebene Tools mit strikten Schemas, Zeitouts und Rate‑Limits. Kein „freier Code‑Interpreter“ in Produktionsnetzen.
- Evaluierung und Governance: Systematisches Testset aus echten, aber anonymisierten Anfragen. Messen von Antwortabdeckung, Quellenkonsistenz, Faktizität. Jede Version des Systems muss diese Gatekeeper‑Tests bestehen, bevor sie in den Pilot geht.