2) Dokumenten-Extraktion in Einkauf oder Service

  • Problem: Halbstrukturierte PDFs/Scans (Bestellungen, Prüfzertifikate, Serviceberichte) erfordern manuelle Erfassung.
  • Daten: 300–1000 Belege mit Ground‑Truth‑Felder (Lieferant, Positionsnummern, Maße, Seriennummern).
  • Architektur:
  • OCR on‑prem (Tesseract, PaddleOCR, TrOCR je nach Sprache/Schrift).
  • Layout-Analyse (z. B. LayoutLMv3 oder heuristische Segmentierung).
  • Extraktion: Regel‑Engine plus LLM als Fallback für unklares Layout, mit strengem Output‑Schema (JSON‑Schema Validierung).
  • Post‑Processing: Validierung gegen Stammdaten (ERP), Confidence‑Scoring -> Mensch im Loop bei Unsicherheit.
  • Speicherung: On‑prem Queue + Data Lake, Audit‑Trail je Dokument.
  • Modellstrategie:
  • 80/20 über Regeln/Regex + Validierung; LLM lokal nur für schwierige Fälle.
  • Embedding‑Suche für Tabellen/Positionsmapping.
  • Erfolgsmessung:
  • Feldgenaue Precision/Recall, Zeitersparnis pro Dokument, Prozent vollständig automatisiert.
  • Compliance:
  • PII‑Schwärzung in Persistenzschicht, Zugriff nur rollenbasiert, kein Outbound.

3) Anomalieerkennung in Maschinendaten (Predictive Maintenance light)

  • Problem: Unerwartete Stillstände kosten; vollständige Labelsets fehlen.
  • Daten: Sensorkanäle (Vibration, Strom, Temperatur) mit 1–10 Hz, Wochen bis Monate Historie.
  • Architektur:
  • Datenaufnahme via OPC UA/MQTT in on‑prem Time‑Series DB (TimescaleDB, InfluxDB).
  • Feature‑Pipelines (Statistiken, Frequenzbänder), Modelle als Services neben DB.
  • Dashboards on‑prem; Alarmierung mit Hysterese und Deadbands, Integration in bestehende Leitstände.
  • Modellstrategie:
  • Unüberwacht: Isolation Forest, Spectral Residual, Autoencoder.
  • Pro Aggregat ein Modell; Baselines pro Schicht/Betriebsmodus.
  • Feedback‑Schleife: Operator markiert Alarme als “nützlich/nicht”, Threshold‑Tuning zyklisch.
  • Erfolgsmessung:
  • Mean Time Between Alarms, Anteil “guter” Alarme laut Operator, Frühwarnzeit vor Ereignissen.
  • Edge‑Einsatz:
  • Inferenz auf IPC mit CPU möglich; GPU nur bei hoher Kanalzahl nötig.

Ein 90‑Tage‑Plan, der in der Praxis trägt

Tage 0–10: Use‑Case-Scoping

  • Problem-Statement schreiben: Was genau wird verbessert, wie messen wir Erfolg?
  • Datenpfad skizzieren: Wo kommen Daten her, wie greifen wir zu, wer verantwortet?
  • Abnahmekriterien definieren: Metriken, Gate für Go/No‑Go Pilot.

Tage 11–20: Daten- und Architektur-Assessment

  • Datenqualität prüfen: Stichprobe, Label‑Machbarkeit, Datenschutzklasse.
  • Zielarchitektur festlegen: On‑prem Komponenten, Netzwerkzonen, Egress‑Politik, IAM.
  • Risiken und Annahmen dokumentieren (ADRs).

Tage 21–40: Baselines und technische Enablement

  • Baseline ohne KI aufsetzen (Regeln/Schwellenwerte/Heuristiken).
  • MLOps‑Minimalstack hinstellen: Git, Container Registry, Model Registry, Monitoring.
  • Annotierungsplan/Tooling für die nächsten 4 Wochen.

Tage 41–60: POC unter Realbedingungen

  • Erstes Modell trainieren und an echter Schnittstelle testen.
  • Observability: Metriken, Logs, Traces; Fehlerklassen analysieren.
  • Sicherheit: Egress‑Kontrollen testen, Secrets‑Handling, Audit‑Logs.

Tage 61–80: Pilot stabilisieren

  • Performance‑Tuning, Drift‑Handling, Feedback‑Schleife schließen.
  • Betriebskonzepte: Backup/Restore, Update‑Pfad, Rollback.
  • Nutzertraining und Handover‑Dokumentation.

Tage 81–90: Entscheidungsvorlage

  • Kosten/Nutzen, Risiken, To‑Dos für produktiven Rollout.
  • Architektur-Review, Security-Review, Data‑Protection‑Check.
  • Roadmap für Phase 2 (Skalierung, zusätzliche Stationen/Belege/Aggregate).

Warum Mittelstand hier oft schneller ist als Konzerne

  • Fokus: Ein klarer Engpass und ein dediziertes, kleines Team schlagen 15 Stakeholder-Runden.
  • Eigentum an Prozessen und Daten: Kürzere Wege zur Linie/Werkstatt, schnelleres Feedback.
  • Architekturdisziplin statt Tool‑Zoo: Ein schlanker, selbst gehosteter Stack ist wartbarer als fünf Cloud‑Dienste plus Integrationslast.

Was Mittelständler aktiv managen müssen

  • Single‑Point of Failure vermeiden: Technische Ownership klar regeln, Bus‑Faktor > 1.
  • Lieferkettenrisiko: SBOMs verlangen, Updateprozesse fordern, keine Black‑Box‑Abhängigkeiten.
  • Technische Schuld begrenzen: Von Beginn an Tests, Versionierung, Reproduzierbarkeit.

Pragmatischer Minimal‑Stack für souveräne KI

  • Versionsverwaltung: Git mit klaren Branch‑Policies, ADR‑Ordner im Repo.
  • Daten-/Modell‑Versionierung: DVC oder einfache, bewusste Artefaktpflege mit Checksums; Model Registry (MLflow o. Ä.) on‑prem.
  • Containerisierung: Docker/Podman, signierte Images, private Registry.
  • Orchestrierung: Lightweight (Docker Compose) für POC/Pilot, Kubernetes erst bei Bedarf (HA, Multi‑Tenant).
  • Observability: Metriken (Prometheus), Logs (Loki/ELK), Traces je nach Bedarf.
  • Security: Secrets‑Management, Egress‑Policies, signierte Builds, SBOM‑Pflicht.
  • LLM‑Governance: Prompt-/Response‑Logging, RBAC bis auf Tool‑Ebene, definierte Guardrails; ein Observability‑/Governance‑Layer ist Pflicht, ob eigengebaut oder als Plattform.

Beispielarchitektur für ein souveränes LLM‑Assistenzsystem im Service

  • Wissensquellen: PDF‑Handbücher, interne Wikis, Wartungsprotokolle in einem on‑prem DMS.
  • Ingestion: Konnektor extrahiert Text + Metadaten, führt Chunking und Embedding on‑prem durch, speichert in Vektorstore (pgvector in Postgres).
  • Inferenzservice: Lokal deploytes LLM (z. B. 7B–13B quantisiert) hinter API‑Gateway, ohne Internetzugriff.
  • Retrieval‑Layer: Query -> semantische Suche mit strikter Filterung (Anlagen‑Typ, Baujahr, Sprache) -> kontextualisierte Prompt‑Vorlage.
  • Tooling: Funktionsaufrufe für Ersatzteilsuche (nur lesend), Ticketanlage (schreibend mit RBAC).
  • Guardrails: Output‑Schema, Quellen‑Zitate verpflichtend, Confidence‑Score; bei Unsicherheit Übergabe an Menschen.
  • Observability: Pro Anfrage werden Embeddings, Dokumentquellen, Prompt, Antwort, Latenz, Kostenstellen-Tagging und Feedback erfasst.
  • Sicherheit: Egress‑Firewall, Secrets im Vault, Audit‑Pfad unveränderlich.

Kennzahlen, die wirklich steuern

  • Technisch: Latenz p95, Throughput, Fehlerraten je Klasse, Drift‑Indikatoren, Ressourcenauslastung.
  • Fachlich: Einsparungen je Einheit (Minuten, Ausschuss, Nacharbeit), Erstlösungsquote, Alarme‑Präzision, Nutzerakzeptanz.
  • Betrieb: MTTR bei Rollbacks, Zeit bis Modell‑Update, Anteil reproduzierbarer Builds.

Risiken und Abmilderungen

  • Daten-Drift: Regelmäßige Re‑Evaluation, Canary‑Releases, automatisierte Tests auf repräsentativen Batches.
  • “Glue‑Code‑Hölle”: Klare Serviceschnittstellen, ADRs, regelmäßiges Refactoring.
  • Sicherheitslücken in Third‑Party: SBOM‑Pflicht, CVE‑Scanning in CI, Update‑Fenster definieren.
  • Abhängigkeit von Einzelpersonen: Pairing, Code‑Reviews, Runbooks, On‑Call‑Rotation.
  • Scope Creep: Harte Abnahmekriterien je Phase, Feature‑Freeze vor Pilot.

Beschaffungs‑Checkliste für souveräne KI‑Bausteine