Imported Post 2026-04-22 00:15:12

Datenstrategie vor KI-Strategie: KI kennt dein Business nicht

These:
KI kennt dein Business nicht. Sprachmodelle sind generisch, Ihr Betrieb ist es nicht. Wer heute „erstmal ein LLM anschließt“ und später über Daten, Souveränität und Produktionstauglichkeit nachdenkt, scheitert zuverlässig am Übergang vom POC zum Betrieb. Wenn Sie in DACH/Europa arbeiten, mit sensiblen Fertigungs-, Bahn-, Defence- oder Lieferketten-Daten, gilt umso mehr: Souveränität ermöglicht Intelligenz. Erst die saubere Problemformulierung, dann die Datenprodukte, dann die Architektur – und erst am Ende die Modellauswahl.

Worum es wirklich geht
KI ist kein Selbstzweck. Sie ist ein Automatisierungsmittel in konkreten Entscheidungs- und Wertschöpfungsketten. Das Engineering-Problem lautet selten „Wie nutze ich die neueste Model-API?“, sondern:

Welche Entscheidung will ich schneller, robuster oder günstiger treffen?
Welche Eingangsdaten habe ich heute verlässlich? In welcher Qualität? Mit welchen Zugriffsbeschränkungen?
In welcher Laufzeit, mit welchem Fehlertoleranzfenster, mit welchem Audit-Anforderungsprofil?
Welche Nebenbedingungen gelten: DSGVO, ITAR-ähnliche Exportrestriktionen, Luft-/Bahn-spezifische Safety Cases, Werksnetzwerke ohne Internet?

Ohne diese Leitplanken kann kein Modell – so stark es auch sein mag – das gewünschte Ergebnis liefern.

Datenstrategie vor KI-Strategie
„Wir haben Daten“ ist kein Datenprodukt. Bevor Sie „KI“ sagen, definieren Sie:

1) Datenprodukte statt Datenhaufen

Ausgangslage: Systeminventar (MES, SCADA, ERP, PLM, DMS, Flotten-Telemetrie, Ticketsysteme)

Ziel: stabile, versionierte, dokumentierte Datenprodukte mit klaren Eigentümern

Vertragsförmige Schemas (Avro/Protobuf/JSON Schema)

Datenqualitäts-SLAs (Vollständigkeit, Frische, Dublettenrate, Ausreißerquoten)

Semantik und Geschäftsbegriffe (Glossar, Ontologie, eindeutige Kennungen)

Lineage: woher kommt welches Feld, welche Transformationslogik?

2) Zugriff und Souveränität

Zugriff: RBAC/ABAC über Identity-Provider, technische Service-Identitäten, least privilege

Zweckbindung: Welche Modelle dürfen welche Felder zu welchem Zweck nutzen?

DSGVO: Datenminimierung, Pseudonymisierung, Löschkonzepte; Auditierbarkeit aller Zugriffe

Speicherort: On-Premises oder EU-Sovereign-Cloud; keine unkontrollierten Exfiltrationen zu US-APIs, wenn Datenlage das verbietet

3) Operative Eigenschaften

Änderungsmanagement: Versionierung, Contract-Testing zwischen Datenerzeugern und KI-Verbrauchern

Observability: Metriken über Latenzen, Backfills, Fehlerraten; reproduzierbare Snapshots für Trainings/Evals

Kostenmodelle: Datenvolumina, Rechenlast, GPU-Bedarf, Growth-Kurven

Ohne diese Grundlagen verläuft jede „KI-Strategie“ in Experimenten, die in der Produktion nicht tragfähig sind.

Architektur: Von POC zu Produktion – ohne Überraschungen
Der gefährlichste POC ist der, der „funktioniert“, aber keine Produktionspfade hat: Public-API, keine Datenverträge, kein Logging, keine Guardrails. Besser: Planen Sie Produktion vom ersten Tag – mit klaren Gates.

Ein belastbares Muster für industrielle LLM-/ML-Systeme:

1) Ingestion und Vorverarbeitung

Quellen: DMS (PDF, CAD-Exporte), Sensorik (Zeitreihen), Tickets, E-Mails, Wikis

Verarbeitung:

OCR (bei Scans), Layout-Parsing (Tabellen/Schaltpläne), Strukturerhalt (Überschriften, Abschnitte)

Chunking mit semantischen Grenzen (Kapitel, Abschnitte, Tabellenzeilen)

Metadaten-Pflege: Gültigkeitsbereich, Version, Sicherheitsfreigaben

Qualität: Validierung gegen Schemas; fehlertolerante Pipelines (Dead-Letter-Queues)

2) Speicherung

Dokumente: Objektspeicher on-prem (z. B. S3-kompatibel, WORM-fähig für Audit)

Indizes:

Volltext (BM25) für präzise Keyword-Suchen

Vektorindex (z. B. pgvector/Milvus) mit Mandantenfähigkeit und Verschlüsselung

Optional: Graph-Beziehungen (z. B. Bauteil/Variante/Revision)

3) Modellschicht

Retrieval-augmented Generation (RAG) statt blindem Modellwissen

Retriever: Hybrid (BM25 + Vektor), Domain-Reranking (Cross-Encoder)

LLM-Laufzeit: On-Prem Inferenz (z. B. vLLM/TensorRT-LLM), niedrige Latenzen, feste Kostenkontrolle

Prompt-Orchestrierung: versionierte Templates, strukturierte Ausgaben (JSON-Schema), strikte Constraints

Alternative/Nebenpfade:

Klassische ML (Vision, Zeitreihen) für deterministische Subprobleme (Defekterkennung, Ausfallprognose)

Adapter-/LoRA-Feintuning nur, wenn RAG nicht reicht und Daten wirklich vorliegen

4) Tooling/Agentik (kontrolliert)

Funktionsaufrufe mit klaren Verträgen: idempotent, Side-Effect-Grenzen, Timeouts, Dry-Run-Modus

Event-getriebene Integration (Kafka/NATS) statt ad-hoc-Skripte

Policy-Layer: Welche Rolle darf welche Tools ausführen? Welche Parameter? Unter welchen Bedingungen?

5) Governance & Observability

Tracing: Eingaben, abgerufene Kontexte, Modell-/Prompt-Version, Token-Nutzung

Redaction: PII-/Geheimnis-Filter vor Persistenz von Traces

Guardrails: Blacklists/Regex/Parser, Schema-Validatoren, Safety-Filter; Fallback-Strategien und Circuit-Breaker

Evals: Gold-Datasets, Regressionstests, Szenarien (Knowledge-Groundedness, Halluzinationen, Tool-Fehler)

Audit: Unveränderliche Logs, nachvollziehbare Entscheidungen, Freigabe-Workflows

6) Betrieb

Paketierung: Container mit signierten Artefakten (SBOM, Lizenz-Prüfung)

Deployment: Kubernetes on-prem, Network Policies, egress deny by default; Air-Gap-fähig

SLOs: Antwortzeiten, Fehlerraten, Verfügbarkeiten; Burn-in-Phase mit Shadow Traffic

Drift Detection: Daten-/Leistungsdrift, Re-Index-/Retrain-Cadence, Rollbacks (Canary)

Souveränität ist eine Architektureigenschaft
„On-Prem“ ist kein Dogma, sondern eine Funktion Ihrer Risiko- und Regulierungslandschaft. In vielen europäischen Industrien ist sie nicht verhandelbar. Konkrete Designentscheidungen:

Modelldependenzen: Bevorzugen Sie Modelle, die on-prem lizenziert und betrieben werden dürfen. Prüfen Sie Lizenztexte auf Nutzungs- und Weitergaberechte. Halten Sie eine Modellregistry mit Freigabestati.
Datenflusskontrolle: Zero-Trust im internen Netz; egress-Kontrollen per Namespace/Service; kein Implizit-Traffic zu Drittanbietern.
Air-Gap-Strategien: Offline-Updates von Modellen/Embeddings; Artefakt-Signing; reproduzierbare Builds.
Geheimnismanagement: HSM/Secrets-Vault; Rotationspläne; Trennung von Daten- und Steuerungsnetz.

Und: Souveränität muss auch für LLM-Agenten gelten. Ein Agent, der unkontrolliert Aufträge in ERP, PLM oder Ticketingsystemen ausführt, ist ein Risiko. Observability und Governance sind nicht „nice to have“, sie sind Betriebsvoraussetzung. Wir setzen in Projekten eine dedizierte Observability- und Governance-Schicht ein, die LLM-Interaktionen, Tool-Aufrufe, Policies und Freigaben nachvollziehbar macht – und zwar on-prem.

RAG richtig bauen: Ein industrielles Blueprint
Beispiel „Technische Dokumentation in der Fertigung“: