Imported Post 2026-04-09 00:13:12

2) Datenrechte und OEM-„Überraschungen“
In Mobility/Rail/Manufacturing hängt Telemetrie oft an Lieferverträgen. Ohne explizite Datenrechte gerät die Roadmap ins Stocken.
Gegenmaßnahme: Data-Contracting frühzeitig, Rechte und Nutzungszwecke vertraglich absichern, Pseudonymisierungskonzepte vorlegen.

3) Label-Illusion
Bei visueller Prüfung ist 1% Label-Noise tödlich, bei NER in Wartungslogs erträglich. In Predictive Maintenance sind „Time-to-Failure“-Labels selten eindeutig.
Gegenmaßnahme: Label-Policies, Double-Labeling an kritischen Stellen, Weak Supervision bewusst und dokumentiert, Uncertainty-Aware-Modelle einsetzen.

4) Nichtfunktionale Anforderungen ignoriert

Latenz: 200 ms Budget im HMI vs. 5 s sind Welten.

Verfügbarkeit: OT-Systeme verlangen oft >99.9% und geordnete Degradiertheit ohne Internet.

Auditierbarkeit: Jede automatisch getroffene Entscheidung muss erklärbar und rückverfolgbar sein.

Gegenmaßnahme: NFRs als harte Anforderungen behandeln und früh testen.

5) Vendor-Lock-in in der Wissensinfrastruktur
Vektorspeicher, Embeddings und proprietäre Datenformate sind neue Silos.
Gegenmaßnahme: Offene Formate, Migrationspfade, Exporttests als Teil der CI.

Domänenbeispiele aus der Praxis

Manufacturing: Visuelle End-of-Line-Prüfung

Herausforderung: Klassenimbalance (seltene Fehler), wechselnde Lichtverhältnisse, Linienwechsel.
Architektur: Kontrollierter Bildaufnahmepfad, strikte Versionsverwaltung der Beleuchtung/Kameras, Label-Pipeline mit QA, On-Prem Training, inferenznahe Edge-Deployment mit GPU, Feedback-Loop für Fehlklassifikationen.
Metriken: False-Negative-Rate als harte Obergrenze, MTTR bei Modellrollback, Drift-Indikatoren bei Chargenwechsel.

Predictive Maintenance im Textil-/Prozessumfeld

Herausforderung: Sensor-Drift, Wartungen als Confounder, Multicausalität.
Architektur: CDC aus Wartungs-/Ersatzteil-Logs, Feature-Pipeline mit Lag-Features und Rolling-Stats, probabilistische Modelle neben Deep Learning, Explainability für Werkstattabnahme.
ROI-Hebel: Gezielte Ersatzteil-Dispo, reduzierte unplanmäßige Stillstände, aber nur, wenn False Alarms operativ verkraftbar sind.

Railway: Fleet Intelligence

Herausforderung: Edge-Konnektivität, Store-and-Forward, Flottenheterogenität.
Architektur: Bordseitige Vorverarbeitung, robuste Ingestion mit Quittungen, On-Prem Lakehouse, regel- und modellbasierte Anomaliedetektion, rollenbasierter Zugriff für Leitstelle/Wartung.
Souveränität: Datenresidenz national, klare Trennung Betriebsdaten vs. Personendaten.

Bauvermessung: Skalierbare Photogrammetrie

Herausforderung: Massendaten, deterministische Reproduzierbarkeit.
Architektur: GPU-Cluster On-Prem/EU-Cloud, deterministische Pipelines, Qualitätsmetriken (GSD, RMSE), versionierte Orthomosaike/3D-Modelle, Audit-Trails.

Defense: Air-Gapped Decision Support

Herausforderung: Kein Internet, strikte Audits, wiederholbare Builds.
Architektur: Reproducible Builds, signierte Modelle/Container, LLM-RAG auf klassifizierten Dokumenten, strikte Tool-Allowlisting, mensch-in-der-Schleife.

Aviation Training: EU-Cloud mit Datenminimierung

Herausforderung: Personenbezug, Protokolltransparenz.
Architektur: EU-Region-Deployments, Pseudonymisierung, feingranulare Consent-Modelle, getrennte Vektorräume pro Kunde.

Von POC zu Produktion: ein klarer Pfad

Definition of Done für POC

Repräsentative Datenabdeckung, definierte NFRs, erste Opex-Schätzung, Risikoanalyse (Rechtslage, Betrieb).

Technische Gates vor Produktion

Datenqualität: Alle kritischen Checks grün, Golden Dataset eingefroren.
Sicherheit: Threat Model, Secrets/KMS, Rollen-/Rechtekonzept, Penetrationstest soweit möglich.
Betrieb: Dashboards, Alerts, Runbooks, Rollback-Szenario, Ersatzbetrieb bei Modellausfall.
Validierung: Shadow- oder Canary-Phase, A/B-Tests mit echten Betriebsdaten, Akzeptanzkriterien erfüllt.

Kontinuierliche Verbesserung

Daten-/Modell-Lineage, regelmäßige Drift-Reviews, kontrollierte Re-Trainings, Post-Mortems bei Incidents.

Build vs. Buy unter Souveränitätsauflagen

Buy (SaaS/API), wenn:

Daten nicht sensibel, Latenz/Penetration ins OT-Netz zweitrangig, schnelle Time-to-Value wichtiger als tiefe Integration, Exit-Kosten akzeptabel.

Build/On-Prem, wenn:

Daten sensibel/reguliert, OT-Integration und Offline-Betrieb gefordert, LLM-RAG über proprietäre Dokumente mit ACLs, langfristige TCO durch stabile Workloads planbar.

Hybrid:

Nichtkritische Komponenten als Managed Service, kritische Pfade On-Prem. Wichtig: Saubere Abgrenzung und Fallbacks, falls externe Services ausfallen oder Verträge enden.

Organisation und Rollen

Data Product Owner: Verbindet Business-Outcome mit Datenverträgen.
Data Steward: Qualität, Katalog, Klassifizierung.
ML Engineer: Modelle, Featurization, Evaluation.
MLOps/Platform Engineer: CI/CD, Deployment, Observability, Security.
Domänenexpertinnen: Prozesswissen, Label-Definition, Akzeptanztests.
Security/Legal: DPIA, Datenschutz, Exportkontrolle, Policies.

Team-Topologie, die funktioniert: Stream-Aligned Teams je Domäne, unterstützt von einer Plattform- und einer Enablement-Funktion. RACI-Matrizen verhindern Lücken bei Ownership.

90–180–365-Tage-Roadmap (Beispiel)

0–90 Tage

Business-Outcomes und NFRs definieren.
Dateninventur und Rechteklärung.
Pilot-Datenprodukt und Qualitätschecks als Code.
Minimaler On-Prem-Stack: Orchestrierung, Artefakte, Observability.
POC mit produktionsnahen Daten, Akzeptanzmetriken.

90–180 Tage

Datenprodukte erweitern, CDC/Event-Streaming produktionsreif.
Security-Härtung: KMS, Secrets, Segmentierung, Audits.
MLOps-End-to-End: Train → Register → Deploy → Monitor → Re-Train.
LLM-RAG-Prototyp mit ACL-Respekt, Observability für Retrieval/Antworten.
Shadow-/Canary-Deployments, Runbooks, SRE-Playbooks.

180–365 Tage

Produktionsfreigabe für 1–2 wertstiftende Use Cases.
Skalierung auf zusätzliche Domänen, Wiederverwendbarkeit der Bausteine.
KPI-Review und ROI-Tracking, Lessons Learned institutionalisiert.
Plan für Hardware-Kapazitäten (GPU/CPU/NPU), Lifecycle-Management.

Konkrete technische Entscheidungen, die wir in Souveränitätsprojekten häufig treffen

Vektorspeicher on-prem statt SaaS, weil Zugriffskontrollen, Datenresidenz und Exportpfade kontrollierbar bleiben.
RAG vor Fine-Tuning bei sensiblen Dokumenten, um Trainingsdaten-Leakage zu vermeiden und Wissensstände versionierbar zu halten.
Quantisierte Open-Weight-Modelle für Inferenz im Werk, wenn Latenz/Cost-Budgets eng sind; für komplexe Aufgaben Hybrid mit stärkeren Modellen in EU-Clouds ohne US-Rechtsrisiko.
Feature Store mit Online/Offline-Parität, um Serving-Skews zu vermeiden.
Agent-Observability und Governance als Pflicht, nicht Nice-to-have: Traces, Tool-Calls, Policy-Hits, Token-/Zeit-Budgets, Audit-Trails.

Warum „Datenstrategie vor KI-Strategie“?