Imported Post 2026-05-07 00:12:14

1) Brauchen wir erst einen Data Lake, bevor wir anfangen?

Sie brauchen kein perfektes Lakehouse für alle Daten, aber Sie brauchen eine produktionsreife Pipeline für den konkreten Use Case: Ingestion mit Data Contract, ACID-Tabellenformat (Delta/Iceberg), Katalog, Zugriffskontrolle. Bauen Sie “just enough” Lakehouse für den ersten Datenpfad statt einen monolithischen Data Lake.

2) Können wir DSGVO-konform mit LLMs arbeiten?

Ja, wenn: Datenklassifizierung und Zweckbindung umgesetzt sind, PII vor Embedding/Indexing maskiert wird, Modelle und Indizes on-prem/EU betrieben werden, Zugriff ABAC-gesteuert ist und jede Antwort auditierbar bleibt. Externe US-APIs mit personenbezogenen/geschäftskritischen Daten sind in der Regel ein No-Go.

3) Wie gehe ich mit Legacy-Systemen (SAP ECC, S7/SCADA) um?

Nicht mit CSV-Exports. Nutzen Sie CDC (z. B. SLT/ODP, Debezium) für ERP/SQL, und OPC UA/MTConnect-Gateways für Steuerungen. Legen Sie Data Contracts auf Topic-/Tabellenebene fest, versionieren Sie Schemas, und bauen Sie Idempotenz in die Consumer ein. Für Systeme ohne Events bleibt ein zeitgesteuerter Extract mit Deduplizierung, aber planen Sie den Umstieg auf Events.

4) Wann lohnt sich Fine-Tuning gegenüber RAG?

Fine-Tuning lohnt bei stabilen, wiederkehrenden Mustern (Policy, Stil, wiederholte Formulierungen) oder wenn RAG die domänenspezifische Sprache nicht ausreichend abbildet. Für Faktenwissen und sich ändernde Inhalte ist RAG robuster, günstiger und auditierbar. Starten Sie mit RAG und ergänzen Sie bei Bedarf ein leichtes LoRA-Finetune.

5) Wie groß muss das Team sein?

Für den 90-Tage-Track reichen 5–7 Leute: 1 Data Engineer (Ingestion/Contracts), 1 Plattform-Engineer (K8s/Security), 1–2 ML/LLM-Engineers (Features/RAG/Serving), 1 Analyst/Domain SME, 1 Product Owner. Später domänenweise skalieren. Kritisch ist Seniorität im Betrieb (Infra/Security), nicht die Anzahl der Prompt Engineers.

Wenn Sie nur eine Sache heute entscheiden wollen: Definieren Sie für einen konkreten Use Case den Data Contract an der Quelle, wählen Sie Ihr ACID-Tabellenformat und setzen Sie ein minimales, aber betreibbares Lakehouse mit Katalog und Zugriffskontrolle auf. Danach ist jedes Gespräch über Modelle plötzlich rational. Souveränität ermöglicht Intelligenz—nicht umgekehrt.