9) Häufige Fehlschlüsse – und bessere Alternativen

  • “Wir haben zu wenig Daten.” Oft falsch. Sie haben zu wenig strukturierte, versionierte, vertraglich definierte Daten. Fangen Sie dort an.
  • “Cloud zuerst, dann sichern wir ab.” In regulierten Umgebungen ist das umgekehrt. Souveränitäts- und Sicherheitsanforderungen zuerst, dann Zielplattform wählen.
  • “Wir brauchen ein Riesenmodell.” Nicht, wenn das eigentliche Problem Retrieval, Kontext oder Prozessintegration ist.
  • “POC ist schnell, Betrieb kommt später.” In Wirklichkeit entscheidet der Betrieb über die Architektur des POCs. Sonst bauen Sie wegwerfbare Artefakte.

Konkrete technische Leitplanken zum Mitnehmen

  • Architektur
  • K8s on-prem als Standard-Plattform; GPU-Nodes planbar; Ingress/Egress streng kontrolliert.
  • Modellartefakte als erste Bürger: Registry, Signaturen, SBOM; reproduzierbare Builds.
  • Data Plane klar getrennt (Online vs. Offline). Lineage Ende-zu-Ende.
  • Daten
  • Data Contracts; Validierung in CI/CD; Metriken zu Drift/Qualität im Monitoring.
  • PII-Trennung früh; Schutzstufen; Schlüsselmaterial in HSM/KMS.
  • LLM-spezifisch
  • RAG bevorzugen für Domänenwissen; Embeddings und Indexe on-prem.
  • Prompt-/Tool-Policies als Code; Telemetrie mit PII-Scrubbing.
  • Evaluation: Faithfulness, Groundedness, Kosten, Latenz, Nutzerfeedback.
  • Betrieb
  • Canary/Shadow als Standard; Rollback-Pfade getestet.
  • Runbooks, Alarmpläne, Eskalationsketten; regelmäßige Audits.

Fazit: Wählen Sie Ihre Reibung bewusst
Sie können die Reibung am Anfang haben – in Form von sauberer Problemdefinition, Datenverträgen, souveräner Architektur und Governance. Oder Sie haben sie später – als Audit-Fund, Sicherheitsvorfall, Kostenlawine oder Vendor-Lock-in. In Europa, unter DSGVO, EU AI Act und NIS2, ist Souveränität keine Ideologie, sondern eine Betriebsbedingung. KI kennt Ihr Business nicht. Bringen Sie ihm Ihr Business bei – mit klaren Problemen, belastbaren Daten und einer Architektur, die Sie kontrollieren. Dann liefert KI nicht nur Demos, sondern Ergebnis.

FAQ

Frage 1: Können wir nicht einfach eine große API eines US-Anbieters nutzen und PII vorher entfernen?
Antwort: Für unkritische Use Cases kann das funktionieren. In regulierten Szenarien bleiben jedoch Risiken: Metadaten, Prompt- und Nutzungsdaten sind oft trotzdem personenbezogen oder geschäftskritisch; Reproduzierbarkeit und Auditfähigkeit sind eingeschränkt; Jurisdiktionsrisiken bleiben bestehen. PII-Entfernung reduziert, eliminiert aber nicht alle Compliance- und Souveränitätsfragen.

Frage 2: Reicht Pseudonymisierung, um DSGVO-Themen zu lösen?
Antwort: Pseudonymisierte Daten gelten in der Regel weiterhin als personenbezogen, wenn eine Re-Identifikation möglich ist. Effektiv sind Kombinationen: Datenminimierung, klare Zweckbindung, frühzeitige Trennung/Maskierung, technische und organisatorische Maßnahmen sowie saubere Rechtsgrundlagen. Planen Sie Datenflüsse so, dass PII gar nicht erst in generische KI-Komponenten gelangen.

Frage 3: Sind Open-Source-Modelle wirklich eine Alternative in Produktion?
Antwort: Ja, wenn Sie Reproduzierbarkeit, Lizenzkonformität und Betriebsfähigkeit sicherstellen. In industriellen Domänen erzielen kleinere, lokal angepasste Modelle mit gutem Retrieval häufig bessere, auditierbare Ergebnisse als große, externe Modelle. Wichtig sind ein solider Feintuning-/Adapter-Workflow, eine Modell-Registry, signierte Artefakte und regelmäßige Evaluation.

Frage 4: Wie kommen wir aus einem bestehenden Cloud-Lock-in heraus?
Antwort: Definieren Sie zunächst eine neutrale Schnittstelle: Datenverträge, Modell- und Prompt-Formate, Telemetrie-Spezifikationen. Migrieren Sie Retrieval und sensible Komponenten zuerst on-prem oder in eine souveräne Cloud. Ersetzen Sie proprietäre SDKs durch Gateway-Services (z. B. interne API, die verschiedene Backends sprechen kann). Parallel bauen Sie Observability und Governance auf, damit die Migration messbar und auditierbar bleibt.

Frage 5: Wir haben noch keine perfekte Datenbasis. Sollen wir warten?
Antwort: Nein. Starten Sie mit einem minimalen, aber sauberen Datenpfad, der versioniert, validiert und auditierbar ist. Bauen Sie zuerst eine baseline ohne KI. Dann ergänzen Sie gezielt KI-Komponenten dort, wo der Nutzen nachweisbar ist. Die Datenqualität verbessert sich am schnellsten in produktionsnahen Schleifen, nicht im Labor.

Ende.