2) Event‑Streaming als Rückgrat
- Ereignisgesteuerte Architektur mit genau definierten Zustandsübergängen. In sicherheitskritischen Teilen eher „at‑least‑once + Idempotenz“ statt „exactly‑once‑Magie“.
- Backpressure‑Kontrolle und Flussgrenzen festlegen: Queuelängen, Retries, Dead‑Letter‑Queues, manuelle Interventionspfade.
- Zeit als Erstbürger: Korrekte Zeitstempelung, Clock‑Drift‑Umgang, Replays für Forensik.
3) On‑Prem KI‑Stack (ML/LLM) ohne Abhängigkeit von externen Clouds
- Datenhaltung: Versioniertes, lokal betreibbares Storage mit unveränderlichen Artefakten für Rohdaten, Features, Modelle und Evaluationsläufe.
- Training/Feintuning: Lokale Rechencluster oder Workstations mit reproduzierbaren Umgebungen, deterministischen Seeds, konfigurierbaren Mixed‑Precision‑Pfaden.
- Inferenz: Containerisierte, ressourcenkontrollierte Dienste mit definierten SLAs, lokalem Caching, Degradationsmodi und Request‑Budgetierung.
- Retrieval‑Komponente: Eigene, on‑premise Vektorindizes und Dokumenten‑Pipelines, inklusive PII‑Filter, Klassifizierung und Lebenszyklusregeln.
- Policy‑Ebene: Prompt‑ und Tool‑Policies als Code, signiert, versioniert, mit Freigabeworkflow.
4) Observability und Governance für KI/LLM
- Vollständiges Telemetrie‑Schema: Prompt, Kontext, Tool‑Aufrufe, Modelle, Latenzen, Scores, Abweichung zur Goldreferenz, Policy‑Verletzungen – alles als Events.
- Offline‑Evaluation: Shadow‑Runs, Vergleich alter/neuer Modelle/Policies an fixen Datensätzen, statistische Auswertung vor Rollout.
- Richtlinienkontrolle: Automatisierte Guards (PII‑Schutz, Ausleitverbote, Tool‑Nutzung), Auditable Decisions, Rollback‑Pläne.
- Plattformansatz: Genau hier setzen wir mit Alpi‑M an – Observability und Governance für LLM‑Agenten on‑premise, mit Datenhoheit. Wichtig ist: Die Plattform integriert in Ihr Event‑Schema und Ihre Freigabeketten, nicht umgekehrt.
5) Teststrategie und Quality Gates
- Mehrschichtig testen:
- Unit/Property‑Tests für deterministischen Code.
- Vertrags‑Tests für Schnittstellen.
- Szenario‑Tests mit synthetischen und realen Daten (inkl. Edge‑Cases).
- Metamorphe Tests für ML (Invarianten trotz Transformationen).
- Golden‑Baselines für LLM‑Ausgaben mit Toleranzen und Policy‑Checks.
- Daten- und Modellvalidierung als Pipeline‑Schritte: Kein Modell ohne dokumentierten Evaluationsbericht in Produktion.
- Metriken definieren, die der Betrieb versteht: Fehlerraten pro Szenario, Latenz‑SLOs, Datenvollständigkeit, Drift‑Indikatoren.
6) Air‑Gapped CI/CD und Betrieb
- Artefakt‑Mirrors und interne Registries: Keine Builds aus dem Internet. Signierte Abhängigkeiten, reproduzierbare Builds, SBOM‑Prüfung.
- Staging‑Ringe: Dev → Test → Vorproduktion → Produktion, mit formalen Freigaben und automatisierten, nachvollziehbaren Promotions.
- GitOps für reproduzierbare Deployments: Konfiguration als Code, Rollback‑Fähigkeit, deklaratives Desired State Management.
- Disaster Recovery und Forensik: Getrennte, unveränderliche Backups, Wiederherstellungstests, detaillierte Audit‑Logs.
Ökonomie und Risiko realistisch bewerten
„Buy ist billiger“ stimmt nur, wenn Integrations-, Governance- und Lebenszykluskosten ignoriert werden. Eigenentwicklung lohnt sich, wenn Sie die ökonomischen Hebel explizit machen.
- TCO statt Lizenzkosten: Rechnen Sie Integrationsaufwand, Betrieb, Auditkosten, Rezertifizierungen, Schulungen, Ausfallkosten, EOL‑Migrationen ein.
- Änderungskostenkurve: Je stärker Ihr Umfeld Änderungen kontrollieren muss, desto teurer werden Vendor‑Updates. Eigenentwicklung erlaubt, Änderungen zu bündeln und qualifiziert freizugeben.
- Risiken bündeln: Bauen Sie nur das, was Sie differenziert – Domänenlogik, Integrationsadapter, Governance. Nutzen Sie bewährte Open‑Source‑Bausteine und kommerzielle Komponenten dort, wo sie substituierbar sind (z. B. OS, Container‑Runtime, generische Observability).
- Exit‑Szenarien vor Einkauf definieren: Für jede zugekaufte Komponente ein dokumentierter Migrationspfad (Datenexport, API‑Äquivalenzen, Doppelbetrieb).
Fallvignetten (anonymisiert, Muster aus der Praxis)
Vignette 1: Visuelle Qualitätssicherung in der Fertigung
Ausgangslage: Ein Standard‑Vision‑System versprach „Plug‑and‑Play“. In der Linie stiegen Falsch‑Positiv‑Raten unter variierendem Licht stark an, Updates konnten nur online eingespielt werden, Latenz peakte zu Schichtwechseln.
Ansatz: Eigenes Inferenz‑Gateway nahe am Band, deterministische Pipeline mit fester Pre‑/Post‑Processing‑Zeit, lokales Modell‑Repository und Golden‑Set‑Evaluationsvorstufe. Backpressure‑Pfad mit Puffer und Degradationsmodus (visuelle Flagge, manuelle Inspektion). Ergebnis: Stabiler Durchsatz, auditierbare Änderungen, kontrollierter Offline‑Betrieb.
Vignette 2: Flottenintelligenz im Bahn‑Umfeld
Ausgangslage: SaaS‑Telemetrie‑Plattform kollidierte mit Datenhoheit, Update‑Zyklen unplanbar, KPI‑Reports nicht nachvollziehbar.
Ansatz: On‑prem Streaming‑Backbone, Edge‑Collector mit sicherem Puffer, Feature‑Berechnung als versionierte Jobs, einheitliches Schema, domänenspezifische Metriken. KI‑Modelle als ersetzbare Artefakte, Auswertungen reproduzierbar. Ergebnis: Verkürzte Diagnosezyklen, transparente KPI‑Ketten, Unabhängigkeit von Cloud‑Policy‑Änderungen.
Vignette 3: Wissensarbeit in abgeschotteten Netzen (LLM)
Ausgangslage: Bedarf an Dokumentenauswertung, aber keine externen LLM‑APIs erlaubt, strikte Audit‑Anforderungen.
Ansatz: On‑prem LLM‑Inferenz, Retrieval über lokale Indizes, strenge Policy‑Layer (kein Datenabfluss), vollständiges Prompt/Response‑Logging, Offline‑Evaluationssuiten für Policies. Ergebnis: Produktive Nutzung ohne Souveränitätsverlust, nachvollziehbare Entscheidungen.
Technische Ownership: Der unterschätzte Erfolgsfaktor
Eigenentwicklung scheitert nicht an Technik, sondern an unklarem Eigentum. Technische Ownership heißt:
- Architekturentscheidungen sind dokumentiert, begründet und versioniert. Es gibt einen Ort und eine Person, die „Nein“ sagen darf.
- Das Informationsmodell ist „owned“: Änderungen gehen durch ein Gremium mit Domänen‑ und QA‑Kompetenz.
- Es gibt klare Eigentümer für Schnittstellen, Datenverträge, Pipelines, Betriebsprozesse und Incident‑Pfad. SLAs und Fehlerbudgets sind definiert.
- Build‑Pipelines, Signaturen, Schlüsselmaterial, Registries – alles unter Ihrer Kontrolle. Keine kritische Abhängigkeit von externen Konten.
- Änderungen folgen einem formalen Change‑Prozess mit Risikoabschätzung, Testnachweisen und Freigabe.
Eine kompakte Checkliste