2) Zweischichtige CI/CD
- Schicht A (Entwicklungsnetz) hat volle Internetnähe, lädt Upstream-Dependencies, baut, testet, signiert.
- Schicht B (Produktions-/Werksnetz) ist offline, repliziert nur die signierten Ergebnisse. Dependency-Auflösung findet nie in B statt.
Trade-off: Etwas mehr Infrastrukturpflege (Mirrors, Signaturverwaltung), dafür geringes Supply-Chain-Risiko im Produktionsnetz.
3) Modularer Monolith statt 20 Microservices
- In streng regulierten Umgebungen sind Change-Approval-Prozesse teuer. Jeder zusätzliche deploybare Service vergrößert Oberflächen und Audit-Aufwand.
- Ein modularer Monolith mit klaren Bounded Contexts und internen Modulen erlaubt stabile öffentliche Schnittstellen, minimiert aber Betriebsrisiko (eine Deploy-Einheit, weniger Netzkomplexität).
Trade-off: Weniger feinkörnliche Skalierung, dafür weniger Netzwerkfehler, leichteres Debugging, konsistente Transaktionen.
4) Ereignisgetriebene Datenpipelines mit Append-only-Log
- Für Nachvollziehbarkeit ist ein append-only Event-Log wertvoll. Modelle können asynchron neu rechnen, Korrekturen erfolgen mit Korrektur-Events, nicht Retro-Edits.
- In on-prem-Umgebungen ist die Retention bewusst zu dimensionieren; Speicher ist endlich. Kompaktierung (Snapshots + Event-Trimming) einplanen.
Trade-off: Entwicklerdisziplin erforderlich; Lernen im Team, dass sich Zustände aus Events rekonstruieren.
5) Datentransfer über definierte Quarantäne
- Kein „mal eben“ SFTP ins Produktionsnetz. Stattdessen definierte Quarantäne-Zone (Dioden-Pattern oder striktes Gatekeeping), in der Artefakte und Daten geprüft und signiert werden.
- Für Metriken/Logs: Batch-Exporte als signierte, verschlüsselte Bundles, die in ein Analyse-Backend in einem weniger restriktiven Netz importiert werden.
Trade-off: Weniger Live-Transparenz, dafür forensische Sicherheit.
6) Schlüssel- und Secret-Management unter eigener Hoheit
- Interne HSM/KMS-Instanzen oder softwarebasierte KMS mit strikter Schlüsselrotation. Verschlüsselung at-rest und in-flight ist Standard; wichtiger ist der Backup- und Recovery-Pfad für Schlüssel.
- Secrets nie in Container-Images; Auslieferung über deklarative Mechanismen mit kurzlebigen Tokens.
Trade-off: Betrieb eines KMS verlangt Prozessreife; lohnt sich ab dem ersten Audit.
Observability ohne SaaS: so geht’s
- Metriken: Fokus auf SLO-relevante Kennzahlen; hohe Kardinalität vermeiden. Aggregation an der Quelle spart Storage.
- Logs: Strukturierte Logs mit festen Schemata; WORM-ähnliche Speicherung für Audit-Trails.
- Traces: Sampling, definierte Spans an kritischen Schnittstellen; Trace-IDs in Audit-Events mitschreiben.
- Korrelation: Einheitliche Korrelations-IDs über Services/Module hinweg.
- Offline-Analytics: Regelmäßige Exporte in ein Analyse-Netz; dort Dashboards und Langzeitauswertungen. In der Produktionsdomäne nur so viel Visualisierung, wie für Operabilität nötig.
Typische Anti-Patterns und wie man sie vermeidet
- SaaS-Heartbeat-Abhängigkeiten: Eine Lizenz- oder Telemetrieprüfung gegen das Internet macht die Anlage abhängig von fremder Verfügbarkeit. Lösung: Lizenzpakete zeitlich begrenzt offline aktivieren; Telemetrie als Batch.
- „Microservice-Friedhof“: 30 kleine Dienste in einer Umgebung mit engen Change-Fenstern multiplizieren den Audit-Aufwand. Lösung: Modularer Monolith oder wenige gut begrenzte Services, die echte unabhängige Skalierungsprofile haben.
- „Lift-and-Shift“ von Cloud-Tooling: Ein Observability-Stack, der in der Cloud durch Managed Services getragen wird, bricht on-prem an Storage- und Pflegeaufwand. Lösung: Schlank starten, Metriken und Logs bewusst auswählen, Retention begrenzen, Kompression und Rollups früh einplanen.
- Externe Identitätsanker: Workloads, die beim Start gegen externe OIDC-/STS-Provider telefonieren, stehen im Air-Gap. Lösung: Lokale Identitätsprovider spiegeln oder eigenständig betreiben; Trust-Ketten klar definieren.
Fallbeispiel: Visuelle Inspektion in der Fertigung
Problem: Kameras überprüfen Teile am Band. Entscheidungen müssen in <10 ms fallen. Bilder sind sensibel, Rückschlüsse auf Taktzeiten und Prozessqualität unerwünscht. Ein Cloud-Roundtrip ist ausgeschlossen.
Lösungsskizze:
- Datenebene: Kamerastreams landen in einem Edge-Knoten mit GPU. Inferenz-Engine läuft containerisiert, Modelle sind versioniert, checksum-verifiziert. Cache für zuletzt N Modelle, um Rollbacks in Sekunden zu ermöglichen.
- Kontrollebene: Release-Agent zieht signierte Artefakt-Bundles aus einer Quarantäne-Zone. Rollout erfolgt Blau/Grün; Shadow-Modus speist Live-Bilder in das neue Modell, vergleicht Entscheidungen, schreibt Abweichungen ins Audit-Log.
- Identitätsebene: Interne PKI stellt Zertifikate für Edge-Knoten und Workloads aus. mTLS zwischen Kamera-Gateway, Inferenz-Engine und Qualitätssystem.
- Observability: Lokaler Metrics-Store mit SLOs (Latenz-P50/P99, Dropped Frames), strukturierte Logs mit Modell-ID und Trace-ID. Wöchentlicher Export der Statistiken zur zentralen Analyse.
- Modellpflege: Trainingsdaten werden on-prem kuratiert. Wenn Cloud-Compute gewünscht ist, dann nur mit synthetischen/entschärften Daten. Fine-Tuning auf Originaldaten findet on-prem statt. Modelle kommen als signiertes Paket zurück.
Trade-offs: Cloud wird nur für elastische Vorarbeiten genutzt; Produktionsentscheidungen und sensible Daten bleiben vor Ort. Betriebsaufwand steigt moderat (PKI, Registry, Artefaktfluss), dafür hohe Robustheit und Auditierbarkeit.
LLM/GenAI in regulierten Netzen: realistisch gedacht
Sprachmodelle und Agenten sind nützlich – solange die Steuerung stimmt. Zwei Grundprinzipien:
- Modelle als Artefakte: Kein Laufzeit-Streaming in fremde APIs für produktionskritische Aufgaben. Stattdessen Modelle paketieren, hashbasiert versionieren, Ressourcenprofil messen (RAM, VRAM), und on-prem inferieren.
- Governance und Observability: Prompts, Tool-Aufrufe, Kontextfenster und Ausgaben müssen nachvollziehbar sein. Agenten dürfen nur definierte Tools nutzen, Policies entscheiden deterministisch, wann was erlaubt ist.
Wir haben dafür Alpi-M gebaut – eine Plattform, die LLM-Agenten beobachtbar und steuerbar macht, speziell für on-prem Deployments. Wichtige Mechanismen:
- Agent-Execution-Log: Jede Entscheidung, jedes Tooling, Entitäten im Kontext. Exportierbar als Audit-Artefakt.
- Policy durchsetzbar: Tool- und Datenzugriffe sind explizit genehmigt/abgelehnt, nicht „best effort“.
- Deployment-agnostisch: Funktioniert in air-gapped Netzen; Bundles werden wie andere Software-Artefakte gehandhabt.
Wichtig: Ein LLM ist kein Freifahrtschein. In regulierten Netzen zählt die Schnittstelle zum Rest der Welt. Agenten ohne harte Guardrails sind ein Risiko, on-prem wie in der Cloud.
Wie man die Technologieauswahl problemorientiert trifft