Imported Post 2026-04-21 00:20:59

6) Testarchitektur mit Sicherheitsfokus
Tests sind keine Feature-Screens, sondern Betriebsexperimente mit klarer Beweisabsicht.

Systemtests gegen Worst-Case-Profile: Ressourcen-Engpässe, Failover, degradierte Netze, Clock-Drift, korruptes I/O.

Sicherheitsnetze: Canary-Checks, Watchdogs, Safe-States. Nicht nur implementieren, sondern prüfen und loggen.

HIL/SIL von Sprint 0: Simulationen und echtzeitnahe Loops laufen früh; synthetische Störungen sind Standardfälle.

Für ML/LLM: Guardrail-Tests, kontradiktorische Inputs, „don’t guess“-Policies, Messung von Abstinenz (wie oft lehnt das System Eingaben ab) und Klarheitsmetriken.

7) Veränderung kontrollieren: Change Impact und Architektur-Runway
Jede Änderung bewertet, welche Evidenzen veralten und welche Regressionen zu erwarten sind. Dazu dient ein gemeinsamer Katalog:

Komponententyp: safety-kritisch, sicherheitsrelevant, unkritisch.

Abhängigkeitstiefe: direkte vs. transitive Nutzer.

Nachweisabhängigkeiten: welche Tests/Analysen müssen wiederholt werden?

Release-Gates: Schwellenwerte, ab denen eine Änderung ein höheres Freigabeniveau triggert.

Die Architektur-Runway hält Platz für bevorstehende Änderungen (z. B. Einführung einer neuen Sensorfamilie), damit Partitionen, Schnittstellen und Datendomänen vorbereitet sind – bevor Features darauf aufsetzen.

MVP für sicherheitskritische Systeme: Minimum Verifiable Product

„MVP“ wird oft mit „Schnell was zeigen“ verwechselt. In regulierten Umgebungen ist das gefährlich. Was zählt, ist ein Minimum Verifiable Product – ein Inkrement, das eine Ende-zu-Ende-Fähigkeit inklusive evidenzfähigem Safety- und Security-Nachweis enthält. Es muss klein sein, aber alle Schichten enthalten:

Fachliche Dünnschicht: eine reale Nutzerreise oder Betriebsaufgabe

Technische Dünnschicht: Sensor/Aktor, Verarbeitung, Speicherung, Oberflächen oder Interfaces

Nachweis-Dünnschicht: Hazard/Threat-Referenzen, Testfälle, Logs, SBOM, Signaturen, Reviewer-Freigaben

Betriebs-Dünnschicht: Monitoring/Observability im Zielkontext (auch offline), Rollback und Fallback

Beispielhafte Struktur für ein MVP-Inkrement:

Ziel: Detektiert einen spezifischen Fehlerzustand an einer Baugruppe und initiiert einen sicheren Fallback.

Eingrenzung: Ein Sensortyp, ein Fahrzeug-/Luftfahrzeugmodus, definierte Umweltbedingungen.

Architektur: Safety-Kern bildet die Erkennungslogik deterministisch ab; optionaler ML-Pfad liefert zusätzliche Sensitivität, ist aber strikt über einen Adapter mit Confidence- und Rate-Limits eingebunden; Fallback ist heuristisch belegbar und permanent verfügbar.

Evidenz: Datensatzreferenz (Version und Herkunft), Evaluationsreport inkl. Fehlalarms- und Ausfallraten, Timing-Messungen, HIL-Testprotokolle, SBOM und signierte Build-Provenance, Audit-Log der Reviewer.

Betrieb: On-prem Deployment-Script, Air-Gap-kompatible Artefaktlieferung, Konfigurations-Checksumme, Betriebs-Runbook.

Ein solches MVP kann man verantwortungsvoll in begrenzte Betriebsumgebungen bringen, Telemetrie sammeln (unter Einhaltung von Datenschutz/Souveränität) und den Safety Case Sprint für Sprint verdichten.

Agil heißt auch: Souveränität ernst nehmen

Wer in Europa baut, muss Souveränität nicht als politische Parole, sondern als Systemeigenschaft verstehen:

On-Prem statt Cloud-Zwang: Build-, Test- und Observability-Stacks müssen lokal oder in kundeneigenen Umgebungen lauffähig sein – ohne Funktionsverlust gegenüber der Public-Cloud-Variante.

Datenhoheit: Datenspeicher, Feature Stores, Modellartefakte liegen in kontrollierten Domänen. Transferpfade sind minimal, verschlüsselt und nachvollziehbar.

Abhängigkeiten kapitalisieren, nicht externalisieren: Fremd-APIs (z. B. für KI) sind in regulierten Kernen tabu oder streng isoliert. Wenn generative Komponenten verwendet werden, dann mit kontrollierten Modellen, Offline-Inferenz, eigenen Vektorspeichern und strikter Governance (Policy-Checks, Audit Trails).

Für AI/LLM-Komponenten gilt: Agenten brauchen Observability und Governance wie jedes andere Subsystem. Telemetrie, Policy-Enforcement, Auditierbarkeit und Offline-Betrieb sind Pflicht. Ohne diese Eigenschaften ist eine Zulassungsdiskussion faktisch nicht führbar.

Organisationsmuster: Wie Teams so arbeiten können

Rollen
Technical Owner pro Produktlinie: hütet die Kohärenz von Architektur, Evidenz und Delivery. Nicht zu verwechseln mit dem Product Owner; oft ergänzen sich beide.
Feature Teams entlang der Partitionen, nicht entlang kurzlebiger Services. Jedes Team verantwortet wiederverwendbare Artefakte und deren Evidenz.
System-Engineering-/QA-Chapter: unterstützt mit Methoden, Testarchitektur, Toolchains, Review-Standards. Keine Elfenbeintürme, sondern Enabler.

Zeremonien
Evidence Review (jede 1–2 Wochen): Fokus auf Nachweis-Deltas, nicht auf Demos. „Welche Belege sind neu? Welche Annahmen sind gefallen? Welche Risiken haben wir gesenkt?“
Change-Impact-Klinik: Querschnittsrunde, um bevorstehende Änderungen durch die Evidenz- und Abhängigkeitsmatrix zu ziehen.
Retrospektive mit Metriken: Lead Time for Changes, Mean Time to Evidence (von Commit bis akzeptierter Nachweis), Anteil abstinenter Entscheidungen bei LLM/ML-Komponenten, Rebuild-Reproduzierbarkeit.

Metriken
Mean Time to Evidence statt nur Lead Time: Wie schnell erzeugt eine Änderung die notwendigen Belege?
Repro-Score: Anteil der Builds/Experimente, die deterministisch reproduzierbar sind.
Evidence Coverage: Anteil der Anforderungen/Hazards mit vollständigem Trace von Code zu Test zu Log zu Signatur.
Abstinenz- und Fallback-Rate bei AI: Anteil der Fälle, in denen das System korrekt „nein“ sagt und auf deterministische Pfade fällt.

Typische technische Trade-offs

Microservices vs. modularer Monolith
Microservices bieten Teamautonomie, verkomplizieren aber End-to-End-Traceability, Latenz und Testbarkeit. Für Safety-Kerne ist ein modularer Monolith mit klaren Adaptern oft überlegen. Services bleiben an der Peripherie.
Dynamische vs. statische Kopplung
Dynamisches Linking vereinfacht Updates, erhöht aber die Nachweis-Last bei Abhängigkeitswechseln. In Safety-Kernen: statisch und minimal. In der Peripherie: dynamisch, aber mit SBOM und strengen Gates.
Reaktive Events vs. deterministische Kontrollflüsse
Events skalieren, aber verschleiern Ursachenketten. Für Nachweise sind deterministische Kontrollflüsse mit klarer Protokollierung vorzuziehen, ergänzt um Events für Monitoring/Telemetrie.
KI/ML inline vs. über Adapter
Inline-ML erhöht nicht-deterministisches Verhalten. Besser: ML/LLM über Adapter mit Confidence-Grenzen, Rate-Limits, mensch-in-der-Schleife-Kanälen und sicheren Defaults. Für kritische Entscheidungen immer ein deterministischer Pfad.

Ein exemplarischer Lebenszyklus für ein Inkrement