6) Testarchitektur mit Sicherheitsfokus
Tests sind keine Feature-Screens, sondern Betriebsexperimente mit klarer Beweisabsicht.

  • Systemtests gegen Worst-Case-Profile: Ressourcen-Engpässe, Failover, degradierte Netze, Clock-Drift, korruptes I/O.
  • Sicherheitsnetze: Canary-Checks, Watchdogs, Safe-States. Nicht nur implementieren, sondern prüfen und loggen.
  • HIL/SIL von Sprint 0: Simulationen und echtzeitnahe Loops laufen früh; synthetische Störungen sind Standardfälle.
  • Für ML/LLM: Guardrail-Tests, kontradiktorische Inputs, „don’t guess“-Policies, Messung von Abstinenz (wie oft lehnt das System Eingaben ab) und Klarheitsmetriken.

7) Veränderung kontrollieren: Change Impact und Architektur-Runway
Jede Änderung bewertet, welche Evidenzen veralten und welche Regressionen zu erwarten sind. Dazu dient ein gemeinsamer Katalog:

  • Komponententyp: safety-kritisch, sicherheitsrelevant, unkritisch.
  • Abhängigkeitstiefe: direkte vs. transitive Nutzer.
  • Nachweisabhängigkeiten: welche Tests/Analysen müssen wiederholt werden?
  • Release-Gates: Schwellenwerte, ab denen eine Änderung ein höheres Freigabeniveau triggert.

Die Architektur-Runway hält Platz für bevorstehende Änderungen (z. B. Einführung einer neuen Sensorfamilie), damit Partitionen, Schnittstellen und Datendomänen vorbereitet sind – bevor Features darauf aufsetzen.

MVP für sicherheitskritische Systeme: Minimum Verifiable Product

„MVP“ wird oft mit „Schnell was zeigen“ verwechselt. In regulierten Umgebungen ist das gefährlich. Was zählt, ist ein Minimum Verifiable Product – ein Inkrement, das eine Ende-zu-Ende-Fähigkeit inklusive evidenzfähigem Safety- und Security-Nachweis enthält. Es muss klein sein, aber alle Schichten enthalten:

  • Fachliche Dünnschicht: eine reale Nutzerreise oder Betriebsaufgabe
  • Technische Dünnschicht: Sensor/Aktor, Verarbeitung, Speicherung, Oberflächen oder Interfaces
  • Nachweis-Dünnschicht: Hazard/Threat-Referenzen, Testfälle, Logs, SBOM, Signaturen, Reviewer-Freigaben
  • Betriebs-Dünnschicht: Monitoring/Observability im Zielkontext (auch offline), Rollback und Fallback

Beispielhafte Struktur für ein MVP-Inkrement:

  • Ziel: Detektiert einen spezifischen Fehlerzustand an einer Baugruppe und initiiert einen sicheren Fallback.
  • Eingrenzung: Ein Sensortyp, ein Fahrzeug-/Luftfahrzeugmodus, definierte Umweltbedingungen.
  • Architektur: Safety-Kern bildet die Erkennungslogik deterministisch ab; optionaler ML-Pfad liefert zusätzliche Sensitivität, ist aber strikt über einen Adapter mit Confidence- und Rate-Limits eingebunden; Fallback ist heuristisch belegbar und permanent verfügbar.
  • Evidenz: Datensatzreferenz (Version und Herkunft), Evaluationsreport inkl. Fehlalarms- und Ausfallraten, Timing-Messungen, HIL-Testprotokolle, SBOM und signierte Build-Provenance, Audit-Log der Reviewer.
  • Betrieb: On-prem Deployment-Script, Air-Gap-kompatible Artefaktlieferung, Konfigurations-Checksumme, Betriebs-Runbook.

Ein solches MVP kann man verantwortungsvoll in begrenzte Betriebsumgebungen bringen, Telemetrie sammeln (unter Einhaltung von Datenschutz/Souveränität) und den Safety Case Sprint für Sprint verdichten.

Agil heißt auch: Souveränität ernst nehmen

Wer in Europa baut, muss Souveränität nicht als politische Parole, sondern als Systemeigenschaft verstehen:

  • On-Prem statt Cloud-Zwang: Build-, Test- und Observability-Stacks müssen lokal oder in kundeneigenen Umgebungen lauffähig sein – ohne Funktionsverlust gegenüber der Public-Cloud-Variante.
  • Datenhoheit: Datenspeicher, Feature Stores, Modellartefakte liegen in kontrollierten Domänen. Transferpfade sind minimal, verschlüsselt und nachvollziehbar.
  • Abhängigkeiten kapitalisieren, nicht externalisieren: Fremd-APIs (z. B. für KI) sind in regulierten Kernen tabu oder streng isoliert. Wenn generative Komponenten verwendet werden, dann mit kontrollierten Modellen, Offline-Inferenz, eigenen Vektorspeichern und strikter Governance (Policy-Checks, Audit Trails).

Für AI/LLM-Komponenten gilt: Agenten brauchen Observability und Governance wie jedes andere Subsystem. Telemetrie, Policy-Enforcement, Auditierbarkeit und Offline-Betrieb sind Pflicht. Ohne diese Eigenschaften ist eine Zulassungsdiskussion faktisch nicht führbar.

Organisationsmuster: Wie Teams so arbeiten können

  • Rollen
  • Technical Owner pro Produktlinie: hütet die Kohärenz von Architektur, Evidenz und Delivery. Nicht zu verwechseln mit dem Product Owner; oft ergänzen sich beide.
  • Feature Teams entlang der Partitionen, nicht entlang kurzlebiger Services. Jedes Team verantwortet wiederverwendbare Artefakte und deren Evidenz.
  • System-Engineering-/QA-Chapter: unterstützt mit Methoden, Testarchitektur, Toolchains, Review-Standards. Keine Elfenbeintürme, sondern Enabler.
  • Zeremonien
  • Evidence Review (jede 1–2 Wochen): Fokus auf Nachweis-Deltas, nicht auf Demos. „Welche Belege sind neu? Welche Annahmen sind gefallen? Welche Risiken haben wir gesenkt?“
  • Change-Impact-Klinik: Querschnittsrunde, um bevorstehende Änderungen durch die Evidenz- und Abhängigkeitsmatrix zu ziehen.
  • Retrospektive mit Metriken: Lead Time for Changes, Mean Time to Evidence (von Commit bis akzeptierter Nachweis), Anteil abstinenter Entscheidungen bei LLM/ML-Komponenten, Rebuild-Reproduzierbarkeit.
  • Metriken
  • Mean Time to Evidence statt nur Lead Time: Wie schnell erzeugt eine Änderung die notwendigen Belege?
  • Repro-Score: Anteil der Builds/Experimente, die deterministisch reproduzierbar sind.
  • Evidence Coverage: Anteil der Anforderungen/Hazards mit vollständigem Trace von Code zu Test zu Log zu Signatur.
  • Abstinenz- und Fallback-Rate bei AI: Anteil der Fälle, in denen das System korrekt „nein“ sagt und auf deterministische Pfade fällt.

Typische technische Trade-offs

  • Microservices vs. modularer Monolith
  • Microservices bieten Teamautonomie, verkomplizieren aber End-to-End-Traceability, Latenz und Testbarkeit. Für Safety-Kerne ist ein modularer Monolith mit klaren Adaptern oft überlegen. Services bleiben an der Peripherie.
  • Dynamische vs. statische Kopplung
  • Dynamisches Linking vereinfacht Updates, erhöht aber die Nachweis-Last bei Abhängigkeitswechseln. In Safety-Kernen: statisch und minimal. In der Peripherie: dynamisch, aber mit SBOM und strengen Gates.
  • Reaktive Events vs. deterministische Kontrollflüsse
  • Events skalieren, aber verschleiern Ursachenketten. Für Nachweise sind deterministische Kontrollflüsse mit klarer Protokollierung vorzuziehen, ergänzt um Events für Monitoring/Telemetrie.
  • KI/ML inline vs. über Adapter
  • Inline-ML erhöht nicht-deterministisches Verhalten. Besser: ML/LLM über Adapter mit Confidence-Grenzen, Rate-Limits, mensch-in-der-Schleife-Kanälen und sicheren Defaults. Für kritische Entscheidungen immer ein deterministischer Pfad.

Ein exemplarischer Lebenszyklus für ein Inkrement