Eventgesteuerte Prozess-Agent-Orchestrierung

Roadmap für die Skalierung von KI-Agenten im modernen Unternehmen

A Roadmap for Scaling AI Agents in the Modern Enterprise
  • Insight
  • 10 minute read
  • 02/06/25
Sebastian Ahrens

Sebastian Ahrens

AI Center of Excellence Leader, PwC Switzerland

Lilia  Christofi

Lilia Christofi

EMEA FS Data, AI and Tech Lead, PwC United Kingdom

In Zusammenarbeit mit:

Johnny Chivers, EMEA AWS Technical Director
Aidan Caffrey, Distinguished Architect and UK FS Data and AI Engineering Lead

Unternehmen aus verschiedenen Branchen sind sich der transformativen Kraft von KI-Agenten bewusst: Sie optimieren Abläufe und bewältigen komplexe Geschäftsaufgaben in grossem Massstab. Mit zunehmender Komplexität treten jedoch bei vielen Implementierungen Probleme auf. Diese betreffen die Verwaltung des Status, die Sicherstellung der Skalierbarkeit sowie die Aufrechterhaltung der Betriebsstabilität. In diesem Beitrag wird das eventgesteuerte Framework Apache Kafka vorgestellt, das Nachrichtenübermittlung und BPMN-basierte Prozessorchestrierung nutzt, um die für moderne Unternehmen erforderliche Ausfallsicherheit, Effizienz und Compliance zu gewährleisten.

Unser Executive Playbook über agentische KI

Bei PwC sind wir Vorreiter bei der Integration von agentischer KI in Finanzdienstleistungen und helfen Unternehmen, intelligentere und anpassungsfähigere Entscheidungen zu treffen.

Playbook herunterladen

Die wichtigsten Herausforderungen bei der Skalierung von KI-Agenten

  1. Aufrechterhaltung eines kohärenten Systemzustands 
    Wenn sich KI-Agenten innerhalb eines Systems vermehren, wird die Verwaltung einer einzigen, zuverlässigen Datenquelle schwierig. Herkömmliche, synchrone Service-to-Service-Integrationen erhöhen oft die Latenz und Komplexität und führen zu Leistungsengpässen, die Teilausfälle oder Verlangsamungen verursachen. Für Unternehmen, die mit Finanztransaktionen oder regulierten Daten (z. B. im Gesundheitswesen) umgehen, sind eine konsistente Statusverwaltung und minimale Ausfallzeiten unverzichtbar.

  2. Überwindung von Engpässen bei der Skalierbarkeit 
    Viele KI-gesteuerte Systeme können bei Spitzenlasten nur schwer skaliert werden. Durch direkte Service-Integrationen können Systeme in starre architektonische Beschränkungen eingebunden werden, wodurch die Fähigkeit zur unabhängigen Skalierung von Komponenten eingeschränkt wird. Zudem erweist sich die Verarbeitung grosser Mengen an eventgesteuerten Daten bei gleichzeitiger Wahrung der Datenkonsistenz oft als Engpass. Das Ergebnis ist ein System, das Datenverkehrsspitzen oder saisonale Schwankungen nicht nahtlos auffangen kann.
  3. Regulatorische Compliance und Beobachtbarkeit
    In stark regulierten Sektoren muss jede Transaktion überprüfbar sein. KI-gestützte Entscheidungen erfordern Rückverfolgbarkeit und Erklärbarkeit. Die Aufrechterhaltung der Beobachtbarkeit – zur Erkennung von Modellabweichungen, potenziellen Verzerrungen oder Anomalien – führt häufig zu einem zusätzlichen Systemaufwand, der eine robuste Protokollierung und leicht überprüfbare Ereignisprotokolle erfordert.

Eventgesteuerter Orchestrierungsansatz

Um diese Herausforderungen zu bewältigen, schlagen wir einen eventgesteuerten Prozess vor, der Folgendes miteinander verbindet:

  • Apache Kafka für asynchrone Messaging- und Ereignisprotokollierung.

  • BPMN-basierte Orchestrierung (z. B. Camunda 8 powered by Zeebe) für die Verwaltung länger andauernder Workflows und Entscheidungsbäume.

Rahmenwerk für eventgesteuerte KI-Agenten​

Implementation Architecture Data Flow​

Anstelle von direkten Aufrufen zwischen KI-Diensten wird jedes Ereignis in Kafka veröffentlicht, sodass Agenten und Dienste asynchron arbeiten können. Zentrale Vorteile:

  • Nahtlose Skalierbarkeit 
    Einzelne Komponenten (z. B. Transkription oder Betrugserkennung) werden unabhängig voneinander basierend auf dem Message-Durchsatz skaliert. Wenn es zu einem plötzlichen Anstieg kommt (Spitzentag im Handel, E-Commerce-Flash-Sale), müssen nur die relevanten Komponenten skaliert werden.

  • Resilienz und Fehlertoleranz 
    Mithilfe des Ereignisprotokolls von Kafka kann das System Ereignisse nach Ausfallzeiten oder Störungen wiedergeben. Dies ist in regulierten Bereichen wie dem Finanz- und Gesundheitswesen, in denen Datenverluste keine Option sind, von entscheidender Bedeutung.

  • Klare Trennung der Anliegen 
    Die BPMN-basierte Orchestrierung übernimmt den Geschäftsprozessablauf, während sich KI-Agenten auf Analyse und Entscheidungsfindung konzentrieren. Dieser modulare Aufbau reduziert die Komplexität und verbessert die Wartbarkeit.

Wie BPMN und Kafka interagieren

  1. Ein lang andauernder Geschäftsprozess wird in BPMN modelliert (z. B. die Vergabe von Darlehen oder ein komplexer sprachbasierter Kundensupport). 
  2. Jeder Prozessschritt wird Ereignissen zugewiesen, die durch Kafka-Themen laufen. 
  3. KI-Agenten registrieren sich für relevante Kafka-Themen, verarbeiten die Ereignisse (z. B. durch Ausführen eines maschinellen Lernmodells) und veröffentlichen die Ergebnisse wieder auf Kafka. 
  4. Die BPMN-Engine überwacht bestimmte Ereignisse, um den Workflow in die nächste Phase zu überführen – vollständig entkoppelt von den KI-Diensten selbst. 

Durch diese lose Kopplung können Unternehmen einzelne KI-Aufgaben, Geschäftslogik oder Compliance-Schritte anpassen, ohne das gesamte System aus dem Gleichgewicht zu bringen. 

Implementation Architecture Data Flow

Implementation Architecture Data Flow​

Fallstudien: Praktische Implementierungen

  1. Konversationsbasierte KI in grossem Massstab 
    Eine konversationsbasierte KI-Anwendung nutzt Azure Speech Services für Sprachinteraktionen in Echtzeit. Audiodaten werden in Kafka gestreamt, wodurch separate Dienste für die Umwandlung von Sprache in Text, eine kontextbezogene Antwortgenerierung und die Umwandlung von Text in Sprache ausgelöst werden. Jedes Ergebnis wird als Ereignis veröffentlicht, sodass Microservices asynchron reagieren können. Durch die Entkopplung der einzelnen Schritte lässt sich das System horizontal auf Tausende gleichzeitiger Sitzungen skalieren, wobei eine geringe Latenz beibehalten wird. 
  2. Direkte Voice-to-Voice-KI-Modelle 
    In erweiterten Setups verarbeiten KI-Modelle Spracheingaben direkt und generieren synthetische Sprachausgaben in Echtzeit, wobei sie Textvermittler umgehen. Beispielsweise können Frameworks wie WaveNet von Google, Whisper von OpenAI oder SeamlessM4T von Meta die Audioeingabe und -ausgabe verarbeiten. 
    • Eventgesteuerter Ablauf: Kafka-Themen verwalten jede Phase (Verarbeitung der Spracheingabe, Absichtserkennung, Antwortgenerierung, Sprachsynthese) asynchron.
    • Skalierung und Latenz: Edge-Computing, GPU-Beschleunigung und WebRTC-basiertes Streaming können Netzwerkverzögerungen weiter reduzieren. 
    • Kontextverwaltung: Redis oder ähnliche In-Memory-Speicher bieten einen «Session-Speicher», sodass der KI-Agent den Benutzerkontext abrufen kann und menschenähnliche Konversationen möglich sind. Mit diesem Design können Tausende von gleichzeitigen Konversationen mit extrem geringer Latenzzeit abgewickelt werden – ideal für den Kundensupport, sprachbasierte digitale Assistenten und freihändige IoT-Anwendungen. 
  3. Aufsichtsrechtliche Compliance im Bankwesen 
    Eine globale Bank wendet die gleichen Architekturprinzipien für das Basel-III/IV-Reporting an. Handelssysteme veröffentlichen grosse Datenmengen in verschiedenen Formaten in Kafka. Ein BPMN-Workflow-Orchestrator (Camunda 8) koordiniert KI-Agenten, welche die Daten standardisieren und validieren. Redis stellt eine idempotente Verarbeitung sicher und verhindert die Doppelbearbeitung von Ereignissen. In der Zwischenzeit skaliert die Container-Orchestrierung (Kubernetes) die Infrastruktur automatisch auf der Grundlage des Handelsvolumens und gewährleistet so eine Kostenoptimierung. Die gesamte Pipeline ist vollständig überprüfbar – ein entscheidender Faktor für die Erfüllung regulatorischer Anforderungen. 

Best Practices für eventgesteuerte KI-Orchestrierung

  1. Kafka-Themen und -Partitionen sorgfältig gestalten 
    • Themenstrukturen mit logischen Geschäftsabläufen abstimmen (z. B. nach Benutzersitzung oder Anlagenklasse). 
    • Eine zu starke Partitionierung kann den Aufwand und die Komplexität erhöhen. Daher sollten Sie die erforderlichen Durchsatzraten gegen die Betriebskosten abwägen. 
  2. Trennen Sie die Prozessorchestrierung von der Ausführung von KI-Aufgaben 
    • BPMN-Workflows verarbeiten Geschäftsprozesse, während KI-Agenten die Datenanalyse und Entscheidungsfindung übernehmen. 
    • Durch diesen modularen Ansatz wird die Wartung vereinfacht, sodass Teams jede Komponente unabhängig voneinander optimieren können.
  3. Beobachtbarkeit und Modellüberwachung integrieren 
    • Integrieren Sie KI-Beobachtbarkeitsplattformen (z. B. Arize AI, Weights and Biases), um die Modellleistung zu verfolgen, Abweichungen zu erkennen und Compliance-Berichte zu erstellen. 
    • Die Protokollierung sowohl von Prozessschritten (über BPMN) als auch von KI-Ausgaben (über Kafka-Ereignisprotokolle) sorgt für einen umfassenden Prüfpfad. 
  4. Kosten und Komplexität einplanen 
    • Technologien wie Redis Streams, Ray Serve und erweitertes Edge-Computing können die Leistung erheblich verbessern, aber auch zu einem höheren Betriebsaufwand führen. 
    • Wägen Sie Cloud- vs. Vor-Ort- vs. Hybrid-Ansätze ab. Kostenoptimierung erfordert oft einen Ausgleich zwischen den Anforderungen an den Durchsatz, den regulatorischen Beschränkungen und den Zielen für die Echtzeit-Latenz. 

Roadmap für die Umsetzung

Nachfolgend finden Sie eine zusammengefasste Tabelle mit den «wichtigsten Entscheidungen», in der jede technologische Entscheidung mit einem typischen Anwendungsfall sowie Überlegungen zu Kosten und Komplexität abgeglichen wird: 

Technologie Rolle Anwendungsfall Komplexität und Kosten
Apache Kafka Core Event Bus, Log für Wiedergabe Fast alle ereignisgesteuerten KI-Workflows Mittlere Komplexität, aber entscheidend für die Resilienz
Kafka Streams Echtzeit-Datentransformation/-aggregation Datenvorverarbeitung vor KI-Inferenz Höhere Entwicklungskomplexität; kann KI-Last reduzieren
Camunda 8 (Zeebe) BPMN-Prozessorchestrierung Lang andauernde Workflows mit Verzweigungslogik Leicht erhöhter Aufwand; vereinfacht Geschäftslogik
Apache Flink Zustandsorientierte Ereignisverarbeitung mit geringer Latenz Hochgeschwindigkeitsdaten (z. B. Betrugswarnungen) Höherer betrieblicher Aufwand, extrem schnell
Redis + Redis Streams In-Memory-Caching und Session-Management Session-Status für dialogorientierte KI, Caching von IDs Mittlere Komplexität, schnell und kostengünstig
ClickHouse/PostgreSQL Materialisierte Ansichten und Auditing-Speicher Compliance und historische Analysen Gute Skalierbarkeit, erfordert DB-Verwaltungsaufwand
Ray Serve Verteilte Inferenz für KI-Agenten Bearbeitung Tausender gleichzeitiger KI-Anfragen Höherer Betriebsaufwand, hohe Skalierbarkeit
Hugging Face Endpoints Schnelle Modellbereitstellung (API-basiert) Schnelle Iteration bei ML-Modellen Minimiert die Einrichtung der Infrastruktur, kann aber teurer sein
ONNX Runtime Modelloptimierung für die Verwendung auf mehreren Plattformen Reduzierung der Berechnungskosten auf CPU/GPU/TPU Geringer Mehraufwand bei der Modellkonvertierung, Kosteneinsparungen

Fazit

Eine eventgesteuerte Architektur, die von Kafka und BPMN-basierter Orchestrierung gesteuert wird, bietet einen skalierbaren, belastbaren Rahmen für Unternehmens-KI. Durch die Trennung der Geschäftsprozesslogik von KI-Aufgaben können Unternehmen jede Schicht unabhängig voneinander optimieren und so nahtlose Skalierbarkeit, Fehlertoleranz und für die Compliance bereite Prüfprotokolle bereitstellen. Ergänzt durch robuste Tools für die Beobachtbarkeit und sorgfältige Planung in Bezug auf Kosten und Komplexität wird sichergestellt, dass diese Architekturen langfristig Bestand haben. 

Für Unternehmen, die sich für eine skalierbare, verantwortungsvolle KI einsetzen, bietet diese Roadmap einen umfassenden Entwurf. Sie befasst sich mit den miteinander verflochtenen Anforderungen an Echtzeitleistung, Fehlertoleranz sowie Compliance und trägt dazu bei, sowohl die Reputation des Unternehmens als auch die Erfahrung von Kunden, Aufsichtsbehörden und Interessengruppen gleichermassen zu schützen.

Kontaktieren Sie uns

https://pages.pwc.ch/view-form?id=701Vl00000dxMuJIAU&embed=true&lang=de

Kontaktieren Sie uns

Sebastian Ahrens

AI Center of Excellence Leader, PwC Switzerland

+41 58 792 16 28

E-Mail

Patrick Akiki

Partner, Financial Services Market Lead, PwC Switzerland

+41 58 792 25 19

E-Mail

Gianfranco Mautone

Partner and Forensic Services and Financial Crime Leader, Zurich, PwC Switzerland

+41 58 792 17 60

E-Mail