Roadmap für die Skalierung von KI-Agenten im modernen Unternehmen

Sebastian Ahrens

AI Center of Excellence Leader, PwC Switzerland

E-Mail

Lilia Christofi

EMEA FS Data, AI and Tech Lead, PwC United Kingdom

E-Mail

In Zusammenarbeit mit:

Johnny Chivers, EMEA AWS Technical Director
Aidan Caffrey, Distinguished Architect and UK FS Data and AI Engineering Lead

Unternehmen aus verschiedenen Branchen sind sich der transformativen Kraft von KI-Agenten bewusst: Sie optimieren Abläufe und bewältigen komplexe Geschäftsaufgaben in grossem Massstab. Mit zunehmender Komplexität treten jedoch bei vielen Implementierungen Probleme auf. Diese betreffen die Verwaltung des Status, die Sicherstellung der Skalierbarkeit sowie die Aufrechterhaltung der Betriebsstabilität. In diesem Beitrag wird das eventgesteuerte Framework Apache Kafka vorgestellt, das Nachrichtenübermittlung und BPMN-basierte Prozessorchestrierung nutzt, um die für moderne Unternehmen erforderliche Ausfallsicherheit, Effizienz und Compliance zu gewährleisten.

Unser Executive Playbook über agentische KI

Bei PwC sind wir Vorreiter bei der Integration von agentischer KI in Finanzdienstleistungen und helfen Unternehmen, intelligentere und anpassungsfähigere Entscheidungen zu treffen.

Playbook herunterladen

Die wichtigsten Herausforderungen bei der Skalierung von KI-Agenten

Aufrechterhaltung eines kohärenten Systemzustands
Wenn sich KI-Agenten innerhalb eines Systems vermehren, wird die Verwaltung einer einzigen, zuverlässigen Datenquelle schwierig. Herkömmliche, synchrone Service-to-Service-Integrationen erhöhen oft die Latenz und Komplexität und führen zu Leistungsengpässen, die Teilausfälle oder Verlangsamungen verursachen. Für Unternehmen, die mit Finanztransaktionen oder regulierten Daten (z. B. im Gesundheitswesen) umgehen, sind eine konsistente Statusverwaltung und minimale Ausfallzeiten unverzichtbar.
Überwindung von Engpässen bei der Skalierbarkeit
Viele KI-gesteuerte Systeme können bei Spitzenlasten nur schwer skaliert werden. Durch direkte Service-Integrationen können Systeme in starre architektonische Beschränkungen eingebunden werden, wodurch die Fähigkeit zur unabhängigen Skalierung von Komponenten eingeschränkt wird. Zudem erweist sich die Verarbeitung grosser Mengen an eventgesteuerten Daten bei gleichzeitiger Wahrung der Datenkonsistenz oft als Engpass. Das Ergebnis ist ein System, das Datenverkehrsspitzen oder saisonale Schwankungen nicht nahtlos auffangen kann.
Regulatorische Compliance und Beobachtbarkeit
In stark regulierten Sektoren muss jede Transaktion überprüfbar sein. KI-gestützte Entscheidungen erfordern Rückverfolgbarkeit und Erklärbarkeit. Die Aufrechterhaltung der Beobachtbarkeit – zur Erkennung von Modellabweichungen, potenziellen Verzerrungen oder Anomalien – führt häufig zu einem zusätzlichen Systemaufwand, der eine robuste Protokollierung und leicht überprüfbare Ereignisprotokolle erfordert.

Eventgesteuerter Orchestrierungsansatz

Um diese Herausforderungen zu bewältigen, schlagen wir einen eventgesteuerten Prozess vor, der Folgendes miteinander verbindet:

Apache Kafka für asynchrone Messaging- und Ereignisprotokollierung.
BPMN-basierte Orchestrierung (z. B. Camunda 8 powered by Zeebe) für die Verwaltung länger andauernder Workflows und Entscheidungsbäume.

Rahmenwerk für eventgesteuerte KI-Agenten

Anstelle von direkten Aufrufen zwischen KI-Diensten wird jedes Ereignis in Kafka veröffentlicht, sodass Agenten und Dienste asynchron arbeiten können. Zentrale Vorteile:

Nahtlose Skalierbarkeit
Einzelne Komponenten (z. B. Transkription oder Betrugserkennung) werden unabhängig voneinander basierend auf dem Message-Durchsatz skaliert. Wenn es zu einem plötzlichen Anstieg kommt (Spitzentag im Handel, E-Commerce-Flash-Sale), müssen nur die relevanten Komponenten skaliert werden.

Resilienz und Fehlertoleranz
Mithilfe des Ereignisprotokolls von Kafka kann das System Ereignisse nach Ausfallzeiten oder Störungen wiedergeben. Dies ist in regulierten Bereichen wie dem Finanz- und Gesundheitswesen, in denen Datenverluste keine Option sind, von entscheidender Bedeutung.

Klare Trennung der Anliegen
Die BPMN-basierte Orchestrierung übernimmt den Geschäftsprozessablauf, während sich KI-Agenten auf Analyse und Entscheidungsfindung konzentrieren. Dieser modulare Aufbau reduziert die Komplexität und verbessert die Wartbarkeit.

Wie BPMN und Kafka interagieren

Ein lang andauernder Geschäftsprozess wird in BPMN modelliert (z. B. die Vergabe von Darlehen oder ein komplexer sprachbasierter Kundensupport).
Jeder Prozessschritt wird Ereignissen zugewiesen, die durch Kafka-Themen laufen.
KI-Agenten registrieren sich für relevante Kafka-Themen, verarbeiten die Ereignisse (z. B. durch Ausführen eines maschinellen Lernmodells) und veröffentlichen die Ergebnisse wieder auf Kafka.
Die BPMN-Engine überwacht bestimmte Ereignisse, um den Workflow in die nächste Phase zu überführen – vollständig entkoppelt von den KI-Diensten selbst.

Durch diese lose Kopplung können Unternehmen einzelne KI-Aufgaben, Geschäftslogik oder Compliance-Schritte anpassen, ohne das gesamte System aus dem Gleichgewicht zu bringen.

Implementation Architecture Data Flow

Fallstudien: Praktische Implementierungen

Konversationsbasierte KI in grossem Massstab
Eine konversationsbasierte KI-Anwendung nutzt Azure Speech Services für Sprachinteraktionen in Echtzeit. Audiodaten werden in Kafka gestreamt, wodurch separate Dienste für die Umwandlung von Sprache in Text, eine kontextbezogene Antwortgenerierung und die Umwandlung von Text in Sprache ausgelöst werden. Jedes Ergebnis wird als Ereignis veröffentlicht, sodass Microservices asynchron reagieren können. Durch die Entkopplung der einzelnen Schritte lässt sich das System horizontal auf Tausende gleichzeitiger Sitzungen skalieren, wobei eine geringe Latenz beibehalten wird.
Direkte Voice-to-Voice-KI-Modelle
In erweiterten Setups verarbeiten KI-Modelle Spracheingaben direkt und generieren synthetische Sprachausgaben in Echtzeit, wobei sie Textvermittler umgehen. Beispielsweise können Frameworks wie WaveNet von Google, Whisper von OpenAI oder SeamlessM4T von Meta die Audioeingabe und -ausgabe verarbeiten.
- Eventgesteuerter Ablauf: Kafka-Themen verwalten jede Phase (Verarbeitung der Spracheingabe, Absichtserkennung, Antwortgenerierung, Sprachsynthese) asynchron.
- Skalierung und Latenz: Edge-Computing, GPU-Beschleunigung und WebRTC-basiertes Streaming können Netzwerkverzögerungen weiter reduzieren.
- Kontextverwaltung: Redis oder ähnliche In-Memory-Speicher bieten einen «Session-Speicher», sodass der KI-Agent den Benutzerkontext abrufen kann und menschenähnliche Konversationen möglich sind. Mit diesem Design können Tausende von gleichzeitigen Konversationen mit extrem geringer Latenzzeit abgewickelt werden – ideal für den Kundensupport, sprachbasierte digitale Assistenten und freihändige IoT-Anwendungen.
Aufsichtsrechtliche Compliance im Bankwesen
Eine globale Bank wendet die gleichen Architekturprinzipien für das Basel-III/IV-Reporting an. Handelssysteme veröffentlichen grosse Datenmengen in verschiedenen Formaten in Kafka. Ein BPMN-Workflow-Orchestrator (Camunda 8) koordiniert KI-Agenten, welche die Daten standardisieren und validieren. Redis stellt eine idempotente Verarbeitung sicher und verhindert die Doppelbearbeitung von Ereignissen. In der Zwischenzeit skaliert die Container-Orchestrierung (Kubernetes) die Infrastruktur automatisch auf der Grundlage des Handelsvolumens und gewährleistet so eine Kostenoptimierung. Die gesamte Pipeline ist vollständig überprüfbar – ein entscheidender Faktor für die Erfüllung regulatorischer Anforderungen.

Best Practices für eventgesteuerte KI-Orchestrierung

Kafka-Themen und -Partitionen sorgfältig gestalten
- Themenstrukturen mit logischen Geschäftsabläufen abstimmen (z. B. nach Benutzersitzung oder Anlagenklasse).
- Eine zu starke Partitionierung kann den Aufwand und die Komplexität erhöhen. Daher sollten Sie die erforderlichen Durchsatzraten gegen die Betriebskosten abwägen.
Trennen Sie die Prozessorchestrierung von der Ausführung von KI-Aufgaben
- BPMN-Workflows verarbeiten Geschäftsprozesse, während KI-Agenten die Datenanalyse und Entscheidungsfindung übernehmen.
- Durch diesen modularen Ansatz wird die Wartung vereinfacht, sodass Teams jede Komponente unabhängig voneinander optimieren können.
Beobachtbarkeit und Modellüberwachung integrieren
- Integrieren Sie KI-Beobachtbarkeitsplattformen (z. B. Arize AI, Weights and Biases), um die Modellleistung zu verfolgen, Abweichungen zu erkennen und Compliance-Berichte zu erstellen.
- Die Protokollierung sowohl von Prozessschritten (über BPMN) als auch von KI-Ausgaben (über Kafka-Ereignisprotokolle) sorgt für einen umfassenden Prüfpfad.
Kosten und Komplexität einplanen
- Technologien wie Redis Streams, Ray Serve und erweitertes Edge-Computing können die Leistung erheblich verbessern, aber auch zu einem höheren Betriebsaufwand führen.
- Wägen Sie Cloud- vs. Vor-Ort- vs. Hybrid-Ansätze ab. Kostenoptimierung erfordert oft einen Ausgleich zwischen den Anforderungen an den Durchsatz, den regulatorischen Beschränkungen und den Zielen für die Echtzeit-Latenz.

Roadmap für die Umsetzung

Nachfolgend finden Sie eine zusammengefasste Tabelle mit den «wichtigsten Entscheidungen», in der jede technologische Entscheidung mit einem typischen Anwendungsfall sowie Überlegungen zu Kosten und Komplexität abgeglichen wird:

Technologie	Rolle	Anwendungsfall	Komplexität und Kosten
Apache Kafka	Core Event Bus, Log für Wiedergabe	Fast alle ereignisgesteuerten KI-Workflows	Mittlere Komplexität, aber entscheidend für die Resilienz
Kafka Streams	Echtzeit-Datentransformation/-aggregation	Datenvorverarbeitung vor KI-Inferenz	Höhere Entwicklungskomplexität; kann KI-Last reduzieren
Camunda 8 (Zeebe)	BPMN-Prozessorchestrierung	Lang andauernde Workflows mit Verzweigungslogik	Leicht erhöhter Aufwand; vereinfacht Geschäftslogik
Apache Flink	Zustandsorientierte Ereignisverarbeitung mit geringer Latenz	Hochgeschwindigkeitsdaten (z. B. Betrugswarnungen)	Höherer betrieblicher Aufwand, extrem schnell
Redis + Redis Streams	In-Memory-Caching und Session-Management	Session-Status für dialogorientierte KI, Caching von IDs	Mittlere Komplexität, schnell und kostengünstig
ClickHouse/PostgreSQL	Materialisierte Ansichten und Auditing-Speicher	Compliance und historische Analysen	Gute Skalierbarkeit, erfordert DB-Verwaltungsaufwand
Ray Serve	Verteilte Inferenz für KI-Agenten	Bearbeitung Tausender gleichzeitiger KI-Anfragen	Höherer Betriebsaufwand, hohe Skalierbarkeit
Hugging Face Endpoints	Schnelle Modellbereitstellung (API-basiert)	Schnelle Iteration bei ML-Modellen	Minimiert die Einrichtung der Infrastruktur, kann aber teurer sein
ONNX Runtime	Modelloptimierung für die Verwendung auf mehreren Plattformen	Reduzierung der Berechnungskosten auf CPU/GPU/TPU	Geringer Mehraufwand bei der Modellkonvertierung, Kosteneinsparungen

Fazit

Eine eventgesteuerte Architektur, die von Kafka und BPMN-basierter Orchestrierung gesteuert wird, bietet einen skalierbaren, belastbaren Rahmen für Unternehmens-KI. Durch die Trennung der Geschäftsprozesslogik von KI-Aufgaben können Unternehmen jede Schicht unabhängig voneinander optimieren und so nahtlose Skalierbarkeit, Fehlertoleranz und für die Compliance bereite Prüfprotokolle bereitstellen. Ergänzt durch robuste Tools für die Beobachtbarkeit und sorgfältige Planung in Bezug auf Kosten und Komplexität wird sichergestellt, dass diese Architekturen langfristig Bestand haben.

Für Unternehmen, die sich für eine skalierbare, verantwortungsvolle KI einsetzen, bietet diese Roadmap einen umfassenden Entwurf. Sie befasst sich mit den miteinander verflochtenen Anforderungen an Echtzeitleistung, Fehlertoleranz sowie Compliance und trägt dazu bei, sowohl die Reputation des Unternehmens als auch die Erfahrung von Kunden, Aufsichtsbehörden und Interessengruppen gleichermassen zu schützen.