Une feuille de route pour des agents IA évolutifs dans les entreprises modernes

Sebastian Ahrens

AI Center of Excellence Leader, PwC Switzerland

Email

Lilia Christofi

EMEA FS Data, AI and Tech Lead, PwC United Kingdom

Email

En collaboration avec:

Johnny Chivers, EMEA AWS Technical Director
Aidan Caffrey, Distinguished Architect and UK FS Data and AI Engineering Lead

Les organisations de tous les secteurs prennent conscience du pouvoir transformationnel des agents IA, qui optimisent les opérations et relèvent des défis commerciaux complexes à grande échelle. Cependant, de nombreux déploiements rencontrent des difficultés à gérer le contexte, à assurer l’évolutivité et à maintenir la stabilité opérationnelle au fur et à mesure que la complexité augmente. Cet article présente un cadre axé sur les évènements exploitant Apache Kafka pour la messagerie et la coordination de processus basée sur BPMN, afin d’offrir la résilience, l’efficacité et la conformité requises par les entreprises modernes.

Notre executive playbook sur l'IA agentique

Chez PwC, nous sommes pionniers dans l'intégration de l'IA agentique dans les services financiers, aidant les entreprises à prendre des décisions plus intelligentes et adaptatives.

Téléchargez le playbook

Principaux défis de l’évolutivité des agents IA

Maintenir un état système cohérent
Au fur et à mesure que les agents IA se multiplient au sein d’un système, il devient difficile de gérer une source de vérité unique et fiable. Les intégrations traditionnelles synchrones de service à service ajoutent souvent de la latence et de la complexité, créant des goulets d’étranglement qui entraînent des défaillances partielles ou des ralentissements. Pour les entreprises traitant des transactions financières ou des données règlementées (p. ex. dans le secteur de la santé), la gestion cohérente de l’état et un temps d’arrêt minimal sont indispensables.
Surmonter les goulets d’étranglement liés à l’évolutivité
De nombreux systèmes pilotés par l’IA ont du mal à s’adapter aux pics de demande. Les intégrations de services directs peuvent enfermer les systèmes dans des contraintes architecturales rigides, ce qui limite la capacité à faire évoluer les composants de manière indépendante. En outre, le traitement de gros volumes d’événements tout en préservant la cohérence des données constitue souvent un goulot d’étranglement. Il en résulte un système qui ne peut pas s’adapter de manière transparente aux pics de trafic ou aux augmentations saisonnières.
Conformité réglementaire et observabilité
Dans les secteurs fortement règlementés, chaque transaction doit être vérifiable. Les décisions basées sur l’IA nécessitent traçabilité et explicabilité. Maintenir l’observabilité afin de détecter les dérives des modèles, les biais potentiels ou les anomalies, ajoute souvent une surcharge supplémentaire au système, nécessitant une journalisation robuste et des journaux d’événements facilement vérifiables.

L’approche de l’orchestration axée sur les événements

Pour relever ces défis, nous proposons un processus axé sur les évènements regroupant :

Apache Kafka pour la messagerie asynchrone et l’enregistrement des événements.
Coordination basée sur BPMN (p. ex. Camunda 8 powered by Zeebe) pour gérer les flux de travail et les arbres de décision à long terme.

Cadre d’agents IA axés sur les événements

Au lieu d’appels directs entre les services IA, chaque événement est publié sur Kafka, permettant aux agents et services de fonctionner de manière asynchrone. Avantages clés :

Évolutivité sans faille
Les composants individuels (p. ex. les services de conversion de la parole en texte ou de détection des fraudes) évoluent de manière indépendante en fonction du débit des messages. En cas de pic soudain (jour de pointe, vente flash de commerce électronique), seuls les composants concernés doivent être adaptés.
Résilience et tolérance aux défaillances
Avec le journal d’événements de Kafka, le système peut rejouer les événements après des périodes d’indisponibilité ou des perturbations. C’est essentiel dans des secteurs règlementés comme la finance et la santé, où la perte de données est inacceptable.
Séparation claire des préoccupations
L’orchestration basée sur BPMN gère le flux des processus métier, tandis que les agents IA se concentrent sur l’analyse et la prise de décision. Cette conception modulaire réduit la complexité et améliore la maintenabilité.

Les interactions entre BPMN et Kafka

Un processus métier de longue durée est modélisé dans BPMN (p. ex. l’octroi de prêts ou un support client complexe basé sur la voix).
Chaque étape du processus est mise en correspondance avec les événements qui circulent dans les thèmes Kafka.
Les agents IA s’abonnent aux sujets Kafka pertinents, traitent les événements (p. ex. exécutent un modèle d’apprentissage automatique) et publient les résultats sur Kafka.
Le moteur BPMN est à l’écoute d’événements spécifiques pour faire passer le flux de travail à l’étape suivante, de manière totalement découplée des services d’IA eux-mêmes.

Grâce à ce couplage lâche, les entreprises peuvent adapter individuellement les tâches IA, la logique métier ou les étapes de conformité sans impacter l’ensemble du système.

Architecture de mise en œuvre du flux de données

Études de cas : implémentations pratiques

Évolutivité de l’IA conversationnelle
Une application d’IA conversationnelle utilise Azure Speech Services pour des interactions vocales en temps réel. Les flux audio sont envoyés vers Kafka, déclenchant des services distincts pour la conversion parole-texte, la génération de réponses contextuelles et la transformation texte-parole. Chaque résultat est publié sous forme d’événement, permettant aux microservices de réagir de manière asynchrone. En découplant chaque étape, le système s’adapte horizontalement à des milliers de sessions simultanées tout en maintenant une faible latence.
Modèles d’IA directe de voix à voix
Dans les configurations avancées, les modèles d’IA traitent directement les entrées vocales et génèrent des sorties vocales synthétiques en temps réel, sans passer par des intermédiaires textuels. Par exemple, des cadres comme WaveNet de Google, Whisper d’OpenAI, ou SeamlessM4T de Meta gèrent l’audio en entrée et en sortie.
- Flux axé sur les évènements : les thèmes Kafka gèrent chaque étape (traitement de l’entrée vocale, reconnaissance de l’intention, génération de la réponse, synthèse vocale) de manière asynchrone.
- Évolution et latence : l’informatique en périphérie, l’accélération GPU et la diffusion en continu basée sur WebRTC peuvent encore réduire les délais du réseau.
- Gestion du contexte : Redis ou des systèmes de stockage en mémoire similaires fournissent une « mémoire de session », permettant à l’agent IA de se souvenir du contexte de l’utilisateur, ce qui rend possible des conversations fluides et semblables à celles entre humains. Cette architecture supporte des milliers de conversations simultanées avec une latence ultra-faible, idéale pour le support client, les assistants numériques vocaux et les applications IoT sans contact.
Conformité réglementaire dans le secteur bancaire
Une banque mondiale applique les mêmes principes architecturaux pour le reporting Basel III/IV. Les systèmes de trading publient de grands volumes de données sur Kafka dans divers formats. Un orchestrateur de flux de travail BPMN (Camunda 8) coordonne les agents IA qui standardisent et valident les données. Redis garantit un traitement idempotent, empêchant le traitement en double des événements. Pendant ce temps, l’orchestration de conteneurs (Kubernetes) ajuste automatiquement l’infrastructure en fonction des volumes d'échanges, garantissant ainsi une optimisation des coûts. L’ensemble du pipeline est entièrement contrôlable, ce qui est essentiel pour répondre aux exigences réglementaires.

Bonnes pratiques pour l’orchestration d’IA axée sur les évènements

Concevoir les thèmes et partitions Kafka de manière réfléchie
- Harmoniser la structure des thèmes avec les flux de travail métier logiques (p. ex. par session utilisateur ou classe d’actifs).
- Une surpartition peut augmenter la surcharge et la complexité, il est donc important d’équilibrer les besoins en débit avec les coûts opérationnels.
Séparer l’orchestration des processus de l’exécution des tâches IA
- Les flux de travail BPMN gèrent les processus métier, tandis que les agents IA s’occupent de l’analyse des données et de la prise de décision.
- Cette approche modulaire simplifie la maintenance, permettant aux équipes d’optimiser chaque composant de manière indépendante.
Intégrer l’observabilité et la surveillance des modèles
- Intégrer des plateformes d’observabilité IA (p. ex. Arize AI, Weights and Biases) pour suivre la performance des modèles, détecter les dérives et générer des rapports de conformité.
- La journalisation à la fois des étapes du processus (via BPMN) et des sorties IA (via les journaux d’événements Kafka) garantit une piste d’audit complète.
Se préparer à gérer les coûts et la complexité
- Des technologies comme Redis Streams, Ray Serve, et l’informatique de périphérie avancée peuvent améliorer considérablement les performances, mais peuvent également entraîner une surcharge opérationnelle plus élevée.
- Évaluer les approches cloud, sur site et hybrides. L’optimisation des coûts nécessite souvent un équilibre entre les exigences de débit, les contraintes réglementaires et les objectifs de latence en temps réel.

Feuille de route pour la mise en œuvre

Vous trouverez ci-dessous un tableau récapitulatif des « décisions clés » qui associe chaque choix technologique à un cas d’utilisation typique, ainsi que des considérations sur le coût et la complexité :

Technologie	Rôle	Cas d’utilisation	Complexité et coût
Apache Kafka	Bus d’événements central, journal pour la relecture	Quasiment tous les flux de travail IA axés sur les évènements	Complexité moyenne, mais essentiel pour la résilience
Kafka Streams	Transformation/agrégation des données en temps réel	Pré-traitement des données avant l’inférence IA	Complexité de développement plus élevée ; peut réduire la charge de l’IA
Camunda 8 (Zeebe)	Orchestration des processus BPMN	Flux de travail de longue durée avec logique de branchement	Surcharge modérée ; simplifie la logique métier
Apache Flink	Traitement d’événements à faible latence	Données à grande vitesse (p. ex. alertes à la fraude)	Surcharge opérationnelle plus élevée, ultra-rapide
Redis + Redis Streams	Mise en cache en mémoire et gestion des sessions	État de session pour l’IA conversationnelle, mise en cache des identifiants	Complexité moyenne, rapide et rentable
ClickHouse/PostgreSQL	Vues matérialisées et stockage des audits	Conformité et analyses historiques	Bonne évolutivité, nécessite des frais généraux de gestion de la base de données
Ray Serve	Inférence distribuée pour les agents IA	Traitement de milliers de requêtes IA simultanées	Surcharge opérationnelle plus avancée, mais bénéfices à grande échelle
Hugging Face Endpoints	Déploiement rapide de modèles (basé sur API)	Itération rapide sur les modèles d’apprentissage automatique	Minimise la configuration de l’infrastructure, mais peut être plus coûteux
ONNX Runtime	Optimisation des modèles pour une utilisation multi-plateformes	Réduction des coûts de calcul sur CPU/GPU/TPU	Quelques surcharges de conversion de modèle, économies de coûts

Conclusion

Une architecture axée sur les évènements alimentée par Kafka et l’orchestration basée sur BPMN offre un cadre évolutif et résilient pour l’IA en entreprise. En séparant la logique des processus métier des tâches IA, les organisations peuvent optimiser indépendamment chaque couche, offrant ainsi une évolutivité transparente, une tolérance aux défaillances et des pistes d’audit conformes aux exigences réglementaires. L’ajout d’outils d’observabilité robustes et une planification minutieuse autour des coûts et de la complexité garantissent que ces architectures restent durables au fil du temps.

Pour les entreprises engagées dans une IA évolutive et responsable, cette feuille de route offre un plan détaillé et complet. Elle répond aux exigences interdépendantes de performance en temps réel, de tolérance aux défaillances et de conformité réglementaire, contribuant ainsi à protéger à la fois la réputation de l’entreprise et l’expérience des clients, des régulateurs et des parties prenantes.