Multi-Agent RL / MARL (Apprentissage par renforcement multi-agents)

Le Multi-Agent Reinforcement Learning (MARL) est un sous-domaine du reinforcement learning où plusieurs agents autonomes apprennent simultanément dans un environnement partagé, chacun motivé par ses propres récompenses, avec des intérêts qui peuvent être alignés (coopération), opposés (compétition) ou mixtes.

Le passage d’un agent unique à plusieurs agents change fondamentalement le problème. L’environnement devient non stationnaire du point de vue de chaque agent (les autres agents changent leur politique en même temps que lui), l’espace d’états-actions conjoints explose exponentiellement avec le nombre d’agents, et les concepts de la théorie des jeux (équilibre de Nash, dilemmes sociaux) deviennent centraux. C’est le paradigme qui a permis à AlphaStar de maîtriser StarCraft II, à OpenAI Five de battre des champions sur Dota 2, et aux flottes de drones et de véhicules autonomes d’apprendre à se coordonner. En 2026, le MARL s’étend aux systèmes multi-agents LLM, où plusieurs instances de modèles de langage collaborent pour résoudre des tâches complexes.

Catégorie: Sous-domaine du Reinforcement Learning
Principe: Plusieurs agents apprennent simultanément dans un environnement partagé
Types: Coopératif, compétitif (zero-sum), mixte (coopératif-compétitif)
Paradigme clé: CTDE : Centralized Training with Decentralized Execution
Algorithmes: MAPPO, IPPO, QMIX, MADDPG, VDN, QPLEX
Applications: Jeux stratégiques, drones/UAV, véhicules autonomes, smart grids, systèmes multi-agents LLM
Outils: PettingZoo, EPyMARL, MARLlib, SMAC (StarCraft), Google Football

Les trois types d’interaction entre agents

Coopération pure

Tous les agents partagent la même récompense et collaborent pour maximiser un retour commun. Exemples : une flotte de drones qui doit couvrir une zone de surveillance en minimisant les chevauchements, des robots d’entrepôt qui coordonnent leurs déplacements pour éviter les collisions tout en maximisant le débit, ou un réseau électrique intelligent (smart grid) où plusieurs bâtiments partagent l’énergie pour minimiser la dépendance au réseau externe.

Le défi principal est le credit assignment : quand l’équipe réussit, comment déterminer quelle contribution chaque agent a apportée ? Les méthodes de décomposition de valeur (QMIX, VDN) adressent ce problème.

Compétition pure (zero-sum)

Les récompenses des agents s’annulent : ce que l’un gagne, l’autre le perd. C’est le domaine des jeux classiques (échecs, Go, poker) et des jeux vidéo compétitifs. Il n’y a pas de place pour la coopération ni la communication, car aucun agent n’est incité à aider son adversaire. Le self-play (un agent qui joue contre des versions de lui-même) est la technique d’entraînement dominante.

AlphaGo (Go), AlphaStar (StarCraft II) et GT Sophy (Gran Turismo) sont des exemples emblématiques de MARL compétitif. Le phénomène d’autocurriculum émerge naturellement : à mesure que chaque agent s’améliore, il pousse ses adversaires à devenir meilleurs, créant une escalade continue de la complexité des stratégies découvertes.

Interactions mixtes (coopératif-compétitif)

La plupart des scénarios réels combinent coopération et compétition. Des véhicules autonomes sur une même route ont des intérêts divergents (chacun veut minimiser son temps de trajet) mais un intérêt commun (éviter les collisions). Des équipes de drones en confrontation doivent coopérer au sein de leur équipe tout en compétitionnant contre l’équipe adverse. Les dilemmes sociaux (dilemme du prisonnier, jeu du cerf, jeu du poulet) sont les modèles théoriques fondamentaux de ces interactions.

Ces scénarios sont les plus complexes et les plus étudiés en MARL, car ils font émerger des phénomènes sociaux (communication, négociation, trahison, réciprocité) que l’on observe chez les humains et les animaux.

Les défis fondamentaux du MARL

Non-stationnarité

Du point de vue de chaque agent, l’environnement est non stationnaire car les autres agents changent leur politique simultanément. L’agent A apprend une réponse optimale à la stratégie de l’agent B, mais pendant ce temps, B change sa stratégie en réponse à A. Les garanties de convergence du RL single-agent ne s’appliquent plus. C’est le défi le plus fondamental du MARL.

Scalabilité

L’espace d’états-actions conjoints croît exponentiellement avec le nombre d’agents. Si chaque agent a 10 actions possibles, l’espace conjoint pour 5 agents est 10⁵ = 100 000 combinaisons. Pour 20 agents, c’est 10²⁰. AlphaStar a nécessité 200 ans de gameplay simulé, OpenAI Five 180 ans sur 256 GPU et 128 000 CPU. La scalabilité est le goulot d’étranglement principal pour le déploiement réel du MARL.

Observabilité partielle

Dans la plupart des scénarios réels, chaque agent n’observe qu’une partie de l’état global (son champ de vision, ses capteurs locaux). Les véhicules autonomes ne voient pas au-delà des bâtiments, les drones n’observent que leur zone locale. Cela transforme le problème en un Dec-POMDP (Decentralized Partially Observable Markov Decision Process), notoirement difficile à résoudre.

CTDE : le paradigme dominant

Le Centralized Training with Decentralized Execution (CTDE) est l’architecture standard du MARL en 2026. L’idée : pendant l’entraînement, un critique centralisé a accès à l’état global et aux actions de tous les agents, ce qui stabilise l’apprentissage. Pendant l’exécution, chaque agent prend ses décisions de manière indépendante, uniquement à partir de ses observations locales.

Le CTDE résout le dilemme entre la nécessité d’information globale (pour la stabilité de l’entraînement) et la contrainte d’exécution décentralisée (pas de communication parfaite en temps réel dans le monde réel). C’est le paradigme utilisé par MADDPG, QMIX, MAPPO et la plupart des algorithmes MARL modernes.

Algorithmes MARL principaux

IPPO et MAPPO

IPPO (Independent PPO) est l’approche la plus simple : chaque agent exécute PPO de manière indépendante, traitant les autres agents comme faisant partie de l’environnement. Malgré sa simplicité théorique (pas de modélisation explicite des autres agents), IPPO fonctionne étonnamment bien dans de nombreux scénarios coopératifs.

MAPPO (Multi-Agent PPO) ajoute un critique centralisé qui prend en entrée l’état global (ou les observations de tous les agents), tout en gardant des politiques décentralisées. Le papier « The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games » (Yu et al., 2021) a montré que MAPPO atteint des performances de pointe sur de nombreux benchmarks coopératifs (SMAC, MPE) avec une implémentation relativement simple. En 2026, MAPPO est le baseline de référence pour le MARL coopératif.

QMIX et VDN (décomposition de valeur)

Les méthodes de décomposition de valeur adressent le credit assignment dans les tâches coopératives avec récompense partagée. L’idée : apprendre des Q-values individuelles Q_i(s_i, a_i) pour chaque agent et les combiner en une Q-value conjointe Q_tot qui représente la valeur de l’action conjointe de l’équipe.

VDN (Value Decomposition Networks) : Q_tot = Σ Q_i. La valeur conjointe est simplement la somme des valeurs individuelles. Simple mais restrictif (suppose l’additivité).

QMIX : Q_tot = f(Q_1, Q_2, …, Q_n) où f est un réseau de mélange (mixing network) dont les poids sont non négatifs. Cette contrainte garantit que l’argmax de Q_tot correspond aux argmax individuels, permettant une exécution décentralisée. QMIX est plus expressif que VDN tout en restant décentralisable.

Des variantes plus récentes (QPLEX, Qatten) utilisent des mécanismes d’attention pour pondérer la contribution de chaque agent en fonction du contexte, améliorant l’expressivité et le credit assignment.

MADDPG

MADDPG (Multi-Agent Deep Deterministic Policy Gradient, Lowe et al., 2017) est l’algorithme de référence pour les environnements mixtes (coopératif-compétitif) avec actions continues. Il étend DDPG au multi-agent via le paradigme CTDE : chaque agent a son propre acteur (politique décentralisée) et un critique centralisé qui observe les actions et observations de tous les agents.

Algorithmes avec communication

Certains algorithmes permettent aux agents d’apprendre à communiquer explicitement. CommNet, DIAL et TarMAC permettent aux agents d’envoyer des messages appris (vecteurs continus) aux autres agents. La recherche récente (ACR-PPO, 2026) modélise la communication sous contrainte de budget : chaque agent sélectionne adaptativement sa portée de communication pour minimiser le coût tout en préservant la performance.

Algorithme	Type	Approche	Actions	Cas d’usage principal
IPPO	Coopératif	Indépendant (chaque agent = PPO seul)	Discret + continu	Baseline simple, souvent efficace
MAPPO	Coopératif	CTDE (critique centralisé)	Discret + continu	Standard coopératif, SMAC
VDN	Coopératif	Décomposition additive	Discret	Tâches coopératives simples
QMIX	Coopératif	Mixing network (non négatif)	Discret	Credit assignment coopératif
MADDPG	Mixte	CTDE, critiques centralisés par agent	Continu	Coopération-compétition, contrôle continu
Self-play	Compétitif	Agent vs copies de lui-même	Discret + continu	Jeux (Go, StarCraft, Gran Turismo)

Applications du MARL en 2026

Jeux stratégiques

Le MARL a produit certaines des démonstrations les plus spectaculaires de l’IA : AlphaStar (StarCraft II, DeepMind) a atteint le rang Grand Master, OpenAI Five (Dota 2) a battu des champions humains, et GT Sophy (Gran Turismo, Sony AI) a surpassé les meilleurs pilotes. Ces systèmes utilisent le self-play, la simulation massive parallèle et des architectures actor-critic adaptées au multi-agent. Le coût d’entraînement est immense (centaines d’années de gameplay simulé), mais les stratégies émergentes sont souvent créatives et surprenantes, dépassant les connaissances humaines du jeu.

Flottes de drones (UAV)

Le déploiement de flottes de drones est l’une des applications MARL les plus actives en 2026. Les cas d’usage incluent la couverture de zone pour la surveillance (chaque drone = un agent qui maximise la couverture tout en évitant les chevauchements), le déploiement de relais de communication (DroneConnect), et les scénarios de confrontation attaque-défense (DroneCombat). L’architecture CTDE avec graphes d’agents et attention est le standard, permettant une exécution décentralisée avec communication locale peer-to-peer.

Véhicules autonomes

Chaque véhicule est un agent avec des intérêts partiellement alignés : minimiser son temps de trajet (compétitif) tout en évitant les collisions (coopératif). Le MARL est utilisé pour la gestion des intersections sans feux, le merge autoroutier, et la coordination de flottes de robotaxis. Le défi principal est la robustesse : le système doit fonctionner même face à des conducteurs humains non modélisés.

Smart grids et gestion de l’énergie

Les réseaux électriques intelligents utilisent le MARL pour coordonner la production et la consommation de multiples bâtiments, panneaux solaires, batteries et bornes de recharge. Chaque entité est un agent avec des objectifs locaux (minimiser sa facture) et un objectif global (stabiliser le réseau). Le MARL permet d’optimiser la distribution d’énergie de manière décentralisée sans nécessiter un contrôleur central unique.

Systèmes multi-agents LLM

Tendance forte de 2026 : utiliser plusieurs instances de LLM comme agents qui collaborent ou débattent pour résoudre des tâches complexes. CORY (NeurIPS 2024) fine-tune deux copies d’un LLM en coopération séquentielle : un « pionnier » génère une réponse, un « observateur » l’améliore, et les deux sont récompensés conjointement. Cette approche multi-agent améliore les capacités de raisonnement des LLM au-delà de ce qu’un seul agent peut atteindre. Les frameworks d’agents IA (CrewAI, AutoGen, LangGraph) implémentent des architectures multi-agents où chaque agent a un rôle spécialisé.

Solutions de scalabilité

Trois approches principales pour passer à l’échelle :

Independent Learning (IL) : chaque agent apprend indépendamment, traitant les autres comme faisant partie de l’environnement. Simple et scalable, mais théoriquement fragile (non-stationnarité ignorée). Étonnamment efficace dans de nombreux environnements coopératifs et compétitifs, moins en scénarios mixtes.

Parameter Sharing (PS) : un seul réseau est partagé entre tous les agents (avec un identifiant d’agent en entrée). Très scalable et efficace en mémoire, mais applicable uniquement aux agents homogènes en environnement coopératif. C’est l’approche utilisée par MAPPO sur SMAC.

Mean Field : abstraire l’effet des autres agents par un « agent moyen » virtuel, réduisant la complexité. Efficace mais nécessite des hypothèses fortes (agents homogènes, observabilité complète) qui limitent l’applicabilité.

La réalité du coût computationnel AlphaStar a nécessité 200 ans de gameplay simulé. OpenAI Five a utilisé 256 GPU et 128 000 cœurs CPU pendant des semaines. Ces coûts rendent le MARL inaccessible à la plupart des équipes de recherche. La sample efficiency est le défi numéro un pour démocratiser le MARL. Les techniques de transfer learning, d’offline MARL et de simulation efficace (NVIDIA Isaac Sim) sont des pistes actives pour réduire ce coût.

Outils et environnements

PettingZoo : l’interface standard pour les environnements multi-agents (équivalent de Gymnasium pour le single-agent). Fournit des dizaines d’environnements avec une API unifiée. Maintenu par la Farama Foundation.

SMAC (StarCraft Multi-Agent Challenge) : benchmark de référence pour le MARL coopératif basé sur des scénarios de micromanagement StarCraft II. Chaque unité est un agent qui doit coopérer pour battre l’ennemi.

EPyMARL : implémentations de référence des algorithmes MARL (QMIX, VDN, MAPPO, MADDPG) en PyTorch.

MARLlib : bibliothèque qui unifie plus de 10 algorithmes MARL sur plus de 10 environnements avec une interface cohérente.

Google Research Football : environnement de football (soccer) multi-agent pour la recherche en MARL coopératif et compétitif.

Verdict

Le MARL est le domaine le plus ambitieux et le plus difficile du reinforcement learning. Il adresse les problèmes où plusieurs entités autonomes doivent apprendre à coopérer, compétitionner ou négocier dans un monde partagé. En 2026, le MARL est mature dans les jeux (AlphaStar, OpenAI Five) et en recherche active pour les applications réelles (drones, véhicules autonomes, smart grids, systèmes multi-agents LLM).

Pour les développeurs : commencez par MAPPO sur un environnement PettingZoo simple (MPE, LBF). MAPPO est le baseline de référence : si un algorithme plus complexe ne bat pas MAPPO, il ne vaut probablement pas la complexité supplémentaire. Pour le MARL coopératif avec credit assignment, explorez QMIX. Pour les scénarios mixtes avec actions continues, essayez MADDPG.

Le défi persistant est la scalabilité. Les coûts d’entraînement MARL restent prohibitifs pour de nombreuses applications. Les approches les plus prometteuses pour démocratiser le MARL sont l’independent learning (étonnamment efficace), le parameter sharing (scalable en agents homogènes) et le transfer learning depuis des politiques pré-entraînées (y compris des LLM utilisés comme agents). La convergence MARL + LLM multi-agents est la frontière la plus excitante du domaine.

Questions fréquentes sur le Multi-Agent RL

Quelle est la différence entre le RL single-agent et le MARL ?

En RL single-agent, un seul agent apprend dans un environnement stationnaire. En MARL, plusieurs agents apprennent simultanément dans un environnement partagé, ce qui le rend non stationnaire (les autres agents changent leurs politiques en même temps). Cela invalide les garanties de convergence du RL classique et nécessite des approches spécifiques : entraînement centralisé (CTDE), décomposition de valeur (QMIX), self-play (compétitif) ou communication apprise. L’espace d’états-actions croît exponentiellement avec le nombre d’agents, posant un défi de scalabilité majeur.

Qu’est-ce que le paradigme CTDE ?

CTDE (Centralized Training with Decentralized Execution) est l’architecture standard du MARL. Pendant l’entraînement, un critique centralisé a accès à l’état global et aux actions de tous les agents, ce qui stabilise l’apprentissage. Pendant l’exécution, chaque agent prend ses décisions de manière indépendante, uniquement à partir de ses observations locales. Cela résout le dilemme entre le besoin d’information globale pour apprendre efficacement et la contrainte pratique d’exécution décentralisée (pas de communication parfaite en temps réel dans le monde réel).

MAPPO ou QMIX : lequel choisir ?

MAPPO (Multi-Agent PPO) est le meilleur point de départ : c’est un algorithme policy gradient avec critique centralisé, simple à implémenter et étonnamment performant sur la plupart des benchmarks coopératifs. QMIX est un algorithme value-based (décomposition de valeur) particulièrement adapté quand le credit assignment est critique et que l’espace d’actions est discret. En pratique, MAPPO est souvent préféré car il gère aussi les actions continues et ne nécessite pas d’hypothèse de monotonie sur la fonction de mélange.

Comment le MARL est-il utilisé dans les jeux vidéo ?

Le MARL a produit les démonstrations les plus spectaculaires de l’IA dans les jeux : AlphaStar (StarCraft II, Grand Master), OpenAI Five (Dota 2, victoire contre champions humains), GT Sophy (Gran Turismo, battant les meilleurs pilotes). Ces systèmes utilisent le self-play (agent vs copies de lui-même) avec simulation massive parallèle. Le phénomène d’autocurriculum fait émerger des stratégies de plus en plus complexes : chaque amélioration d’un agent pousse ses adversaires à s’améliorer, créant une escalade continue.

Les systèmes multi-agents LLM utilisent-ils le MARL ?

Oui, c’est une tendance forte en 2026. Des travaux comme CORY (NeurIPS 2024) fine-tunent plusieurs copies d’un LLM via un jeu coopératif séquentiel, où un « pionnier » génère une réponse et un « observateur » l’améliore. Les frameworks d’agents IA (CrewAI, AutoGen, LangGraph) implémentent des architectures multi-agents avec des LLM spécialisés par rôle. Le MARL fournit le cadre théorique (récompenses, coordination, communication) pour entraîner ces systèmes à coopérer efficacement. La fusion MARL + LLM est l’une des frontières les plus actives de la recherche en IA.