Actor-Critic (Acteur-Critique)

L’Actor-Critic est une famille d’algorithmes de reinforcement learning qui combine deux composants : un acteur (actor) qui apprend la politique optimale (quelle action prendre dans chaque état) et un critique (critic) qui apprend la fonction de valeur (quelle est la qualité de chaque état ou action). Le critique guide l’acteur en évaluant ses choix, ce qui réduit la variance et stabilise l’apprentissage par rapport aux méthodes policy gradient pures.

L’analogie classique : un enfant (l’acteur) explore le monde en essayant des choses. Sa mère (le critique) observe et donne un feedback (« bien joué » ou « ne fais plus ça »). L’enfant ajuste son comportement en fonction du feedback. C’est exactement ce que fait l’Actor-Critic : l’acteur essaie des actions, le critique les évalue, et l’acteur s’améliore. L’architecture Actor-Critic est la base de presque tous les algorithmes RL modernes : A2C, A3C, PPO, SAC, DDPG et les méthodes RLHF pour les LLM.

Catégorie: Architecture d’algorithme RL (hybride policy-based + value-based)
Principe: Acteur = politique π(a|s) | Critique = fonction de valeur V(s) ou Q(s,a)
Origines: Barto, Sutton et Anderson (1983, problème cart-pole)
Variantes: A2C, A3C (Mnih et al., 2016), DDPG, TD3, SAC (Haarnoja et al., 2018), PPO, ACKTR
Forces: Variance réduite vs REINFORCE, stable, polyvalent (continu + discret)
Outils: Stable Baselines3, RLlib, CleanRL, TorchRL, SpinningUp

Pourquoi combiner acteur et critique ?

Les deux grandes familles d’algorithmes RL ont chacune des forces et des faiblesses complémentaires :

Méthodes value-based (Q-Learning, DQN) : elles estiment la valeur des actions Q(s,a) et en déduisent la politique. Elles sont sample-efficient (chaque donnée est bien utilisée grâce à l’experience replay) et stables, mais elles peinent avec les actions continues et de haute dimension (il faut calculer le max sur toutes les actions).

Méthodes policy-based (Policy Gradient, REINFORCE) : elles optimisent directement la politique. Elles gèrent nativement les actions continues et stochastiques, mais souffrent d’une haute variance dans les estimations de gradient, ce qui rend l’entraînement lent et instable.

L’Actor-Critic fusionne les deux : l’acteur est une politique paramétrisée (comme dans les policy gradient) et le critique est une fonction de valeur apprise (comme dans les value-based). Le critique fournit un signal d’évaluation plus stable que le retour Monte Carlo brut utilisé par REINFORCE, ce qui réduit la variance sans introduire de biais significatif.

Architecture technique

L’acteur (Actor)

L’acteur est un réseau de neurones qui prend l’état en entrée et produit en sortie une distribution de probabilités sur les actions (espace discret) ou les paramètres d’une distribution continue (typiquement la moyenne µ et l’écart-type σ d’une gaussienne pour les actions continues). L’action est ensuite échantillonnée depuis cette distribution.

L’acteur est mis à jour par montée de gradient sur l’avantage estimé par le critique. Si le critique dit « cette action était meilleure que la moyenne » (avantage positif), la probabilité de cette action augmente. Si le critique dit « cette action était pire que la moyenne » (avantage négatif), sa probabilité diminue.

Le critique (Critic)

Le critique est un réseau de neurones séparé qui estime la valeur de l’état V(s) (dans A2C/A3C/PPO) ou la valeur de la paire état-action Q(s,a) (dans SAC/DDPG). Il est mis à jour par minimisation de l’erreur de temporal difference (TD error) : la différence entre sa prédiction et la récompense observée + sa propre estimation de l’état suivant.

L’erreur TD du critique a un double rôle : elle sert à mettre à jour le critique lui-même ET à calculer l’avantage qui guide la mise à jour de l’acteur. Si l’erreur TD est positive, l’action a produit un résultat meilleur que prévu. Si elle est négative, le résultat est pire que prévu.

La fonction d’avantage (Advantage)

L’avantage A(s, a) mesure à quel point une action est meilleure ou pire que la moyenne dans un état donné :

A(s, a) = Q(s, a) - V(s)

En pratique, l’avantage est souvent estimé par l’erreur TD : A ≈ r + γV(s') - V(s), ou par le Generalized Advantage Estimation (GAE), une moyenne exponentiellement pondérée des erreurs TD sur plusieurs étapes, qui offre un compromis réglable entre biais et variance via le paramètre λ.

Partage de paramètres : avantages et risques L’acteur et le critique peuvent partager les premières couches du réseau (feature extraction commune) avec des têtes de sortie séparées. Cela réduit le nombre de paramètres et permet aux deux de bénéficier des mêmes features apprises. Mais cela peut créer des conflits entre les objectifs d’optimisation de l’acteur et du critique. PPG (Phasic Policy Gradient, Cobbe et al., 2020) résout ce conflit en alternant des phases d’entraînement séparées pour la politique et la valeur.

Les variantes majeures Actor-Critic

A2C (Advantage Actor-Critic)

A2C est la version synchrone et la plus directe de l’Actor-Critic avec avantage. Plusieurs acteurs interagissent en parallèle avec des copies de l’environnement, collectent des segments d’expérience, puis se synchronisent pour calculer un batch de mise à jour unique. Le gradient est moyenné sur tous les acteurs avant d’appliquer la mise à jour.

A2C est souvent préféré à A3C en pratique car il est plus simple à implémenter, plus facile à débugger et plus efficace sur GPU (qui excelle au traitement de gros batchs). OpenAI a confirmé que leur implémentation synchrone A2C est plus performante que leur implémentation asynchrone A3C sur GPU unique.

A3C (Asynchronous Advantage Actor-Critic)

Introduit par Mnih et al. (DeepMind, 2016), A3C a été une percée majeure. L’idée clé : exécuter plusieurs agents en parallèle, chacun avec sa propre copie de l’environnement, mettant à jour un réseau global partagé de manière asynchrone. Les mises à jour asynchrones de travailleurs explorant différentes parties de l’environnement décorrèlent les données, éliminant le besoin d’experience replay (utilisé par DQN pour le même objectif).

A3C a montré que le parallélisme pouvait remplacer l’experience replay pour stabiliser l’entraînement. Cependant, la communauté a constaté que l’asynchronie elle-même ne procure pas d’avantage en performance : c’est la parallélisation des environnements qui compte, pas le caractère asynchrone des mises à jour. D’où la préférence pour A2C (synchrone) dans la pratique.

DDPG (Deep Deterministic Policy Gradient)

DDPG (Lillicrap et al., 2015) adapte l’Actor-Critic aux espaces d’actions continues avec une politique déterministe (au lieu de stochastique). L’acteur produit directement une action (pas une distribution), et le critique évalue Q(s,a). DDPG utilise l’experience replay et un target network (comme DQN) pour la stabilité, avec des mises à jour « douces » (soft updates) des réseaux cibles. Du bruit est ajouté à l’action pour l’exploration.

DDPG a été le premier algorithme Actor-Critic vraiment efficace pour le contrôle continu (robotique, locomotion), mais il est sensible aux hyperparamètres et peut souffrir de surestimation des Q-values.

TD3 (Twin Delayed DDPG)

TD3 (Fujimoto et al., 2018) corrige les faiblesses de DDPG avec trois innovations : deux réseaux critiques (le minimum des deux estimations réduit la surestimation), des mises à jour retardées de l’acteur (moins fréquentes que celles du critique), et du bruit ajouté aux actions cibles (lissage de la cible). TD3 est plus stable et robuste que DDPG.

SAC (Soft Actor-Critic)

SAC (Haarnoja et al., 2018) est l’un des algorithmes Actor-Critic les plus populaires en 2026. Son innovation majeure : l’entropie maximale. SAC maximise non seulement la récompense cumulée mais aussi l’entropie de la politique (sa « diversité »). Concrètement, l’objectif est : maximiser la récompense tout en étant aussi aléatoire que possible.

Pourquoi c’est utile : une politique à haute entropie explore davantage, ce qui la rend plus robuste aux changements d’environnement et évite les optima locaux. SAC est off-policy (utilise l’experience replay), ce qui le rend sample-efficient. Il utilise deux réseaux critiques Q (comme TD3) et un coefficient de température α auto-ajusté pour équilibrer exploration et exploitation.

SAC est le choix de prédilection pour le contrôle continu en robotique, la locomotion et toute tâche nécessitant une politique robuste et exploratoire.

PPO (Proximal Policy Optimization)

PPO est techniquement un algorithme Actor-Critic (il utilise un acteur et un critique avec GAE pour l’estimation de l’avantage). Sa spécificité est le clipping du ratio de probabilités pour limiter les mises à jour trop agressives. C’est le standard industriel pour le RLHF des LLM et un excellent choix pour les problèmes généraux de RL.

Algorithme	Type	Actions	On/Off-policy	Innovation clé	Cas d’usage
A2C	Stochastique	Discret + continu	On-policy	Avantage + parallélisme synchrone	Baseline polyvalente, jeux
A3C	Stochastique	Discret + continu	On-policy	Mises à jour asynchrones multi-agents	Jeux, contrôle (historique)
DDPG	Déterministe	Continu	Off-policy	Politique déterministe + replay buffer	Contrôle continu, robotique
TD3	Déterministe	Continu	Off-policy	Twin critics + delayed updates + target smoothing	Contrôle continu amélioré
SAC	Stochastique	Continu (+ discret)	Off-policy	Entropie maximale + α auto-ajusté	Robotique, locomotion, exploration
PPO	Stochastique	Discret + continu	On-policy	Clipping du ratio de probabilités	RLHF LLM, jeux, universel

Quel algorithme Actor-Critic choisir ?

Le choix dépend principalement de deux critères : le type d’espace d’actions et le budget en sample efficiency.

Actions discrètes (jeux, navigation, LLM) : PPO est le choix par défaut. Stable, bien documenté, performant. A2C est une alternative plus simple pour les problèmes faciles.

Actions continues, besoin de sample efficiency (robotique, contrôle) : SAC est le meilleur choix. Il est off-policy (réutilise les données via replay buffer), robuste grâce à l’entropie maximale et performant en contrôle continu. TD3 est une alternative si la stochasticité de SAC n’est pas souhaitée.

Actions continues, budget compute limité : PPO (on-policy) si vous pouvez générer des données rapidement (simulation rapide). SAC (off-policy) si les interactions sont coûteuses et que vous devez maximiser l’utilisation de chaque donnée.

RLHF pour LLM : PPO reste le standard (ChatGPT, Claude). GRPO (DeepSeek) et RLOO (REINFORCE-style) gagnent du terrain car ils n’ont pas besoin du réseau critique séparé, économisant de la mémoire GPU.

Generalized Advantage Estimation (GAE)

Le GAE (Schulman et al., 2015) est la méthode standard pour estimer l’avantage dans les algorithmes Actor-Critic modernes (A2C, PPO). Il offre un compromis réglable entre biais et variance via le paramètre λ (lambda).

Le GAE calcule l’avantage comme une moyenne exponentiellement pondérée des erreurs TD sur n étapes :

Avec λ = 0, le GAE utilise l’erreur TD 1-étape (faible variance, mais biais élevé car il dépend de la qualité du critique). Avec λ = 1, il utilise le retour Monte Carlo complet (sans biais, mais haute variance). En pratique, λ = 0,95 est un bon point de départ, offrant un bon compromis.

Le GAE est essentiel pour la stabilité de PPO : sans lui, les estimations d’avantage seraient trop bruitées (si Monte Carlo pur) ou trop biaisées (si TD 1-étape).

Applications en 2026

RLHF et alignement des LLM : PPO (Actor-Critic) est l’algorithme qui a produit ChatGPT et reste central en 2026. L’acteur est le LLM, le critique estime la valeur par token. La pénalité KL empêche la dérive par rapport au modèle SFT. Infrastructure : 4 modèles simultanés (acteur, critique, récompense, référence) sur 8-16 GPU H100.

Robotique : SAC et PPO dominent. SAC pour la locomotion quadrupède (Swiss-Mile), la manipulation d’objets (Covariant, Osaro) et la navigation de drones. PPO pour le sim-to-real transfer via NVIDIA Isaac Sim. Le modèle de robotique NVIDIA Isaac GR00T N1 utilise un pipeline Actor-Critic pour l’entraînement.

Jeux : A3C et PPO ont été les algorithmes de référence pour les jeux Atari, les jeux de stratégie (StarCraft II via AlphaStar) et les jeux de course (Gran Turismo via GT Sophy). En 2026, le multi-agent RL utilise des architectures Actor-Critic avec entraînement centralisé et exécution décentralisée (CTDE).

Optimisation industrielle : contrôle de processus chimiques, gestion de l’énergie dans les smart grids, optimisation du trafic réseau, gestion de portefeuille financier.

Verdict

L’Actor-Critic est l’architecture dominante du reinforcement learning moderne. Presque tout algorithme RL sérieux en 2026 est, sous une forme ou une autre, un Actor-Critic : PPO (RLHF), SAC (robotique), A2C (baseline), GRPO (raisonnement LLM). L’idée de séparer la décision (acteur) de l’évaluation (critique) est simple mais puissante : elle combine la flexibilité des policy gradient avec la stabilité des méthodes value-based.

Pour les praticiens : commencez par PPO via Stable Baselines3 (le plus polyvalent). Passez à SAC pour le contrôle continu si la sample efficiency est critique. Utilisez A2C comme baseline simple pour benchmarker vos résultats. Et comprenez le GAE en profondeur : c’est le mécanisme qui fait fonctionner l’estimation d’avantage dans tous ces algorithmes. Le paramètre λ du GAE est l’un des hyperparamètres les plus importants et les moins compris.

La tendance 2026 est la simplification : pour le RLHF des LLM, les méthodes qui éliminent le critique séparé (REINFORCE-style, GRPO) gagnent du terrain car elles économisent de la mémoire GPU. Mais pour le RL classique (robotique, jeux, contrôle), le critique reste indispensable pour la stabilité et l’efficacité de l’apprentissage.

Questions fréquentes sur l’Actor-Critic

Quelle est la différence entre Actor-Critic et REINFORCE ?

REINFORCE est un algorithme policy gradient pur : il met à jour la politique en utilisant le retour Monte Carlo complet (récompense cumulée de l’épisode entier). L’Actor-Critic ajoute un critique qui estime la valeur de chaque état et fournit un signal d’avantage plus stable pour mettre à jour l’acteur. Résultat : l’Actor-Critic a une variance plus faible et converge plus vite que REINFORCE, mais il introduit un léger biais (le critique n’est pas parfait). En pratique, cette réduction de variance vaut largement le petit biais introduit.

A2C ou A3C : lequel est meilleur ?

A2C (synchrone) est généralement préféré en 2026. OpenAI a montré que la synchronie n’introduit aucune perte de performance par rapport à l’asynchronie d’A3C, tout en étant plus simple à implémenter, plus facile à débugger et plus efficace sur GPU (qui excelle au traitement de gros batchs synchrones). A3C reste pertinent sur des architectures CPU-only où la parallélisation asynchrone peut être plus rapide, mais ce cas est de plus en plus rare avec la généralisation des GPU.

Quand utiliser SAC plutôt que PPO ?

SAC est le meilleur choix pour le contrôle continu (robotique, locomotion, manipulation d’objets) quand la sample efficiency est critique, car il est off-policy (réutilise les données via replay buffer). PPO est préféré pour les problèmes à actions discrètes, le RLHF des LLM et les situations où la simplicité et la stabilité sont prioritaires. Si vous pouvez générer des données rapidement (simulation rapide), PPO est suffisant. Si chaque interaction est coûteuse (robot physique), SAC sera plus efficace.

Qu’est-ce que le GAE et pourquoi est-il important ?

Le GAE (Generalized Advantage Estimation) est la méthode standard pour estimer l’avantage dans les algorithmes Actor-Critic. Il calcule une moyenne pondérée des erreurs TD sur n étapes, avec un paramètre λ qui contrôle le compromis biais/variance. Avec λ = 0, on utilise l’erreur TD 1-étape (faible variance, biais élevé). Avec λ = 1, on utilise le retour Monte Carlo complet (sans biais, haute variance). La valeur typique λ = 0,95 offre un bon compromis. Le GAE est essentiel à la stabilité de PPO et d’A2C.

Comment l’Actor-Critic est-il utilisé dans le RLHF des LLM ?

Dans le pipeline RLHF, le LLM est l’acteur (il génère des tokens), et un réseau critique séparé estime la valeur par token (prédisant le retour futur incluant les pénalités KL). Le critique utilise le GAE pour calculer l’avantage, et PPO utilise cet avantage pour mettre à jour l’acteur (le LLM). L’entraînement nécessite 4 modèles simultanés : acteur, critique, modèle de récompense et modèle de référence. Cela consomme beaucoup de mémoire GPU, ce qui explique l’intérêt croissant pour les méthodes sans critique séparé (GRPO, REINFORCE-style).