Policy Gradient (Gradient de politique)
Les méthodes policy gradient sont une famille d’algorithmes de reinforcement learning qui optimisent directement la politique de l’agent (la fonction qui associe un état à une distribution de probabilités sur les actions) par montée de gradient sur une mesure de performance, plutôt que d’apprendre une fonction de valeur intermédiaire.
Contrairement aux méthodes value-based comme le Q-Learning qui estiment la valeur des actions pour en déduire la politique, les policy gradient apprennent la politique elle-même. L’idée : si une action dans un état donné produit une bonne récompense, on augmente la probabilité de cette action dans cet état. Si elle produit une mauvaise récompense, on la diminue. L’algorithme fondateur est REINFORCE (Williams, 1992), et ses descendants directs incluent Actor-Critic, TRPO, PPO et GRPO. En 2026, les policy gradient sont le moteur de l’alignement des LLM via RLHF et de l’entraînement au raisonnement via RLVR.
- Catégorie
- Algorithme de Reinforcement Learning (policy-based)
- Principe
- Optimisation directe de π(a|s;θ) par montée de gradient sur la récompense cumulée
- Algorithme fondateur
- REINFORCE (Ronald J. Williams, 1992)
- Descendants
- Actor-Critic (A2C/A3C), TRPO, PPO, GRPO, RLOO, DAPO
- Forces
- Actions continues, haute dimension, stochastique par nature
- Faiblesse principale
- Haute variance des estimations de gradient
- Usage majeur 2026
- RLHF/RLVR pour LLM (alignement et raisonnement)
Pourquoi optimiser la politique directement ?
Les méthodes value-based (Q-Learning, DQN) fonctionnent très bien pour les espaces d’actions discrets et de taille modeste. Mais elles rencontrent des difficultés fondamentales dans trois situations :
Actions continues : un bras robotique a besoin d’un angle précis (0 à 360°), pas d’un choix parmi 4 directions discrètes. Le Q-Learning nécessite de calculer le max des Q-values sur toutes les actions, ce qui est impossible en espace continu sans discrétisation (perte de précision). Les policy gradient modélisent directement une distribution continue (typiquement une gaussienne dont la moyenne et l’écart-type sont appris) d’où les actions sont échantillonnées.
Actions de haute dimension : un jeu vidéo avec des centaines d’actions possibles ou un LLM avec un vocabulaire de 100 000 tokens rend le calcul du max impraticable. La politique paramétrisée par un réseau de neurones gère naturellement ces espaces.
Politiques stochastiques : dans certains environnements (jeux à information incomplète, négociation), la politique optimale est intrinsèquement stochastique (mélanger aléatoirement les stratégies). Les policy gradient produisent naturellement des distributions de probabilités sur les actions, tandis que les méthodes value-based convergent vers des politiques déterministes.
Le théorème du gradient de politique
Le théorème du gradient de politique (Sutton et al., 2000) fournit une expression analytique pour le gradient de la performance J(θ) par rapport aux paramètres θ de la politique. Sans entrer dans le détail de la dérivation (qui repose sur le « log-trick » et le calcul d’espérances), le résultat central est :
∇J(θ) = E_π [ Σ_t ∇_θ log π(a_t | s_t ; θ) × G_t ]
En français : le gradient de la performance est l’espérance, sur les trajectoires échantillonnées selon la politique courante, du produit entre le gradient du log de la probabilité de l’action prise et le retour (récompense cumulée) obtenu. Intuitivement, si une action a mené à un bon retour, le gradient pointe dans la direction qui augmente sa probabilité. Si elle a mené à un mauvais retour, le gradient pointe dans la direction qui la diminue. On monte le gradient (gradient ascent) pour maximiser la performance.
Ce théorème est la base théorique de REINFORCE et de tous les algorithmes policy gradient qui en découlent.
REINFORCE : l’algorithme fondateur
REINFORCE (Williams, 1992) est l’implémentation la plus directe du théorème du gradient de politique. C’est un algorithme Monte Carlo : il génère des épisodes complets, calcule les retours, puis met à jour la politique.
Étapes de REINFORCE
1. Initialiser les paramètres θ de la politique (réseau de neurones) aléatoirement.
2. Générer un épisode complet en suivant la politique courante : (s₀, a₀, r₁, s₁, a₁, r₂, …, s_T).
3. Pour chaque étape t de l’épisode, calculer le retour G_t (somme actualisée des récompenses futures depuis t).
4. Calculer le gradient : ∇_θ log π(a_t | s_t ; θ) × G_t pour chaque étape.
5. Mettre à jour les paramètres : θ ← θ + α × gradient (montée de gradient).
6. Répéter sur de nombreux épisodes.
La mise à jour est intuitive : les actions qui ont mené à de bonnes récompenses voient leur probabilité augmenter. Les actions qui ont mené à de mauvaises récompenses voient leur probabilité diminuer. Le mot « REINFORCE » vient de là : les bonnes actions sont renforcées.
Le problème de la variance
Le défaut majeur de REINFORCE est sa haute variance. Le retour G_t est estimé à partir d’un seul épisode échantillonné, ce qui le rend très bruité. Deux trajectoires différentes depuis le même état peuvent donner des retours radicalement différents. Conséquence : les gradients oscillent violemment, l’entraînement est instable et la convergence est lente.
C’est analogue à estimer l’âge moyen d’un pays en sondant seulement 10 personnes : le résultat varie énormément selon l’échantillon. Il faut soit augmenter le nombre d’échantillons (coûteux), soit trouver des techniques pour réduire la variance.
REINFORCE avec baseline : réduire la variance
La technique la plus importante pour réduire la variance est l’introduction d’une baseline b(s). L’idée mathématique est élégante : soustraire une constante qui ne dépend que de l’état (et pas de l’action) du retour ne change pas le biais du gradient, mais peut réduire considérablement sa variance.
La mise à jour devient :
∇J(θ) = E_π [ Σ_t ∇_θ log π(a_t | s_t ; θ) × (G_t - b(s_t)) ]
Le choix optimal de la baseline est la fonction de valeur de l’état V(s_t) : elle représente le retour « moyen » attendu depuis cet état. Le terme (G_t – b(s_t)) devient alors l’avantage (advantage) : la différence entre le retour réel et le retour moyen attendu. Un avantage positif signifie « cette action a fait mieux que la moyenne », un avantage négatif signifie « cette action a fait moins bien que la moyenne ».
Cette notion d’avantage est le pont vers les méthodes Actor-Critic, où un réseau de neurones séparé (le critique) apprend à estimer V(s) et fournit la baseline à l’acteur (la politique).
L’évolution : d’Actor-Critic à PPO et GRPO
Les policy gradient ont donné naissance à une lignée d’algorithmes de plus en plus sophistiqués, chacun résolvant un problème de son prédécesseur.
Actor-Critic
L’Actor-Critic combine deux réseaux : l’acteur (la politique π) et le critique (la fonction de valeur V). Le critique estime la valeur de chaque état, fournissant une baseline apprise qui réduit la variance. L’acteur est mis à jour en utilisant l’avantage calculé par le critique. Variantes clés : A2C (synchrone), A3C (asynchrone, parallèle).
TRPO (Trust Region Policy Optimization)
TRPO (Schulman et al., 2015) adresse un problème fondamental : une mise à jour trop grande de la politique peut la détruire. TRPO limite la taille de chaque mise à jour en imposant une contrainte sur la divergence KL entre l’ancienne et la nouvelle politique. Résultat : des mises à jour stables et monotoniquement améliorantes. Inconvénient : TRPO est complexe à implémenter (optimisation sous contrainte, calcul de la matrice de Fisher).
PPO (Proximal Policy Optimization)
PPO (Schulman et al., 2017) simplifie TRPO en remplaçant la contrainte KL par un clipping du ratio de probabilités. Si la nouvelle politique s’éloigne trop de l’ancienne (ratio trop grand ou trop petit), la mise à jour est « clippée » (limitée). C’est beaucoup plus simple à implémenter que TRPO tout en étant presque aussi stable. PPO est devenu le standard industriel pour le RLHF (ChatGPT original, Claude, Gemini) grâce à sa combinaison unique de simplicité, stabilité et performance.
GRPO (Group Relative Policy Optimization)
GRPO, introduit par DeepSeek en 2025, est l’évolution la plus récente. Au lieu d’utiliser un modèle de récompense appris (comme dans PPO/RLHF classique), GRPO compare les réponses au sein d’un groupe et utilise un estimateur normalisé (Leave None Out). GRPO est le moteur de DeepSeek-R1 et de la percée en raisonnement des LLM. Il supporte l’extension off-policy (entraînement sur les données collectées pendant plusieurs epochs), ce qui améliore l’efficacité de l’utilisation des données.
RLOO et DAPO
RLOO (REINFORCE Leave-One-Out) est la version moderne de REINFORCE avec un estimateur d’avantage qui moyenne les retours du groupe en excluant l’échantillon courant (bARLOO). DAPO ajoute un clipping asymétrique pour encourager le renforcement des actions correctes de faible probabilité. Ces variantes sont publiées à ICLR 2026 et représentent l’état de l’art pour l’entraînement au raisonnement des LLM.
| Algorithme | Année | Innovation clé | Complexité | Usage principal |
|---|---|---|---|---|
| REINFORCE | 1992 | Premier policy gradient, Monte Carlo | Simple | Pédagogie, petits problèmes |
| REINFORCE + baseline | 1992+ | Soustraction d’une baseline pour réduire la variance | Simple | Pédagogie, baseline pour Actor-Critic |
| Actor-Critic (A2C/A3C) | 2016 | Critique appris (V(s)) comme baseline, parallélisme | Moyenne | Jeux, contrôle |
| TRPO | 2015 | Contrainte KL pour mises à jour stables | Élevée | Robotique, contrôle continu |
| PPO | 2017 | Clipping du ratio de probabilités (simplifie TRPO) | Moyenne | RLHF LLM, jeux, robotique (standard industriel) |
| GRPO | 2025 | Estimateur groupe normalisé, off-policy | Moyenne | Raisonnement LLM (DeepSeek-R1) |
| RLOO / DAPO | 2025-2026 | Estimateur Leave-One-Out, clipping asymétrique | Moyenne | RLVR, raisonnement LLM |
Policy gradient et LLM : le lien fondamental
En 2026, l’application la plus importante des policy gradient est l’alignement et l’entraînement au raisonnement des LLM. Dans ce contexte, le LLM est la politique : il génère une séquence de tokens (actions) en réponse à un prompt (état). La récompense provient soit d’un modèle de récompense appris sur les préférences humaines (RLHF), soit d’un vérificateur automatique (RLVR).
Le pipeline est identique en structure à REINFORCE : le modèle génère une complétion (trajectoire), reçoit un score (récompense), et le gradient de politique est calculé pour augmenter la probabilité des complétions bien notées et diminuer celle des complétions mal notées. PPO ajoute le clipping pour la stabilité, GRPO ajoute la normalisation intra-groupe, et une pénalité KL empêche la politique de dériver trop loin du modèle SFT original.
La recherche récente (ICLR 2026) montre que les algorithmes policy gradient réduisent naturellement l’entropie (la diversité) de la politique au fil de l’entraînement, ce qui limite la capacité d’exploration. Des techniques de préservation de l’entropie (entropy bonus, clipping asymétrique) sont activement développées pour maintenir la diversité des solutions explorées, notamment pour les tâches de raisonnement où la créativité est essentielle.
On-policy vs off-policy dans les policy gradient
REINFORCE et PPO sont fondamentalement on-policy : les données utilisées pour la mise à jour doivent être générées par la politique courante. Cela signifie qu’après chaque mise à jour, les données précédentes deviennent obsolètes et doivent être régénérées. C’est coûteux : 80% du temps de calcul RLHF est consacré à la génération d’échantillons.
GRPO et ses variantes introduisent des extensions off-policy : les données collectées peuvent être réutilisées pendant plusieurs epochs d’entraînement (typiquement 2), avec le clipping PPO qui garantit que la mise à jour reste proche de la politique qui a généré les données. C’est un compromis entre efficacité (réutilisation des données) et fidélité (les données ne sont plus parfaitement « on-policy »).
À l’autre extrémité du spectre, DPO (Direct Preference Optimization) est entièrement off-policy : il optimise directement sur un dataset fixe de préférences sans générer de nouvelles données. C’est plus simple mais potentiellement moins expressif que les approches on-policy.
Implémentation pratique
Pour les développeurs qui veulent implémenter les policy gradient :
Pédagogie : implémentez REINFORCE from scratch sur CartPole (Gymnasium) avec PyTorch. Le code tient en ~50 lignes et vous donnera une compréhension profonde du théorème du gradient de politique, de la log-probabilité et de la mise à jour par montée de gradient.
Production RL classique : utilisez Stable Baselines3 qui fournit des implémentations robustes de PPO, A2C et d’autres algorithmes policy gradient. Commencez par PPO : c’est l’algorithme le plus polyvalent et le mieux documenté.
RLHF pour LLM : utilisez des frameworks spécialisés comme TRL (Transformer Reinforcement Learning, HuggingFace), OpenRLHF ou veRL. Ces frameworks gèrent les spécificités du RLHF (génération de complétions, modèle de récompense, pénalité KL, multi-GPU) et implémentent PPO, GRPO et REINFORCE-style optimisés pour les LLM.
Verdict
Les policy gradient sont le fil conducteur qui relie REINFORCE (1992) à PPO (2017) puis à GRPO (2025) et aux algorithmes RLVR de 2026. C’est la famille d’algorithmes qui a rendu possible l’alignement des LLM via RLHF et qui propulse maintenant l’entraînement au raisonnement (DeepSeek-R1, modèles o1-style). Comprendre les policy gradient, de l’intuition (renforcer les bonnes actions, pénaliser les mauvaises) à la mécanique (théorème du gradient, baseline, avantage, clipping), est indispensable pour tout praticien de l’IA moderne.
Le choix d’algorithme en 2026 dépend du contexte. Pour le RL classique (jeux, contrôle, robotique) : PPO via Stable Baselines3. Pour le RLHF de LLM avec des ressources modestes : REINFORCE-style (RLOO) via TRL. Pour le raisonnement LLM à grande échelle : GRPO ou DAPO. La tendance est à la simplification : les variantes REINFORCE reviennent en force face à PPO, portées par leur moindre coût en mémoire et leur implémentation plus directe.
Le défi persistant est la variance. Même avec les baselines, le clipping et les estimateurs de groupe, les policy gradient restent plus bruités et plus difficiles à tuner que le supervised learning. C’est pourquoi la conception de la fonction de récompense, le choix de la baseline et le monitoring de l’entropie de la politique restent des compétences artisanales autant que techniques.
Questions fréquentes sur les Policy Gradient
Quelle est la différence entre policy gradient et value-based (Q-Learning) ?
Les méthodes value-based (Q-Learning, DQN) apprennent une fonction de valeur Q(s,a) et en déduisent la politique (choisir l’action de Q-value maximale). Les policy gradient optimisent directement la politique π(a|s) par montée de gradient. Les policy gradient gèrent nativement les actions continues et de haute dimension, tandis que le Q-Learning est limité aux actions discrètes. En contrepartie, les policy gradient souffrent d’une variance plus élevée et convergent plus lentement. Les méthodes Actor-Critic combinent les deux approches.
Qu’est-ce que REINFORCE et pourquoi est-il important ?
REINFORCE (Williams, 1992) est le premier algorithme policy gradient. Il génère des épisodes complets, calcule les retours et met à jour la politique pour renforcer les actions qui ont mené à de bons résultats. Son importance est double : c’est la base théorique de tous les algorithmes policy gradient modernes (PPO, GRPO, DAPO), et ses variantes (RLOO, bARLOO) connaissent un retour en force en 2026 pour le RLHF des LLM, car elles sont plus simples et moins gourmandes en mémoire que PPO.
Pourquoi PPO est-il devenu le standard pour le RLHF ?
PPO offre la meilleure combinaison de stabilité, simplicité et performance parmi les algorithmes policy gradient. Son mécanisme de clipping empêche les mises à jour catastrophiques (la politique ne peut pas changer trop d’un coup), ce qui est crucial pour le RLHF où une mise à jour instable peut détruire les capacités du LLM. OpenAI l’a utilisé pour ChatGPT, et il est devenu le standard par défaut. Cependant, GRPO (DeepSeek) et REINFORCE-style (RLOO) gagnent du terrain en 2026.
Qu’est-ce que la baseline et pourquoi est-elle importante ?
La baseline est une valeur soustraite du retour dans l’estimation du gradient. Elle ne change pas la direction moyenne du gradient (pas de biais) mais réduit considérablement la variance des estimations. La baseline optimale est la fonction de valeur V(s). Sans baseline, REINFORCE attribue du crédit positif à toutes les actions d’un épisode réussi, même celles qui n’ont pas contribué au succès. Avec la baseline V(s), seules les actions qui ont fait « mieux que la moyenne » sont renforcées. C’est le concept d’avantage (advantage) qui est au cœur de PPO et de tous les algorithmes modernes.
Comment les policy gradient sont-ils utilisés pour entraîner les LLM au raisonnement ?
Le LLM est traité comme une politique qui génère des séquences de tokens (trajectoires). Pour le raisonnement (RLVR), le LLM génère une solution (code, preuve mathématique) et un vérificateur automatique (tests unitaires, solveur mathématique) fournit une récompense binaire (correct/incorrect). Le policy gradient (PPO, GRPO ou RLOO) met à jour le LLM pour augmenter la probabilité des raisonnements corrects. C’est la technique derrière DeepSeek-R1 et les modèles o1-style d’OpenAI. L’enjeu actuel est la préservation de l’entropie : les algorithmes tendent à réduire la diversité des solutions explorées, ce qui limite l’apprentissage. Des techniques comme le clipping asymétrique (DAPO) et les bonus d’entropie sont développées pour contrer cet effet.