Apprentissage par Renforcement
Principe fondamental
Le RL repose sur un cadre formel appele processus de decision markovien (MDP). Un agent observe l’etat de son environnement, choisit une action parmi celles disponibles, recoit une recompense et transite vers un nouvel etat. Son objectif : maximiser la somme cumulee des recompenses futures, appelee retour (return).
Contrairement a l’apprentissage supervise qui dispose de reponses correctes pour chaque exemple, le RL decouvre les bonnes actions par essai-erreur. Et contrairement a l’apprentissage non supervise, il recoit un signal de feedback (la recompense), meme s’il est souvent retarde et partiel.
Ce paradigme est directement inspire de la psychologie comportementale : un animal apprend a repeter les actions qui menent a une recompense et a eviter celles qui causent une punition. Transpose aux systemes d’intelligence artificielle, ce mecanisme a produit des resultats spectaculaires.
Concepts cles
Agent et environnement
L’agent est le systeme qui prend des decisions. L’environnement est tout ce qui entoure l’agent et avec quoi il interagit. A chaque pas de temps, l’agent observe un etat s, execute une action a, recoit une recompense r et observe le nouvel etat s’. La boucle agent-environnement est le coeur de tout systeme RL.
Politique (Policy)
La politique (notee pi) est la strategie de l’agent : elle definit quelle action choisir dans chaque etat. Une politique peut etre deterministe (un etat donne toujours la meme action) ou stochastique (une distribution de probabilite sur les actions). L’objectif du RL est de trouver la politique optimale qui maximise le retour attendu.
Fonctions de valeur
La fonction de valeur d’etat V(s) estime le retour attendu en partant d’un etat s et en suivant la politique courante. La fonction de valeur d’action Q(s,a) estime le retour attendu en executant l’action a dans l’etat s puis en suivant la politique. Ces fonctions permettent a l’agent d’evaluer la qualite de sa situation et de ses choix.
Exploration vs exploitation
Le dilemme exploration-exploitation est central en RL. L’exploitation consiste a choisir l’action qui semble la meilleure selon les connaissances actuelles. L’exploration consiste a essayer des actions nouvelles pour decouvrir de meilleures strategies. Un agent purement exploiteur risque de rester bloque dans une solution sous-optimale. Les strategies comme epsilon-greedy, UCB et l’exploration par curiosite equilibrent ces deux objectifs.
Principaux algorithmes
Methodes model-free
Les methodes model-free apprennent directement une politique ou une fonction de valeur sans construire un modele de l’environnement. Elles se divisent en deux familles principales.
Les methodes basees sur la valeur estiment Q(s,a) et en deduisent la politique. Q-Learning est l’algorithme fondateur : il met a jour Q(s,a) via l’equation de Bellman. Deep Q-Network (DQN), developpe par DeepMind, remplace la table Q par un reseau de neurones profond, ce qui permet de traiter des espaces d’etats enormes comme les pixels de jeux Atari. DQN a marque le debut du deep reinforcement learning moderne.
Les methodes basees sur la politique optimisent directement la politique sans passer par Q. REINFORCE est l’algorithme de base du policy gradient. PPO (Proximal Policy Optimization) est devenu le standard grace a sa stabilite et sa facilite d’implementation. Il limite la taille des mises a jour pour eviter les effondrements d’entrainement.
Les methodes actor-critic combinent les deux approches : un actor (reseau politique) decide des actions, un critic (reseau valeur) evalue ces actions. A2C, A3C et SAC (Soft Actor-Critic) sont les variantes les plus connues.
| Algorithme | Type | Avantage | Usage typique |
|---|---|---|---|
| Q-Learning | Valeur | Simple, convergent | Espaces discrets |
| DQN | Valeur (deep) | Gere pixels, grands espaces | Jeux Atari |
| PPO | Politique | Stable, versatile | Robotique, RLHF, jeux |
| SAC | Actor-Critic | Exploration efficace | Controle continu |
| REINFORCE | Politique | Simple a implementer | Problemes simples |
Methodes model-based
Les methodes model-based construisent un modele de l’environnement (dynamique de transition et recompenses) et l’utilisent pour planifier. Elles sont plus efficaces en donnees car l’agent peut simuler des trajectoires dans son modele interne. MuZero (DeepMind) combine un modele appris avec la recherche arborescente Monte Carlo (MCTS), atteignant des performances surhumaines au Go, aux echecs et aux jeux Atari sans connaitre les regles.
Les world models, tendance forte en 2026, apprennent une representation compacte de la dynamique de l’environnement. L’agent peut planifier dans cet espace latent avant d’agir dans le monde reel.
Applications majeures
Jeux et benchmarks
Le RL a produit ses resultats les plus mediatiques dans les jeux. AlphaGo (2016) a battu le champion du monde de Go. AlphaZero a generalise l’approche aux echecs et au shogi en partant de zero. OpenAI Five a maitrise Dota 2 en equipe. AlphaStar a atteint le niveau Grand Master a StarCraft II. Ces succes demontrent la capacite du RL a resoudre des problemes de decision sequentielle d’une complexite extreme.
Alignement des LLM
L’application la plus impactante du RL aujourd’hui est l’alignement des grands modeles de langage. Le RLHF (Reinforcement Learning from Human Feedback) utilise PPO pour affiner les reponses des modeles selon les preferences humaines. Un reward model entraine sur des comparaisons humaines sert de signal de recompense. C’est la technique qui a transforme GPT-3 en ChatGPT et qui est utilisee par Claude, Gemini et tous les chatbots modernes.
Des alternatives comme le DPO (Direct Preference Optimization) simplifient le pipeline en eliminant le reward model explicite, mais le principe reste ancre dans le framework RL.
Robotique
Le RL permet aux robots d’apprendre des taches motrices complexes : locomotion, manipulation d’objets, navigation. Le sim-to-real transfer entraine l’agent dans un simulateur puis transfere la politique au robot physique. En 2026, des entreprises comme Figure, Boston Dynamics et Agility Robotics utilisent le RL pour la manipulation dextre et la locomotion adaptative.
Autres domaines
Le RL s’applique a l’optimisation de portefeuilles financiers, la gestion du trafic routier, la conception de medicaments (optimisation moleculaire), le controle de datacenters (Google a reduit la consommation energetique de 40% avec le RL), la publicite en ligne (optimisation d’encheres en temps reel) et les vehicules autonomes.
Defis et limites
L’efficacite en donnees (sample efficiency) est le defi numero un. Les algorithmes model-free necessitent souvent des millions d’interactions pour apprendre. C’est acceptable dans un simulateur mais prohibitif dans le monde reel. Les methodes model-based et le transfer learning attenuent ce probleme.
Le reward hacking se produit quand l’agent exploite une faille dans la fonction de recompense pour maximiser son score sans accomplir la tache visee. C’est un enjeu critique pour la safety IA. La specification precise des recompenses (reward design) est un art delicat.
La stabilite de l’entrainement est problematique : les algorithmes de deep RL sont fragiles. De petits changements d’hyperparametres ou de seed produisent des resultats tres differents. La reproductibilite reste un defi majeur pour la communaute de recherche.
L’extrapolation a de nouveaux environnements est limitee. Un agent entraine sur un jeu precis ne transfere generalement pas ses competences a un autre. La recherche sur le meta-RL et le multi-task RL vise a surmonter cette limitation.
RL multi-agent
Le RL multi-agent (MARL) etend le cadre a plusieurs agents qui interagissent dans un meme environnement. Ils peuvent cooperer, concourir ou faire les deux. Les jeux d’equipe (Dota 2, StarCraft), la conduite autonome et les systemes financiers sont des applications naturelles du MARL. Il introduit des defis supplementaires : la non-stationnarite (l’environnement change car les autres agents changent), la coordination et le credit assignment (attribuer le merite a chaque agent dans un resultat collectif).
Tendances 2026
Le RL a grande echelle (large-scale RL) est la tendance dominante. DeepSeek, OpenAI et Google entrainent des modeles avec du RL sur des milliards de tokens. Le RL pour le raisonnement permet aux modeles d’apprendre a reflechir avant de repondre, comme dans les modeles o1/o3 d’OpenAI ou DeepSeek-R1. Le RL en ligne avec feedback humain en temps reel remplace progressivement le RLHF classique par batchs. Enfin, le RL constitutionnel (Constitutional AI d’Anthropic) automatise une partie du feedback humain en utilisant des principes ecrits comme guide de recompense.
FAQ – Apprentissage par renforcement
Quelle est la difference entre RL, supervise et non supervise ?
Le supervise apprend a partir de paires (entree, reponse correcte). Le non supervise decouvre des structures dans des donnees sans labels. Le RL apprend par interaction avec un environnement, en recevant des recompenses. Le RL est le seul paradigme ou l’agent influence les donnees qu’il recoit (ses actions changent son etat futur).
Pourquoi PPO est-il si populaire ?
PPO offre un excellent compromis performance/stabilite. Il utilise une fonction objectif clippee qui empeche les mises a jour trop grandes de la politique, evitant les effondrements d’entrainement. Il est simple a implementer, parallelisable et fonctionne dans des domaines tres varies : jeux, robotique, alignement de LLM.
Qu’est-ce que le RLHF et pourquoi est-ce important ?
Le RLHF (Reinforcement Learning from Human Feedback) utilise le RL pour aligner les LLM sur les preferences humaines. Des evaluateurs comparent des reponses, un reward model apprend ces preferences, puis PPO optimise le modele. C’est la technique cle derriere ChatGPT, Claude et Gemini.
Le RL est-il utilisable sans simulateur ?
C’est possible mais difficile. Le RL model-free necessite beaucoup d’interactions, ce qui est couteux dans le monde reel. L’offline RL (apprendre de donnees existantes), les methodes model-based et le sim-to-real transfer sont les solutions principales. L’offline RL est une tendance forte pour les domaines ou l’experimentation est limitee (sante, finance).
Comment debuter en apprentissage par renforcement ?
Installez Gymnasium et Stable Baselines3 en Python. Commencez par des environnements simples (CartPole, LunarLander) avec PPO. Etudiez les cours de David Silver (DeepMind) ou le livre de Sutton et Barto. Progressez vers Atari et MuJoCo une fois les bases comprises.