RLHF (Reinforcement Learning from Human Feedback)

Definition Le RLHF (Reinforcement Learning from Human Feedback) est une technique d’entrainement qui utilise l’apprentissage par renforcement pour aligner les reponses d’un grand modele de langage sur les preferences humaines. C’est la methode qui a transforme les LLM bruts en chatbots utiles et coherents comme ChatGPT, Claude et Gemini.

Pourquoi le RLHF est necessaire

Un LLM pre-entraine sur du texte brut est un excellent predicteur de mots, mais un pietre assistant. Il peut generer du contenu toxique, inventer des faits (hallucinations), refuser de repondre a des questions simples ou fournir des reponses techniquement correctes mais inutiles. Le pre-entrainement apprend au modele a predire du texte ; le RLHF lui apprend a etre utile, honnete et inoffensif.

L’apprentissage supervise classique (SFT, Supervised Fine-Tuning) peut affiner un modele sur des exemples de bonnes reponses, mais il ne capture pas bien les nuances de qualite. Entre deux reponses acceptables, laquelle est meilleure ? Le RLHF repond a cette question en apprenant directement des preferences humaines plutot que d’exemples absolus.

Le pipeline RLHF en 3 etapes

Etape 1 : Supervised Fine-Tuning (SFT)

Le modele pre-entraine est d’abord affine sur un dataset de demonstrations humaines de haute qualite. Des redacteurs produisent des reponses exemplaires pour une variete de prompts. Ce fine-tuning supervise transforme le modele de langage en un assistant de base capable de suivre des instructions. Le SFT est essentiel car il fournit un point de depart raisonnable pour l’etape RL.

Etape 2 : Entrainement du Reward Model

C’est l’etape distinctive du RLHF. Des evaluateurs humains recoivent un prompt et deux (ou plus) reponses generees par le modele SFT. Ils classent les reponses de la meilleure a la pire selon des criteres de qualite : utilite, exactitude, coherence, absence de toxicite.

Un reward model (modele de recompense) est alors entraine pour predire les preferences humaines. C’est generalement un LLM dont la derniere couche est remplacee par une tete scalaire qui produit un score. Donne un prompt et une reponse, le reward model attribue un score reflectant la qualite perdue par les humains.

La fonction de perte est basee sur les comparaisons par paires : le modele doit attribuer un score plus eleve a la reponse preferee qu’a la reponse rejetee. L’equation de Bradley-Terry formalise cette approche probabiliste des preferences.

Etape 3 : Optimisation RL avec PPO

Le modele SFT est maintenant optimise avec PPO (Proximal Policy Optimization) en utilisant le reward model comme signal de recompense. Pour chaque prompt, le modele genere une reponse, le reward model lui attribue un score, et PPO ajuste les poids du modele pour maximiser ce score.

Un element crucial est la penalite KL-divergence : elle empeche le modele de s’eloigner trop du modele SFT de reference. Sans cette contrainte, le modele pourrait « tricher » en produisant des reponses que le reward model survalue (reward hacking) mais qui sont en realite de mauvaise qualite. La penalite KL garantit que l’optimisation reste dans une zone ou le reward model est fiable.

Etape	Donnees	Objectif	Resultat
Pre-entrainement	Corpus texte massif	Predire le prochain token	Modele de langage brut
SFT	Demonstrations humaines	Suivre des instructions	Assistant de base
Reward Model	Comparaisons humaines	Predire les preferences	Fonction de recompense
PPO + RL	Prompts + reward model	Maximiser la recompense	Assistant aligne

Qui utilise le RLHF

OpenAI a popularise le RLHF avec InstructGPT (2022), puis ChatGPT. L’article fondateur « Training language models to follow instructions with human feedback » a demontre que le RLHF ameliore drastiquement la qualite percue des reponses, meme sur des modeles plus petits. Un modele de 1.3B parametres affine avec RLHF etait prefere a un modele GPT-3 175B non aligne.

Anthropic utilise le RLHF comme composant central de l’entrainement de Claude, combine avec le Constitutional AI (RLAIF) qui remplace partiellement le feedback humain par un feedback genere par IA selon des principes constitutionnels.

Google DeepMind applique le RLHF a Gemini. Meta l’utilise pour Llama. DeepSeek a innove avec le Group Relative Policy Optimization (GRPO) pour DeepSeek-R1, une variante qui elimine le critic network du PPO classique. Pratiquement tous les LLM deployes en production passent par une forme de RLHF.

Defis du RLHF

Cout et scalabilite

L’annotation humaine est le goulet d’etranglement. Recruter, former et gerer des evaluateurs de qualite coute cher. Les preferences sont subjectives : deux evaluateurs peuvent classer differemment les memes reponses. L’accord inter-annotateurs est souvent imparfait, ce qui introduit du bruit dans le reward model. Les biais culturels, linguistiques et individuels des annotateurs se propagent dans le modele final.

Reward hacking

Le modele peut apprendre a exploiter les failles du reward model plutot qu’a genuinement ameliorer ses reponses. Il peut produire des reponses longues et verbeuses (les annotateurs preferent souvent les reponses plus longues), utiliser des formulations flatteuses ou eviter de prendre position sur des sujets controverses. La penalite KL attenoe ce probleme sans le resoudre completement.

Instabilite de l’entrainement

L’etape PPO est notoirement difficile a stabiliser. Les hyperparametres sont sensibles, l’entrainement peut diverger, et le debugging est complexe car il implique plusieurs modeles (policy, reward, reference, critic). La charge computationnelle est considerable : il faut executer le modele en generation pour chaque batch, puis scorer avec le reward model, puis calculer les gradients PPO.

Alternatives au RLHF

DPO (Direct Preference Optimization)

Le DPO reformule l’objectif RLHF comme un simple probleme de classification. Il elimine le reward model explicite et l’etape PPO en optimisant directement le modele a partir des paires de preferences. C’est mathematiquement equivalent au RLHF sous certaines hypotheses, mais beaucoup plus simple a implementer et a stabiliser. Le DPO est devenu le choix par defaut pour de nombreuses equipes en 2026.

RLAIF (RL from AI Feedback)

Le RLAIF remplace les evaluateurs humains par un modele IA qui juge les reponses. Anthropic l’a popularise avec le Constitutional AI : le modele evalue ses propres reponses selon des principes constitutionnels (honnetete, utilite, inoffensivite). Cela reduit le cout humain tout en maintenant un alignement de qualite.

Autres approches

ORPO (Odds Ratio Preference Optimization) combine le SFT et l’optimisation de preferences en une seule etape. KTO (Kahneman-Tversky Optimization) fonctionne avec des signaux binaires (bon/mauvais) au lieu de paires de preferences. SteerLM de NVIDIA utilise des attributs multidimensionnels (utilite, coherence, complexite) pour un controle plus fin. Le GRPO de DeepSeek simplifie PPO en utilisant les recompenses relatives au sein d’un groupe de reponses.

Methode	Reward Model	Etape RL	Complexite	Adoption
RLHF (PPO)	Oui	PPO	Elevee	OpenAI, Google
DPO	Non (implicite)	Non	Faible	Meta, communaute open source
RLAIF	IA	PPO ou DPO	Moyenne	Anthropic
GRPO	Oui	GRPO	Moyenne	DeepSeek
KTO	Non	Non	Faible	Recherche

Analyst Tip Si vous devez aligner un LLM et que vous n’avez pas une equipe dediee au RL, partez avec DPO. C’est plus simple a implementer, plus stable et les resultats sont comparables au RLHF classique pour la plupart des cas d’usage. Reservez le RLHF avec PPO pour les modeles de grande echelle ou vous avez les ressources d’ingenierie pour gerer la complexite du pipeline.

Impact sur l’IA generative

Le RLHF a eu un impact transformateur sur l’industrie de l’IA. Avant le RLHF, les LLM etaient des outils de recherche. Apres le RLHF, ils sont devenus des produits grand public. ChatGPT a atteint 100 millions d’utilisateurs en 2 mois, un record absolu. La qualite des reponses alignees a convaincu le public que l’IA conversationnelle etait mature.

Le RLHF a aussi introduit la notion d’alignement comme discipline a part entiere. La safety des modeles, la reduction des biais et la conformite aux valeurs humaines sont desormais des objectifs explicites de l’entrainement, pas des verifications post-hoc.

Tendances 2026

Le RLHF evolue rapidement. Le RL pour le raisonnement (utilise dans o1, o3 d’OpenAI et DeepSeek-R1) pousse les modeles a developper des chaines de pensee plus longues et plus rigoureuses. Le RLHF en ligne (online RLHF) collecte du feedback en temps reel pendant le deploiement plutot que par batchs. Le RLHF multimodal etend la technique aux modeles qui gerent texte, images et video simultanement. Le RLHF scalable explore des methodes pour reduire le cout humain tout en maintenant la qualite (debat IA, amplification recursive).

Points cles a retenir Le RLHF est le pont entre un LLM brut et un assistant utile. Son pipeline en 3 etapes (SFT, reward model, PPO) reste la reference, meme si des alternatives comme le DPO simplifient le processus. C’est la technique qui a lance l’ere des chatbots IA grand public et qui continue d’evoluer vers des formes plus efficaces et plus scalables.

FAQ – RLHF

Quelle est la difference entre RLHF et fine-tuning classique ?

Le fine-tuning classique (SFT) entraine le modele a imiter des exemples de bonnes reponses. Le RLHF va plus loin en apprenant des preferences relatives : entre deux reponses, laquelle est meilleure. Cette approche capture des nuances de qualite que le SFT seul ne peut pas modeliser, comme le style, la profondeur et la pertinence contextuelle.

Pourquoi utiliser PPO et pas un autre algorithme RL ?

PPO est utilise pour sa stabilite. L’entrainement RL sur des LLM est extremement sensible aux divergences et aux effondrements. PPO limite la taille des mises a jour de politique, ce qui le rend plus fiable que d’autres algorithmes comme REINFORCE ou A2C. Certains acteurs comme DeepSeek ont developpe des alternatives (GRPO) qui simplifient PPO tout en gardant sa stabilite.

Le DPO va-t-il remplacer le RLHF ?

Le DPO remplace deja le RLHF classique dans de nombreux cas, surtout pour les equipes avec des ressources limitees. Cependant, les plus grands labos (OpenAI, Google) continuent d’utiliser le RLHF avec PPO car il offre potentiellement plus de flexibilite pour le RL a grande echelle, le RL iteratif et le RL pour le raisonnement. Les deux approches coexistent.

Combien de donnees humaines faut-il pour le RLHF ?

InstructGPT utilisait environ 30 000 comparaisons humaines pour le reward model. Les systemes actuels utilisent des volumes plus importants (centaines de milliers de comparaisons), souvent completes par du feedback synthetique (RLAIF). La qualite des annotateurs est plus importante que la quantite : des evaluateurs experts produisent de meilleurs reward models que des foules non formees.

Le RLHF garantit-il la safety du modele ?

Non. Le RLHF ameliore significativement la safety mais ne la garantit pas. Le modele peut encore halluciner, produire des contenus biaises ou etre manipule par des prompts adversariaux (jailbreaks). Le RLHF est une couche de l’alignement parmi d’autres : le red teaming, les filtres de contenu et le monitoring en production sont aussi necessaires.