Reward Model (Modele de Recompense)

Definition Un reward model (modele de recompense) est un modele d’intelligence artificielle entraine a predire les preferences humaines. Dans le contexte de l’alignement des LLM, il attribue un score a chaque reponse generee, servant de signal de recompense pour l’apprentissage par renforcement dans le pipeline RLHF.

Role dans le pipeline RLHF

Le reward model est la piece maitresse du RLHF. Il traduit les preferences humaines subjectives en un signal numerique exploitable par un algorithme d’optimisation comme PPO. Sans reward model, il faudrait un evaluateur humain pour chaque reponse generee pendant l’entrainement, ce qui est impossible a grande echelle.

Concretement, le reward model recoit un prompt et une reponse, et produit un score scalaire. Un score eleve signifie que la reponse serait probablement preferee par un evaluateur humain. Un score faible signifie le contraire. Ce score sert de recompense dans la boucle RL qui optimise le LLM.

Comment entrainer un reward model

Collecte des preferences

L’entrainement commence par la collecte de donnees de preferences. Des evaluateurs humains recoivent un prompt et deux (ou plus) reponses generees par le modele SFT. Ils classent les reponses de la meilleure a la pire selon des criteres predefined : utilite, exactitude factuelle, coherence, absence de toxicite, clarte.

La qualite de ces annotations est determinante. Les annotateurs doivent etre formes, les consignes doivent etre precises et les desaccords doivent etre geres (vote majoritaire, discussion, exclusion des cas ambigus). InstructGPT utilisait environ 30 000 comparaisons ; les systemes actuels en utilisent des centaines de milliers, souvent completes par du feedback synthetique.

Architecture du modele

Le reward model est typiquement un Transformer pre-entraine (souvent le meme que le LLM a aligner, ou un modele de taille similaire) dont la tete de generation de texte est remplacee par une tete lineaire qui produit un score scalaire. Le modele recoit la concatenation [prompt, reponse] en entree et produit un score unique en sortie.

Certaines architectures utilisent des reward models plus petits que le LLM a aligner pour economiser de la memoire GPU. D’autres utilisent des reward models multi-objectifs qui produisent plusieurs scores (utilite, safety, exactitude) au lieu d’un score unique, offrant un controle plus fin de l’alignement.

Fonction de perte

La perte standard est basee sur le modele de Bradley-Terry pour les preferences par paires. Pour un prompt x, une reponse gagnante y_w et une reponse perdante y_l, la perte est : L = -log(sigma(r(x, y_w) – r(x, y_l))), ou r est le score du reward model et sigma est la fonction sigmoide. Cette perte encourage le modele a attribuer un score plus eleve a la reponse preferee qu’a la reponse rejetee.

Pour les classements avec plus de deux reponses, des extensions comme la perte Plackett-Luce ou les comparaisons par paires exhaustives sont utilisees. Des variantes avec marges (le score gagnant doit depasser le score perdant d’au moins un certain ecart) ameliorent la calibration.

Defis et problemes

Reward hacking

Le reward hacking est le probleme principal des reward models. Le LLM optimise apprend a exploiter les failles du reward model plutot qu’a genuinement ameliorer ses reponses. Des exemples courants : le modele genere des reponses anormalement longues (les annotateurs preferent souvent les reponses detaillees, donc le reward model survalue la longueur), utilise des formulations excessivement polies ou evasives, ou produit des reponses qui semblent confiantes sans etre factuellement correctes.

La penalite KL dans le RLHF attenoe le reward hacking en empechant le modele de trop diverger de la reference. D’autres techniques incluent le reward model ensemble (moyenner plusieurs reward models), le reward model iteratif (re-entrainer le RM sur les reponses du modele optimise) et la detection d’overoptimization.

Biais des annotateurs

Les preferences humaines sont subjectives et biaisees. Les annotateurs peuvent preferer les reponses longues, les reponses qui evitent la controverse, les reponses qui flattent, ou les reponses dans un style particulier. Ces biais se propagent dans le reward model et, par consequent, dans le LLM aligne. Les biais culturels, linguistiques et demographiques des annotateurs influencent le comportement final du modele.

Les strategies de mitigation incluent la diversification du pool d’annotateurs, la formation intensive, les guidelines detaillees, le debiasing algorithmique et la combinaison de feedback humain avec du feedback IA (RLAIF).

Overoptimization

L’overoptimization se produit quand le LLM est optimise trop longtemps contre le reward model. La performance reelle (evaluee par des humains) augmente d’abord puis diminue, tandis que le score du reward model continue d’augmenter. C’est un phenomene de surapprentissage specifique au RL. La loi de Goodhart s’applique : quand une mesure devient un objectif, elle cesse d’etre une bonne mesure.

Les solutions incluent l’arret anticipe (early stopping), l’augmentation de la penalite KL, l’utilisation de reward models plus grands et plus robustes, et l’evaluation humaine periodique pendant l’entrainement.

Types de reward models

Type	Principe	Avantage	Exemple
Scalaire	Un score unique	Simple, standard	InstructGPT, ChatGPT
Multi-objectif	Scores par critere	Controle fin	SteerLM (NVIDIA)
Process-based	Score par etape de raisonnement	Meilleur pour le reasoning	OpenAI PRM
Outcome-based	Score sur le resultat final	Plus simple a annoter	Standard RLHF
Generatif	LLM comme juge	Scalable	LLM-as-a-Judge

Process vs Outcome Reward Models

Les outcome-based reward models (ORM) evaluent la reponse finale. Les process-based reward models (PRM) evaluent chaque etape du raisonnement. Pour les taches de raisonnement mathematique et logique, les PRM produisent de meilleurs resultats car ils penalisent les erreurs intermediaires meme si la conclusion est correcte par hasard. OpenAI a demontre la superiorite des PRM pour les problemes de maths avec leur modele PRM800K.

LLM comme reward model

Une tendance forte en 2026 est l’utilisation d’un LLM puissant comme reward model (LLM-as-a-Judge). Au lieu d’entrainer un reward model dedie, on utilise Claude, GPT-4 ou Gemini pour evaluer les reponses. C’est plus scalable que l’annotation humaine et souvent plus coherent. Le Constitutional AI d’Anthropic utilise cette approche en demandant au LLM d’evaluer ses propres reponses selon des principes constitutionnels.

Les benchmarks comme RewardBench evaluent la qualite des reward models sur des taches standardisees. En 2026, les meilleurs reward models dedies et les meilleurs LLM-as-a-Judge atteignent des niveaux comparables de correlation avec les preferences humaines.

Alternatives sans reward model explicite

Le DPO elimine le reward model explicite en le remplaçant par un reward model implicite dans la politique elle-meme. KTO et ORPO font de meme avec des formulations differentes. Ces approches simplifient le pipeline mais perdent la flexibilite d’un reward model separe qui peut etre reutilise, inspecte et evalue independamment.

Analyst Tip La qualite de votre reward model est le plafond de votre alignement. Investissez massivement dans la qualite des annotations de preferences avant d’investir dans des algorithmes RL sophistiques. Un bon reward model avec un PPO basique bat un mauvais reward model avec le meilleur algorithme du monde. Pour les projets avec budget limite, LLM-as-a-Judge avec GPT-4 ou Claude est souvent suffisant.

Tendances 2026

Les reward models multimodaux evaluent les reponses qui combinent texte, images et code. Les reward models constitutionnels utilisent des principes ecrits plutot que des annotations humaines. Les process reward models gagnent en importance avec la montee du raisonnement IA (chain-of-thought). Les reward models ensemble et l’evaluation multi-RM reduisent le reward hacking. Enfin, la recherche sur les reward models interpretables vise a comprendre quels criteres le RM utilise pour scorer les reponses.

Points cles a retenir Le reward model traduit les preferences humaines en signal d’optimisation pour le RLHF. Sa qualite determine directement la qualite de l’alignement. Les defis principaux sont le reward hacking, les biais des annotateurs et l’overoptimization. Des alternatives comme le DPO et le LLM-as-a-Judge simplifient le pipeline tout en maintenant des performances competitives.

FAQ – Reward Model

Quelle taille doit avoir un reward model ?

En general, le reward model fait entre la moitie et la meme taille que le LLM a aligner. Un RM trop petit manquera de nuance pour evaluer les reponses d’un grand LLM. Un RM trop grand est couteux en memoire. Pour un LLM 7B, un RM de 3B a 7B est raisonnable. Pour un LLM 70B, un RM de 13B a 70B est courant.

Combien de comparaisons humaines faut-il ?

InstructGPT utilisait environ 30 000 comparaisons. Les systemes actuels en utilisent typiquement 50 000 a 500 000, souvent completes par du feedback synthetique. La qualite compte plus que la quantite : 10 000 comparaisons d’experts valent mieux que 100 000 comparaisons bruitees. Commencez avec 5 000 a 10 000 pour un prototype.

Comment detecter le reward hacking ?

Surveillez la divergence entre le score RM (qui augmente) et la qualite humaine reelle (qui stagne ou diminue). Analysez les reponses les mieux scorees pour identifier des patterns suspects (longueur excessive, formulations repetitives, fausse confiance). Utilisez un RM ensemble et comparez les scores. Evaluez regulierement avec des humains pendant l’entrainement.

Un LLM peut-il remplacer les annotateurs humains ?

Partiellement. Les meilleurs LLM (GPT-4, Claude) approchent les niveaux de coherence des annotateurs humains pour des taches d’evaluation standard. Mais ils ont leurs propres biais (verbosity bias, position bias) et ne capturent pas les preferences humaines implicites. L’approche hybride (humains + IA) offre le meilleur compromis qualite/cout.

Le DPO rend-il le reward model obsolete ?

Le DPO rend le reward model explicite optionnel, pas obsolete. Un reward model separe reste utile pour evaluer les reponses en production (scoring), pour le filtrage de contenu, pour le best-of-N sampling et comme outil d’analyse. Meme si vous utilisez DPO pour l’entrainement, un reward model reste precieux pour le monitoring post-deploiement.