Curriculum Learning

Le curriculum learning est une stratégie d’entraînement en machine learning qui consiste à présenter les données au modèle dans un ordre structuré, en commençant par les exemples les plus simples et en progressant graduellement vers les plus difficiles, imitant la manière dont les humains apprennent. Au lieu d’un ordre aléatoire, le modèle suit un « programme scolaire ».

Catégorie: Machine Learning / Stratégie d’entraînement
Principe: Entraîner du facile au difficile, comme un élève suit un programme scolaire progressif
Introduit par: Yoshua Bengio et al. (2009), inspiré du shaping en psychologie comportementale
Composants clés: Mesure de difficulté (difficulty measurer) + Planificateur d’apprentissage (learning scheduler)
Bénéfices: Convergence plus rapide, meilleure généralisation, évitement des minima locaux
Variantes: Self-paced learning, teacher-student, anti-curriculum, competence-based

Qu’est-ce que le curriculum learning ?

À l’école, on n’enseigne pas l’algèbre à un enfant qui ne sait pas encore compter. On commence par les additions, puis les multiplications, puis les équations. Ce séquençage progressif du facile vers le difficile n’est pas un choix arbitraire : c’est fondamental pour un apprentissage efficace. Le curriculum learning applique exactement cette intuition aux modèles de machine learning.

En entraînement standard, les données sont présentées au modèle dans un ordre aléatoire (random shuffling). Le curriculum learning remplace cet ordre aléatoire par un ordre structuré : d’abord les exemples « faciles » (images nettes, phrases courtes, patterns clairs), puis progressivement les exemples « difficiles » (images bruitées, phrases complexes, cas ambigus).

Le terme a été formalisé par Yoshua Bengio et al. en 2009, mais l’idée remonte plus loin. En psychologie comportementale, la technique de « shaping » (façonnage) consiste à apprendre un comportement complexe en récompensant d’abord des approximations simples de ce comportement, puis des versions de plus en plus proches du comportement cible. Jeffrey Elman avait déjà exploré cette idée pour les réseaux de neurones en 1993 avec son article « Learning and development in neural networks: the importance of starting small ».

Pourquoi le curriculum learning fonctionne

L’efficacité du curriculum learning s’explique par plusieurs mécanismes complémentaires.

Lissage du paysage de perte. L’inclusion progressive d’exemples de difficulté croissante lisse la surface de la fonction de perte, ce qui aide l’optimiseur à naviguer vers de meilleurs minima. C’est lié mathématiquement aux méthodes de continuation en optimisation : commencer par un problème simplifié et progresser vers le problème complet.

Évitement des minima locaux. En commençant par des exemples simples, le modèle construit des frontières de décision larges et lisses. Ces représentations initiales de bonne qualité servent de fondation solide pour intégrer ensuite les cas plus complexes, réduisant le risque de tomber dans des minima locaux de mauvaise qualité.

Convergence plus rapide. Le modèle atteint de bonnes performances plus rapidement car les premiers exemples faciles lui permettent d’acquérir les features de base sans être perturbé par le bruit des exemples difficiles.

Meilleure généralisation. Bengio et al. ont montré que l’effet bénéfique du curriculum est « le plus prononcé sur le jeu de test », suggérant que cette approche améliore la capacité de généralisation du modèle, pas seulement ses performances sur les données d’entraînement.

Les deux composants fondamentaux

Tout curriculum learning repose sur deux composants clés qui répondent à deux questions : « qu’est-ce qui est facile ou difficile ? » et « quand introduire les exemples plus difficiles ? ».

Le mesureur de difficulté (difficulty measurer)

Comment définir la « difficulté » d’un exemple ? C’est la question la plus délicate du curriculum learning. Plusieurs approches existent :

Difficulté prédéfinie (heuristique). Un expert humain définit des critères de difficulté : la longueur d’une phrase (courte = facile), la résolution d’une image (haute résolution = facile), la complexité syntaxique, le rapport signal/bruit. C’est simple mais subjectif et spécifique au domaine.

Difficulté par transfert. On utilise un modèle pré-entraîné pour scorer les exemples. Les exemples que le modèle classe correctement avec haute confiance sont « faciles », ceux qu’il classe mal sont « difficiles ». C’est plus objectif et ne nécessite pas de connaissance du domaine.

Self-paced learning. Le modèle lui-même détermine ce qui est facile ou difficile en fonction de sa perte courante. Les exemples avec une faible loss sont considérés faciles, ceux avec une forte loss sont difficiles. Le seuil est progressivement relevé. C’est la forme la plus automatique de curriculum learning.

Teacher-student. Un modèle « professeur » (ou un algorithme de reinforcement learning) sélectionne les exemples les plus utiles pour le modèle « étudiant » à chaque étape de l’entraînement, optimisant ainsi le curriculum de manière dynamique.

Le planificateur d’apprentissage (learning scheduler)

Une fois la difficulté définie, il faut décider comment et quand introduire les exemples plus difficiles. Les stratégies de pacing (rythme) courantes :

Stratégie	Description	Usage typique
Baby step	Introduction des exemples par paliers discrets de difficulté croissante	L’approche originale de Bengio (2009)
Racine carrée	Le seuil de difficulté augmente en fonction de la racine carrée du temps d’entraînement	Vision par ordinateur
Géométrique	Le seuil de difficulté augmente géométriquement	Approche agressive pour convergence rapide
Competence-based	Le seuil augmente en fonction de la compétence mesurée du modèle	Self-paced learning
Fade-out	Les exemples faciles sont progressivement retirés pour se concentrer sur les difficiles	RL pour LLMs (E2H Reasoner, 2025)

La connexion avec la psychologie de l’apprentissage

Le curriculum learning n’est pas qu’une technique d’optimisation. Il est fondé sur des observations solides de la psychologie cognitive et de la pédagogie.

Le « shaping » (façonnage) de B.F. Skinner consiste à renforcer des comportements de plus en plus proches du comportement cible. Un pigeon n’apprend pas directement à faire un tour complet ; on récompense d’abord un petit mouvement de tête, puis un quart de tour, puis un demi-tour. Le curriculum learning applique ce même principe aux réseaux de neurones.

La « zone proximale de développement » de Vygotsky décrit l’écart entre ce qu’un apprenant peut faire seul et ce qu’il peut faire avec aide. Un enseignement efficace se situe juste au-delà de ce que l’élève maîtrise, ni trop facile (ennui) ni trop difficile (confusion). Le curriculum learning tente de maintenir cette zone optimale tout au long de l’entraînement.

Ces parallèles ne sont pas qu’analogiques : ils guident concrètement la conception des stratégies de pacing. Un rythme trop rapide (passer aux exemples difficiles trop tôt) crée de la « confusion » dans le modèle (mauvaise convergence). Un rythme trop lent (rester sur les exemples faciles trop longtemps) gaspille la capacité du modèle.

Les niveaux d’application du curriculum

Le curriculum learning ne s’applique pas uniquement aux données. La survey de Soviany et al. (2022) identifie trois niveaux d’application :

Curriculum au niveau des données (Data-level). C’est le plus courant : ordonner les exemples d’entraînement du facile au difficile. Les exemples simples sont présentés d’abord, les cas ambigus ou bruits en dernier.

Curriculum au niveau du modèle (Model-level). Le modèle lui-même gagne en complexité au cours de l’entraînement. On commence avec un modèle simple (peu de couches, peu de paramètres) et on augmente progressivement sa capacité. L’entraînement progressif des GANs (Progressive Growing of GANs) est un exemple célèbre : le réseau génère d’abord des images en basse résolution, puis des résolutions de plus en plus hautes.

Curriculum au niveau des tâches (Task-level). En environnement multi-tâches ou en reinforcement learning, on commence par des tâches simples et on progresse vers des tâches complexes. Un robot apprend d’abord à saisir un objet, puis à le déplacer, puis à l’empiler.

Applications concrètes

Traduction automatique. En NLP, le curriculum learning montre des gains significatifs en commençant l’entraînement par des phrases courtes et syntaxiquement simples, puis en introduisant des structures de plus en plus complexes. Le modèle construit d’abord une compréhension solide de la grammaire de base avant d’aborder les cas difficiles.

Classification d’images et détection d’objets. Commencer avec des images nettes, bien éclairées, avec des objets bien centrés, puis introduire des images bruitées, occlusées, ou en conditions dégradées. La difficulté peut être définie par la confiance d’un modèle pré-entraîné.

GANs et génération d’images. Le Progressive Growing of GANs utilise un curriculum au niveau du modèle : le générateur et le discriminateur commencent à basse résolution (4×4 pixels) et des couches sont ajoutées progressivement pour atteindre la haute résolution. Cette approche stabilise l’entraînement des GANs, notoirement instable.

Reinforcement learning. Les agents RL bénéficient fortement du curriculum learning. Un agent qui doit apprendre à naviguer dans un labyrinthe complexe apprendra plus vite s’il commence dans des labyrinthes simples. Le RL est le domaine où le curriculum learning est le plus naturellement applicable.

Raisonnement des LLMs. Des travaux récents de 2025 (E2H Reasoner) montrent que le curriculum learning améliore significativement les capacités de raisonnement des petits LLMs (1,5B à 3B paramètres) quand il est combiné au RL. L’astuce clé : les exemples faciles sont importants au début, mais les retirer progressivement (fade-out) est essentiel pour éviter le surapprentissage. Des garanties de convergence théoriques sont fournies, montrant que l’apprentissage par étapes de curriculum nécessite moins d’exemples au total que l’apprentissage direct.

Reconnaissance vocale. L’entraînement commence avec des enregistrements propres (haut rapport signal/bruit) et progresse vers des environnements bruyants. Fait intéressant, certains travaux montrent un succès de l’anti-curriculum en reconnaissance vocale (méthode ACCAN) : entraîner d’abord sur les exemples les plus bruités force le modèle à apprendre des features robustes dès le départ.

Imagerie médicale. Le curriculum learning a été appliqué avec succès au recalage d’images médicales 3D, où la difficulté est définie par le degré de déformation entre les paires d’images.

État de l’art en 2026

Le curriculum learning connaît un regain d’intérêt grâce aux LLMs et au RL :

Curriculum RL pour le raisonnement des LLMs. L’approche E2H Reasoner (2025) est l’application la plus marquante récente. Elle combine curriculum learning et reinforcement learning pour améliorer les capacités de raisonnement des petits LLMs. Les garanties de convergence théoriques montrent que l’apprentissage par curriculum nécessite moins d’exemples que l’apprentissage direct, ce qui est un résultat théorique important.

Curriculum learning pour le pré-entraînement de LLMs. De plus en plus de labs de recherche structurent les données de pré-entraînement de leurs LLMs : commencer par des textes de haute qualité et bien structurés, puis introduire des données plus bruitées et diversifiées. C’est un curriculum au niveau des données appliqué au plus grand échelle possible.

L’hybridation avec le meta-learning et le transfer learning. Des travaux combinent le curriculum learning avec d’autres paradigmes d’apprentissage pour des systèmes plus robustes. Par exemple, un curriculum peut être utilisé pendant la phase de fine-tuning d’un modèle pré-entraîné pour améliorer l’adaptation au domaine cible.

Curriculum automatique par RL. Au lieu de définir manuellement la difficulté et le rythme, un agent RL « teacher » apprend à sélectionner les exemples optimaux pour le modèle « student » à chaque étape. C’est la forme la plus sophistiquée de curriculum learning, mais aussi la plus coûteuse en compute.

Attention aux promesses excessives. La recherche récente (2025) tempère certaines affirmations sur le curriculum learning. Sur les modèles de code pré-entraînés, les curricula basés sur la complexité du code réduisent en fait les performances. Avec des optimiseurs bien configurés (Adam), les gains du curriculum peuvent disparaître. Le curriculum learning reste un outil utile, mais il n’est pas la panacée qu’on lui attribue parfois.

Limites et cas où le curriculum ne fonctionne pas

Définir la difficulté est non trivial. Ce qui est « facile » ou « difficile » pour un modèle n’est pas toujours intuitif. Une image visuellement simple pour un humain peut être difficile pour un CNN, et vice versa. Le choix de la mesure de difficulté impacte directement l’efficacité du curriculum.

Le curriculum ne fonctionne pas toujours. Des recherches montrent que pour les tâches où les performances de base sont déjà élevées, le curriculum peut en fait dégrader les résultats. Il est surtout bénéfique pour les tâches difficiles où le modèle a du mal à converger en entraînement aléatoire.

Fragilité avec les optimiseurs adaptatifs. Avec Adam, le curriculum learning peut sembler aider uniquement à cause de transitoires spécifiques à l’optimiseur (pics de norme de gradient). Un tuning correct des hyperparamètres d’Adam peut éliminer les gains apparents du curriculum.

Risque de catastrophic forgetting. Des travaux de 2025 sur les modèles de code montrent que le curriculum basé sur la complexité du code réduit les performances, probablement à cause de l’oubli catastrophique : le modèle oublie les patterns simples en se concentrant sur les exemples complexes.

Pas de gain universel sur l’échantillonnage uniforme. L’ordre facile-vers-difficile tend à surpasser l’ordre difficile-vers-facile (anti-curriculum), mais il n’y a pas d’avantage universel par rapport à l’échantillonnage uniforme aléatoire, surtout en vision et en audio.

Conseil pratique Le curriculum learning est une optimisation, pas une nécessité. Testez d’abord votre modèle avec un entraînement standard (données mélangées aléatoirement). Si la convergence est lente ou la généralisation mauvaise, essayez un curriculum. Commencez par le self-paced learning (le plus automatique) avant de concevoir un curriculum manuel. Et n’oubliez pas de tester l’anti-curriculum : dans certains domaines, entraîner sur les exemples difficiles en premier fonctionne mieux.

Questions fréquentes sur le curriculum learning

Le curriculum learning améliore-t-il toujours les performances ?

Non. Le curriculum learning est surtout bénéfique pour les tâches difficiles où l’entraînement standard converge lentement ou vers de mauvais minima. Pour les tâches avec des performances de base déjà élevées, il peut ne rien apporter voire dégrader les résultats. De plus, avec des optimiseurs adaptatifs comme Adam bien configurés, les gains du curriculum peuvent être marginaux. C’est une technique à tester empiriquement sur votre cas d’usage, pas une solution universelle.

Quelle est la différence entre curriculum learning et self-paced learning ?

Le curriculum learning classique utilise une mesure de difficulté prédéfinie (heuristique ou par transfert) qui ne change pas pendant l’entraînement. Le self-paced learning laisse le modèle déterminer lui-même ce qui est facile ou difficile en fonction de sa perte courante. Le self-paced learning est plus automatique mais peut biaiser le modèle vers les exemples qu’il maîtrise déjà, ignorant les exemples difficiles mais importants. En pratique, les deux approches sont complémentaires.

Le curriculum learning s’applique-t-il aux LLMs ?

Oui, et c’est un domaine de recherche actif. L’approche E2H Reasoner (2025) combine curriculum learning et reinforcement learning pour améliorer les capacités de raisonnement des petits LLMs (1,5B-3B). Le curriculum ordonne les problèmes mathématiques et de code du facile au difficile, avec un fade-out des exemples faciles. En pré-entraînement de LLMs, le curriculum peut porter sur la qualité des données (commencer par des textes propres et bien écrits) ou sur la longueur (commencer par des séquences courtes).

Qu’est-ce que l’anti-curriculum learning ?

L’anti-curriculum consiste à entraîner d’abord sur les exemples les plus difficiles, à l’opposé du curriculum classique. Cela peut fonctionner dans certains domaines comme la reconnaissance vocale (méthode ACCAN), où entraîner d’abord sur les échantillons les plus bruités force le modèle à développer des features très robustes. L’anti-curriculum reste l’exception : dans la majorité des cas, l’ordre facile-vers-difficile surpasse l’ordre inverse.

Quelle est la différence entre curriculum learning et active learning ?

Le curriculum learning décide dans quel ordre présenter les données d’entraînement (toutes les données sont disponibles, seul l’ordre change). L’active learning décide quelles données annoter en priorité quand le budget d’annotation est limité (seul un sous-ensemble des données sera étiqueté). Les deux se concentrent sur la sélection intelligente des données, mais pour des raisons différentes : le curriculum optimise la séquence d’apprentissage, l’active learning optimise l’allocation du budget d’annotation.