Continual Learning

Le continual learning (apprentissage continu, aussi appelé lifelong learning ou incremental learning) est la capacité d’un modèle d’IA à apprendre de nouvelles tâches ou de nouvelles données de manière séquentielle, tout en préservant les connaissances acquises précédemment. C’est l’opposé du « catastrophic forgetting » où un modèle oublie tout ce qu’il savait en apprenant quelque chose de nouveau.

Catégorie: Machine Learning / Apprentissage incrémental
Synonymes: Lifelong learning, incremental learning, continuous learning
Problème central: Catastrophic forgetting : oubli catastrophique des tâches précédentes
Dilemme fondamental: Stabilité (retenir l’ancien) vs plasticité (apprendre le nouveau)
Approches principales: Replay, régularisation (EWC), optimisation de gradient (GEM), traitement contextuel
Scénarios: Task-incremental, domain-incremental, class-incremental

Qu’est-ce que le continual learning ?

Quand vous apprenez le violon, vous ne perdez pas la capacité de jouer du piano. Le cerveau humain excelle dans l’apprentissage continu : il accumule de nouvelles compétences sans effacer les anciennes. Les réseaux de neurones artificiels, eux, n’ont pas cette capacité. Quand on les entraîne sur une nouvelle tâche, ils « oublient » rapidement et drastiquement ce qu’ils avaient appris auparavant.

Le continual learning vise à résoudre ce problème fondamental. L’objectif : permettre aux modèles d’IA d’apprendre de manière incrémentale à partir d’un flux de données non stationnaire, en intégrant de nouvelles connaissances tout en préservant celles qui existent déjà.

C’est un défi critique pour le déploiement de l’IA en conditions réelles. Un système de détection de fraude doit s’adapter aux nouvelles tactiques de fraudeurs sans oublier les patterns existants. Un assistant vocal doit apprendre de nouveaux mots et accents sans perdre sa compréhension du vocabulaire de base. Un robot doit acquérir de nouvelles compétences motrices sans oublier les gestes déjà maîtrisés.

Le catastrophic forgetting : le problème central

Le catastrophic forgetting (oubli catastrophique), aussi appelé catastrophic interference, est le phénomène par lequel un réseau de neurones perd brutalement ses performances sur des tâches précédentes quand il est entraîné sur une nouvelle tâche.

Le mécanisme est simple à comprendre. Un réseau de neurones partage un ensemble commun de paramètres (poids) pour toutes ses tâches. Quand on l’entraîne sur la tâche B, les poids sont ajustés pour minimiser la perte sur B. Mais cette optimisation pousse les poids loin de leur position optimale pour la tâche A, et la performance sur A s’effondre.

Pour illustrer concrètement : entraînez un réseau à reconnaître les chiffres 0 et 1, puis entraînez-le séquentiellement sur les chiffres 2 et 3. Après cette deuxième phase d’entraînement, le réseau classifie correctement les 2 et 3 mais a complètement oublié les 0 et 1. Le modèle n’accumule pas les connaissances, il les remplace.

Ce comportement est en contraste frappant avec le cerveau humain, qui gère cela grâce à la neuroplasticité : la capacité de restructurer les connexions synaptiques pour intégrer de nouvelles informations sans effacer les anciennes. Les connexions fréquemment utilisées se renforcent, les connexions inutilisées s’affaiblissent progressivement (pas brutalement). De plus, le cerveau utilise des mécanismes de consolidation de la mémoire, notamment pendant le sommeil, où les expériences de la journée sont « rejouées » pour être intégrées dans la mémoire à long terme. Les cerveaux des enfants ont une plasticité plus élevée, ce qui explique pourquoi ils apprennent les langues si facilement comparé aux adultes.

Les réseaux de neurones artificiels fonctionnent de manière analogique en ajustant leurs poids en réponse aux nouvelles données, mais sans les mécanismes de protection sophistiqués du cerveau biologique. C’est précisément ces mécanismes que le continual learning tente de reproduire artificiellement.

Le dilemme stabilité-plasticité

Au coeur du continual learning se trouve un dilemme fondamental : le compromis entre stabilité et plasticité.

Stabilité : la capacité à retenir les connaissances acquises. Un modèle trop stable refuse d’apprendre quoi que ce soit de nouveau pour ne pas perturber ce qu’il sait déjà.

Plasticité : la capacité à intégrer de nouvelles informations. Un modèle trop plastique apprend vite mais oublie tout aussi vite.

Tout le continual learning revient à trouver le bon point d’équilibre sur ce spectre. Les techniques que nous verrons ensuite sont autant de manières différentes de gérer ce compromis.

Les trois scénarios du continual learning

La littérature distingue trois scénarios de difficulté croissante :

Scénario	Ce qui change	Ce qui reste identique	Difficulté
Task-incremental	De nouvelles tâches arrivent séquentiellement	Le modèle sait quelle tâche il exécute (task identity fournie)	Modérée
Domain-incremental	La distribution des entrées change	La structure du problème (mêmes classes)	Élevée
Class-incremental	De nouvelles classes apparaissent au fil du temps	Le modèle doit distinguer toutes les classes (anciennes et nouvelles) sans indication	Très élevée

Le class-incremental learning est le scénario le plus difficile et le plus pertinent en pratique : un système de reconnaissance d’images qui doit apprendre à reconnaître de nouveaux types d’objets tout en conservant la capacité de reconnaître tous les objets précédents, sans qu’on lui dise quel ensemble de classes considérer.

Les six familles de techniques

1. Replay (répétition)

L’approche la plus intuitive et l’une des plus efficaces. L’idée est d’approximer l’apprentissage entrelacé (où toutes les tâches sont mélangées) en rejouant des exemples des tâches précédentes pendant l’apprentissage de la nouvelle tâche.

Le replay a des liens directs avec les neurosciences : dans le cerveau, la réactivation de patterns neuronaux représentant des expériences passées (notamment pendant le sommeil) est considérée comme cruciale pour la consolidation de la mémoire.

En pratique, un « memory buffer » stocke un sous-ensemble d’exemples de chaque tâche passée. Pendant l’entraînement sur la nouvelle tâche, des exemples du buffer sont mélangés aux nouvelles données. L’enjeu est de choisir quels exemples stocker (les plus représentatifs) et combien (compromis mémoire vs performance).

Des variantes utilisent des modèles génératifs (comme des GANs ou des autoencodeurs) pour générer des pseudo-exemples des tâches passées au lieu de stocker les vrais exemples. C’est le « generative replay », utile quand stocker les données d’origine pose des problèmes de confidentialité.

2. Régularisation des paramètres

L’idée est de pénaliser les modifications des poids qui sont importants pour les tâches précédentes. Le modèle peut modifier librement les poids « peu importants », mais les poids critiques sont protégés.

Elastic Weight Consolidation (EWC) est la méthode phare. Elle utilise la matrice d’information de Fisher pour estimer l’importance de chaque poids pour les tâches passées. Un terme de régularisation est ajouté à la fonction de perte qui pénalise les changements des poids importants. Le résultat : les poids critiques restent proches de leur valeur optimale pour les anciennes tâches.

Synaptic Intelligence (SI) fonctionne de manière similaire mais calcule l’importance des poids en ligne, pendant l’entraînement, plutôt qu’après coup.

3. Approches basées sur l’optimisation

Gradient Episodic Memory (GEM) modifie la direction du gradient pendant l’entraînement. Quand la mise à jour des poids pour la nouvelle tâche dégraderait les performances sur les anciennes tâches (détecté via la mémoire épisodique), le gradient est projeté dans une direction qui reste compatible avec les contraintes des anciennes tâches.

Des travaux récents (2025) comme C-Flat (Continual Flatness) promeuvent un paysage de perte plus plat, optimisé pour le continual learning. Un paysage plat signifie que les poids peuvent bouger légèrement sans dégradation majeure, ce qui donne plus de marge pour apprendre de nouvelles tâches. C-Flat est un module « plug-and-play » intégrable dans n’importe quelle méthode existante.

4. Traitement contextuel

Cette approche n’utilise qu’une partie spécifique du réseau selon la tâche, évitant les interférences entre tâches. Orthogonal Weights Modification (OWM) apprend à modifier les poids dans des sous-espaces orthogonaux pour chaque tâche, garantissant mathématiquement que l’apprentissage d’une nouvelle tâche ne perturbe pas les précédentes.

5. Classification par template

Au lieu de modifier un classifieur unique, cette approche stocke des prototypes ou templates pour chaque classe et fait la classification par distance au template le plus proche. C’est lié aux Prototypical Networks du meta-learning.

6. Régularisation fonctionnelle

Learning without Forgetting (LwF) est la méthode fondatrice. Au lieu de régulariser les poids directement, elle régularise les sorties du réseau : le modèle doit produire les mêmes prédictions sur les anciennes tâches qu’avant le nouvel entraînement. C’est une forme de distillation de connaissances où le modèle « ancien » sert de professeur au modèle « nouveau ».

Benchmarks et métriques

Le continual learning utilise des benchmarks spécifiques qui simulent l’apprentissage séquentiel :

Split CIFAR-100 divise les 100 classes de CIFAR-100 en 10 ou 20 tâches séquentielles de 10 ou 5 classes chacune. C’est le benchmark standard pour le class-incremental learning.

Permuted MNIST génère plusieurs tâches en appliquant des permutations différentes aux pixels des images MNIST. Chaque permutation crée un nouveau « domaine ». C’est simple mais utile pour tester le domain-incremental learning.

Split MNIST divise les 10 classes MNIST en 5 tâches de 2 classes. C’est le benchmark le plus simple, souvent utilisé pour la validation rapide de nouvelles méthodes.

CORe50 est un benchmark basé sur des vidéos d’objets réels dans des conditions variées (éclairage, arrière-plan). C’est le plus réaliste pour évaluer le continual learning en vision par ordinateur.

Les métriques d’évaluation couvrent trois dimensions : la performance (précision moyenne sur toutes les tâches après entraînement complet), le diagnostic (quantité de forgetting mesurée par la chute de performance sur les anciennes tâches), et l’efficacité en ressources (mémoire, temps de calcul, taille du buffer de replay).

Applications concrètes

Détection de fraude. Les patterns de fraude évoluent constamment. Un modèle doit apprendre les nouvelles tactiques sans oublier les anciennes. Le continual learning est essentiel car réentraîner le modèle from scratch à chaque nouvelle vague de fraude est trop lent et risque de perdre des patterns rares mais importants.

Robotique. Un robot domestique doit apprendre de nouvelles tâches (préparer un nouveau plat, ranger un nouvel objet) sans oublier les tâches déjà maîtrisées. Le reinforcement learning combiné au continual learning est un domaine de recherche actif.

LLMs et fine-tuning séquentiel. Quand on fine-tune un LLM sur plusieurs tâches successives, le catastrophic forgetting est un risque réel. Des travaux de 2025 étudient spécifiquement le forgetting dans les LLMs pendant le fine-tuning continu. Les techniques comme EWC et le replay sont adaptées pour protéger les capacités générales du modèle tout en l’adaptant à de nouvelles tâches.

Véhicules autonomes. Le système doit s’adapter à de nouvelles routes, conditions météo, et types de véhicules sans perdre sa capacité à gérer les situations déjà connues.

Imagerie médicale. De nouvelles pathologies sont découvertes, de nouveaux scanners sont déployés. Le modèle doit intégrer ces nouveautés sans perdre sa capacité de diagnostic sur les cas existants.

État de l’art en 2026

Le replay reste roi. Malgré des décennies de recherche sur des approches plus élégantes (régularisation, optimisation), le simple replay (stocker et rejouer des exemples passés) reste l’approche la plus efficace en pratique sur la majorité des benchmarks. C’est un résultat contre-intuitif mais robuste.

Les architectures hybrides progressent. Des travaux publiés dans Scientific Reports (2025-2026) combinent Neural ODEs (pour un apprentissage lisse en temps continu) et Transformers augmentés en mémoire (pour la consolidation des connaissances). Ces approches hybrides montrent des améliorations de 24 % en réduction du forgetting et 10,3 % en gain de précision par rapport à l’état de l’art sur Split CIFAR-100.

La recherche sur le continual learning des LLMs explose. Le fine-tuning séquentiel de grands modèles de langage est un problème pratique majeur. Comment adapter un LLM à un nouveau domaine sans qu’il perde ses capacités générales ? Les techniques classiques de continual learning (EWC, replay) sont adaptées au contexte des LLMs, avec des défis spécifiques liés à leur taille.

La compétition avec le réentraînement complet persiste. Pour beaucoup d’applications, il est souvent plus simple et plus efficace de réentraîner le modèle sur toutes les données (anciennes + nouvelles) plutôt que d’implémenter du continual learning. Le continual learning se justifie quand les anciennes données ne sont plus disponibles, quand le réentraînement est trop coûteux, ou quand l’adaptation doit se faire en temps réel.

Conseil pratique Avant d’implémenter du continual learning sophistiqué, évaluez si votre cas d’usage le nécessite vraiment. Si vous pouvez stocker toutes vos données et réentraîner périodiquement, c’est souvent plus simple et plus performant. Le continual learning est justifié quand les données arrivent en flux continu et ne peuvent pas être stockées indéfiniment, quand le temps de réentraînement est prohibitif, ou quand la confidentialité interdit de stocker les anciennes données.

Questions fréquentes sur le continual learning

Qu’est-ce que le catastrophic forgetting ?

Le catastrophic forgetting est le phénomène par lequel un réseau de neurones perd brutalement et massivement ses performances sur des tâches précédemment apprises quand il est entraîné sur une nouvelle tâche. Les poids du réseau sont modifiés pour optimiser la nouvelle tâche, ce qui les éloigne de leur position optimale pour les anciennes tâches. C’est le problème central que le continual learning cherche à résoudre.

Quelle est la meilleure technique pour éviter le catastrophic forgetting ?

Le replay (stocker et rejouer des exemples des tâches passées) reste la technique la plus efficace sur la majorité des benchmarks. Si stocker des exemples pose problème (confidentialité, mémoire), l’Elastic Weight Consolidation (EWC) est une bonne alternative basée sur la régularisation. Pour les applications embarquées avec des contraintes strictes, les approches par gradient comme GEM offrent un bon compromis. En pratique, la combinaison de plusieurs techniques (replay + régularisation) donne souvent les meilleurs résultats.

Les LLMs souffrent-ils du catastrophic forgetting ?

Oui. Quand on fine-tune un LLM sur une tâche spécifique, il peut perdre certaines de ses capacités générales. Des travaux de 2025 documentent ce phénomène en détail. Les techniques de continual learning (EWC, replay) sont adaptées pour les LLMs, et des méthodes comme LoRA réduisent le risque de forgetting en ne modifiant qu’une petite fraction des paramètres. L’in-context learning (prompting) évite entièrement le problème puisqu’il ne modifie aucun poids.

Quelle est la différence entre continual learning et transfer learning ?

Le transfer learning transfère les connaissances d’une tâche source vers une tâche cible dans un processus ponctuel. Le continual learning gère un flux continu de tâches successives, avec l’exigence de maintenir les performances sur toutes les tâches passées. Le transfer learning est un transfert unique, le continual learning est un apprentissage permanent qui ne finit jamais. Le transfer learning optimise pour la nouvelle tâche, le continual learning optimise pour toutes les tâches simultanément.

Le continual learning est-il résolu ?

Non, c’est un problème ouvert. Les techniques actuelles réduisent le catastrophic forgetting mais ne l’éliminent pas complètement. Le class-incremental learning (apprendre de nouvelles classes sans indication de la tâche) reste particulièrement difficile. Le dilemme stabilité-plasticité n’a pas de solution universelle : chaque technique fait un compromis différent. La recherche progresse rapidement (architectures hybrides Neural ODE + Transformers, techniques spécifiques aux LLMs), mais le continual learning humain reste largement supérieur aux capacités des systèmes artificiels actuels.