Meta-Learning (Algorithme)
Le meta-learning (ou « learning to learn ») est un paradigme de machine learning dans lequel un algorithme est entraîné sur un ensemble de tâches variées afin d’acquérir la capacité de s’adapter rapidement à de nouvelles tâches, même avec très peu de données, en s’appuyant sur l’expérience accumulée lors de l’entraînement.
- Alias
- Learning to learn, apprentissage de méta-connaissances
- Catégorie
- Paradigme ML / Apprentissage adaptatif
- Familles
- Metric-based, optimization-based, model-based
- Algorithmes clés
- MAML, Prototypical Networks, Matching Networks, Reptile, MANN
- Applications
- Few-shot learning, AutoML, robotique, NAS, RL, recommandation
- Lien LLM
- In-context learning interprété comme meta-learning implicite
Le principe fondateur : apprendre à apprendre
Le machine learning classique optimise un modèle pour une tâche unique : classifier des images de chats et chiens, prédire le churn, détecter du spam. Chaque nouvelle tâche nécessite de repartir de zéro (ou presque) avec un nouveau jeu de données, un nouveau cycle d’entraînement, et souvent de nouveaux hyperparamètres. Le meta-learning renverse cette approche.
Au lieu d’entraîner un modèle sur une tâche, le meta-learning entraîne un système d’apprentissage sur une distribution de tâches. L’objectif n’est plus de résoudre un problème spécifique, mais d’acquérir une compétence générale : savoir s’adapter rapidement à n’importe quel nouveau problème du même type. C’est exactement ce que fait un humain qui, après avoir appris à reconnaître des centaines d’animaux, peut identifier une nouvelle espèce à partir de quelques photos seulement.
Formellement, un système de meta-learning opère à deux niveaux. Le niveau interne (inner loop, ou base learner) adapte le modèle à une tâche spécifique en utilisant les quelques données disponibles pour cette tâche. Le niveau externe (outer loop, ou meta-learner) optimise les paramètres qui gouvernent le processus d’adaptation interne, en s’appuyant sur la performance agrégée sur de nombreuses tâches. Le meta-learner ne résout pas les tâches lui-même : il apprend comment les résoudre efficacement.
Taxonomie des approches
Les méthodes de meta-learning se divisent en trois grandes familles, selon ce que le meta-learner apprend : une métrique, une initialisation optimale, ou un modèle avec mémoire externe.
Meta-learning basé sur les métriques
L’idée : apprendre un espace de représentation (embedding) dans lequel la similarité entre exemples reflète fidèlement leur appartenance à la même classe. La classification se réduit alors à un calcul de distance, sans aucune mise à jour de paramètres au moment du test.
Siamese Networks (Koch et al., 2015) sont les pionniers. Deux réseaux jumeaux (partageant les mêmes poids) encodent deux images, et une fonction de perte entraîne le système à minimiser la distance entre images de la même classe et à maximiser la distance entre images de classes différentes. C’est la base de nombreux systèmes de vérification faciale et de signatures.
Matching Networks (Vinyals et al., 2016) ont introduit l’entraînement épisodique : simuler les conditions de test pendant l’entraînement en créant des mini-tâches N-way K-shot. Le modèle apprend un embedding des exemples du support set et du query set, puis classifie par similarité cosinus avec un mécanisme d’attention. C’est le travail fondateur qui a lancé le meta-learning moderne pour le few-shot learning.
Prototypical Networks (Snell et al., 2017) simplifient cette approche avec une élégance remarquable. Pour chaque classe, on calcule un prototype (la moyenne des embeddings des exemples du support set). La classification se fait par distance euclidienne au prototype le plus proche. La simplicité du mécanisme cache une efficacité redoutable : les Prototypical Networks restent une baseline très compétitive et sont largement utilisés en production.
Relation Networks (Sung et al., 2018) vont plus loin en apprenant la fonction de similarité elle-même. Au lieu d’utiliser une distance fixe (euclidienne, cosinus), un second réseau neuronal prend en entrée les features concaténées de deux exemples et prédit un score de relation. C’est plus expressif mais plus coûteux en calcul.
Meta-learning basé sur l’optimisation
Ces méthodes ne figent pas le modèle après l’entraînement. Elles apprennent plutôt une initialisation des paramètres qui permet une adaptation rapide à une nouvelle tâche via quelques pas de descente de gradient. Le meta-learner optimise littéralement l’algorithme d’optimisation lui-même.
MAML (Model-Agnostic Meta-Learning, Finn et al., 2017) est l’algorithme phare de cette famille. Son principe : trouver des paramètres d’initialisation θ tels que, pour n’importe quelle nouvelle tâche, quelques pas de descente de gradient à partir de θ produisent un modèle performant. MAML utilise deux boucles imbriquées :
La boucle interne adapte le modèle à une tâche spécifique : θ’i = θ – α∇θLi(θ), où Li est la perte sur la tâche i et α le learning rate interne. La boucle externe met à jour l’initialisation globale θ pour maximiser la performance après adaptation : θ ← θ – β∇θΣLi(θ’i), où β est le learning rate externe. Ce calcul nécessite des gradients de second ordre (dérivée de la dérivée), ce qui rend MAML coûteux en mémoire et en calcul.
First-Order MAML (FOMAML) contourne ce problème en ignorant les termes de second ordre. En pratique, les performances sont très proches de MAML complet, pour un coût de calcul significativement réduit.
Reptile (Nichol & Schulman, OpenAI, 2018) simplifie encore davantage. Il échantillonne une tâche, effectue K pas de SGD standard, puis déplace les paramètres globaux vers les paramètres obtenus. Mathématiquement, Reptile est une approximation de MAML, mais son implémentation est triviale : quelques lignes de code suffisent. Les performances sont compétitives avec MAML sur les benchmarks standard.
LEO (Latent Embedding Optimization, Rusu et al., 2019) s’attaque au problème de l’overfitting de MAML sur les réseaux profonds. Ajuster des millions de paramètres à partir de 5 exemples est voué à l’échec. LEO encode les paramètres du classificateur dans un espace latent de faible dimension et optimise dans cet espace. Le résultat est décodé en paramètres complets du modèle. C’est l’une des meilleures méthodes optimization-based, avec environ 77,6% sur miniImageNet 5-way 5-shot.
LSTM Meta-Learner (Ravi & Larochelle, 2017) utilise un réseau LSTM pour apprendre la règle de mise à jour des paramètres elle-même. Le LSTM prend en entrée les gradients et les pertes, et produit les mises à jour des poids. C’est littéralement « apprendre un optimiseur ».
| Méthode | Année | Ordre gradient | Complexité | Force principale |
|---|---|---|---|---|
| MAML | 2017 | Second ordre | Élevée | Agnostique au modèle, polyvalent |
| FOMAML | 2017 | Premier ordre | Modérée | Performance proche de MAML, moins coûteux |
| Reptile | 2018 | Premier ordre | Faible | Implémentation triviale, compétitif |
| LEO | 2019 | Second ordre (latent) | Modérée | Robuste aux réseaux profonds |
| LSTM Meta-Learner | 2017 | Appris | Élevée | Apprend la règle d’optimisation |
Meta-learning basé sur les modèles (model-based)
Ces approches conçoivent des architectures avec une capacité d’adaptation intrinsèque, souvent via un module de mémoire externe qui stocke et récupère rapidement des informations sur les nouvelles tâches.
Memory-Augmented Neural Networks (MANN) (Santoro et al., 2016) s’inspirent des Neural Turing Machines (NTM). Le réseau possède une mémoire externe dans laquelle il écrit les features des exemples rencontrés et les associe à leurs labels. Pour un nouvel exemple, il lit la mémoire pour retrouver les informations pertinentes. Le mécanisme de lecture/écriture est optimisé par meta-learning pour maximiser les performances few-shot.
MetaNet (Munkhdalai & Yu, 2017) combine un base-learner et un meta-learner dans des espaces séparés. Le meta-learner acquiert des connaissances générales dans un espace « meta » et les transmet au base-learner pour chaque tâche spécifique. Les deux niveaux interagissent via une mémoire partagée.
Neural Processes (Garnelo et al., 2018) modélisent le meta-learning comme un problème d’inférence probabiliste. Ils encodent un ensemble de contexte (paires entrée-sortie observées) dans une distribution latente, puis utilisent cette distribution pour prédire sur de nouvelles entrées. C’est essentiellement un « méta-modèle probabiliste » qui quantifie l’incertitude sur ses prédictions, une propriété cruciale pour les applications critiques.
Meta-learning et AutoML
Au-delà du few-shot learning, le meta-learning a un rôle fondamental dans l’automatisation du machine learning (AutoML). L’idée est d’utiliser l’expérience accumulée sur des tâches passées pour accélérer l’optimisation sur de nouvelles tâches.
Optimisation d’hyperparamètres (HPO)
Trouver les bons hyperparamètres (learning rate, nombre de couches, taille du batch) est traditionnellement un processus coûteux de grid search ou d’optimisation bayésienne. Le meta-learning accélère ce processus en transférant les connaissances entre tâches : si un certain jeu d’hyperparamètres fonctionne bien sur des tâches similaires, c’est un excellent point de départ pour une nouvelle tâche.
Auto-sklearn, l’un des systèmes AutoML les plus connus, utilise exactement cette approche : il sélectionne une configuration initiale basée sur les meta-features du dataset (nombre d’exemples, nombre de features, déséquilibre des classes) et sur l’historique des performances sur des datasets similaires. Cette stratégie de « warm-starting » réduit drastiquement le temps de recherche. Des travaux récents combinent même les LLM avec le meta-learning pour l’HPO, en utilisant les capacités d’in-context learning des grands modèles pour recommander des configurations d’hyperparamètres.
Neural Architecture Search (NAS)
Le NAS cherche automatiquement l’architecture de réseau neuronal optimale pour une tâche donnée. Le meta-learning intervient ici de deux façons : en apprenant quelles architectures fonctionnent bien sur quels types de données (transfert cross-tâches), et en apprenant des prédicteurs de performance qui estiment la qualité d’une architecture sans l’entraîner complètement (accélération massive du processus de recherche).
MetaNAS (CVPR 2020) va encore plus loin en combinant NAS et few-shot learning : il apprend des architectures spécifiquement conçues pour s’adapter rapidement à de nouvelles tâches avec peu de données.
Dynamic Algorithm Configuration (DAC)
Au lieu de chercher des hyperparamètres statiques (une valeur fixe de learning rate pour tout l’entraînement), le DAC apprend des schedules dynamiques : comment ajuster les hyperparamètres au cours de l’entraînement. Le meta-learning est essentiel ici car les schedules optimaux dépendent de la tâche, et transférer des stratégies de scheduling entre tâches similaires accélère considérablement la recherche.
Meta-learning en Reinforcement Learning
Le reinforcement learning (RL) est un terrain naturel pour le meta-learning. Un agent RL qui a appris à naviguer dans un environnement devrait pouvoir s’adapter rapidement à un environnement légèrement différent. Le meta-RL entraîne un agent sur une distribution d’environnements (ou de tâches RL) pour qu’il puisse s’adapter en quelques épisodes à un nouvel environnement.
MAML s’applique directement au RL par policy gradient : la boucle interne adapte la politique de l’agent à un environnement spécifique, la boucle externe optimise l’initialisation pour que l’adaptation soit rapide. RL² (Duan et al., 2016) pousse le concept plus loin en utilisant un réseau récurrent comme politique : l’état caché du RNN encode implicitement les informations accumulées sur la tâche courante, permettant une adaptation en ligne sans mise à jour explicite des poids.
Le Gödel Machine (Schmidhuber, 2003) représente la vision ultime du meta-learning en RL : un système autoréférentiel qui inspecte et modifie son propre algorithme d’apprentissage, avec des garanties d’amélioration provable. C’est un concept théorique, mais il illustre l’ambition du domaine.
Meta-learning et LLM : l’in-context learning
L’un des développements les plus fascinants de ces dernières années est l’interprétation de l’in-context learning (ICL) des LLM comme une forme de meta-learning implicite. Quand vous donnez quelques exemples dans un prompt à ChatGPT ou Claude, le modèle « apprend » la tâche à partir de ces exemples sans mise à jour de ses poids.
Des recherches suggèrent que l’attention des Transformers implémente implicitement un algorithme d’optimisation similaire à la descente de gradient sur les exemples du contexte. Le pré-entraînement sur de vastes corpus textuels, qui expose le modèle à une immense diversité de « tâches » linguistiques, joue le rôle de la boucle externe du meta-learning. Le prompt avec quelques exemples joue le rôle de la boucle interne (adaptation à la tâche). Cette perspective unifie le meta-learning classique et les capacités émergentes des LLM.
Le cadre de l’inférence bayésienne offre une interprétation complémentaire : le LLM, ayant intégré une distribution sur les tâches pendant le pré-entraînement, réalise une inférence a posteriori sur la tâche courante en conditionnant sur les exemples du prompt. Les deux perspectives convergent vers la même conclusion : l’ICL est un meta-learning distribué dans les poids du Transformer.
Applications concrètes
Vision par ordinateur
Le meta-learning a ses racines les plus profondes en vision. La classification few-shot d’images est le benchmark historique du domaine (miniImageNet, tieredImageNet, Omniglot). Au-delà de la classification, le meta-learning s’applique à la détection d’objets few-shot, à la segmentation sémantique avec peu d’annotations, et à la classification fine-grained (distinguer des espèces d’oiseaux, des modèles de voitures).
Robotique et contrôle
Un robot doit s’adapter à de nouveaux objets, de nouveaux terrains, de nouvelles instructions. MAML est largement utilisé pour le meta-RL en robotique, permettant à un bras robotique d’apprendre à manipuler un nouvel objet en quelques essais, ou à un robot locomoteur de s’adapter à un terrain glissant après quelques pas. L’adaptation rapide est critique car les interactions physiques sont coûteuses et potentiellement dangereuses.
Traitement du langage naturel
En NLP, le meta-learning s’applique à la classification de texte few-shot (SetFit utilise un fine-tuning contrastif sur Sentence-BERT), à la traduction automatique pour les langues à faibles ressources, et au dialogue adaptatif. L’approche dominante reste le few-shot prompting via les LLM, mais pour les modèles plus petits ou les contraintes de latence, les techniques de meta-learning classique restent pertinentes.
Systèmes de recommandation
Le problème du cold-start (recommander à un nouvel utilisateur sans historique) est naturellement un problème few-shot. Les approches MANN et MAML ont été adaptées aux systèmes de recommandation pour personnaliser rapidement les suggestions à partir des premières interactions d’un utilisateur. Les meta-features de l’utilisateur (démographie, appareil, heure) permettent de transférer les connaissances des utilisateurs existants.
Imagerie médicale
Les pathologies rares, par définition, ont peu de cas documentés. Le meta-learning permet d’entraîner des modèles de détection sur des pathologies courantes, puis de les adapter à des pathologies rares avec seulement quelques exemples annotés par un expert. C’est particulièrement utile pour la classification histopathologique, la segmentation de lésions, et le diagnostic de maladies orphelines.
Défis et limites actuels
Diversité des tâches d’entraînement
Le meta-learning dépend crucialement de la distribution des tâches d’entraînement. Trop peu de variabilité entre tâches conduit à de l’overfitting (le meta-learner s’adapte aux spécificités des tâches d’entraînement sans généraliser). Trop de variabilité provoque de l’underfitting (le meta-learner ne capture aucune structure commune). Trouver le bon équilibre est un art autant qu’une science.
Passage à l’échelle
MAML et ses variantes nécessitent le calcul de gradients de second ordre (ou leurs approximations), ce qui devient coûteux avec les très grands réseaux. LEO et les méthodes d’optimisation en espace latent atténuent ce problème, mais le scaling du meta-learning aux architectures modernes (Vision Transformers, LLM) reste un défi actif de recherche.
Transfert cross-domain
La majorité des résultats de meta-learning concernent le transfert intra-domain (les classes de test sont différentes mais du même domaine que les classes d’entraînement). Le transfert cross-domain (entraîner sur ImageNet et adapter à de l’imagerie satellitaire) est significativement plus difficile et moins étudié. Le distributional shift entre domaines dégrade les performances des meta-learners.
Concurrence des baselines simples
Un résultat persistant et embarrassant : sur les benchmarks standards, le simple fine-tuning transductif d’un réseau pré-entraîné rivalise avec les méthodes de meta-learning sophistiquées. SimpleShot (un ResNet pré-entraîné + normalisation L2 + classificateur par centroïde) atteint environ 81,5% sur miniImageNet 5-way 5-shot, surpassant de nombreuses méthodes de meta-learning. Cela ne signifie pas que le meta-learning est inutile, mais que les benchmarks actuels ne capturent peut-être pas les scénarios où il apporte une vraie valeur ajoutée.
Frameworks et outils
| Outil | Focus | Méthodes | Licence |
|---|---|---|---|
| learn2learn (PyTorch) | Meta-learning général | MAML, ProtoNets, Matching Nets, Reptile, datasets | Open Source |
| Torchmeta (PyTorch) | Datasets / task sampling | miniImageNet, Omniglot, CIFAR-FS, task loaders | Open Source |
| Higher (PyTorch) | Gradients d’ordre supérieur | Support MAML, différentiation à travers l’optimiseur | Open Source |
| Auto-sklearn | AutoML avec meta-learning | Warm-starting, meta-features, sélection de modèle | Open Source |
| SetFit (Hugging Face) | Few-shot NLP | Contrastive fine-tuning de Sentence-BERT | Open Source |
Verdict
Le meta-learning est l’une des idées les plus intellectuellement séduisantes du machine learning. L’ambition d’apprendre à apprendre, de doter les algorithmes d’une capacité d’adaptation rapide comparable à celle des humains, est fondamentale pour le progrès vers des systèmes d’IA plus flexibles et plus autonomes.
En pratique, son impact est nuancé. En few-shot learning pur, les baselines de transfer learning restent étonnamment compétitives sur les benchmarks standard. C’est en AutoML (warm-starting de l’HPO, NAS cross-tâches) et en meta-RL (robotique adaptative) que le meta-learning produit les gains les plus tangibles. Et avec la découverte que l’in-context learning des LLM est une forme de meta-learning implicite, le paradigme a trouvé une incarnation à une échelle inédite.
Pour les praticiens, le conseil est clair : si vous travaillez sur du few-shot learning, commencez par les Prototypical Networks ou le simple fine-tuning d’un modèle pré-entraîné. Explorez MAML ou Reptile si le transfer learning échoue. Si vous faites de l’AutoML, intégrez les stratégies de meta-learning (warm-starting, meta-features) dans votre pipeline. Et pour le NLP, le few-shot prompting avec un LLM performant est devenu la manière la plus accessible de bénéficier du meta-learning, même sans le nommer explicitement.
Questions fréquentes sur le meta-learning
Quelle est la différence entre meta-learning et transfer learning ?
Le transfer learning prend un modèle pré-entraîné et l’adapte à une nouvelle tâche (typiquement en fine-tunant les dernières couches). C’est un transfert de connaissances « passif » : le modèle n’a pas été conçu pour s’adapter rapidement. Le meta-learning, en revanche, optimise explicitement le processus d’adaptation lui-même. Le modèle est entraîné pour être facile à adapter à de nouvelles tâches. En pratique, les frontières sont floues : le Meta-Transfer Learning combine les deux approches en pré-entraînant sur un grand dataset puis en meta-apprenant uniquement le classificateur final.
MAML est-il encore pertinent face aux LLM ?
Oui, pour certains cas d’usage. Les LLM excellent en few-shot prompting pour les tâches de NLP, mais ils sont coûteux en inférence, nécessitent du cloud, et ne s’appliquent pas directement à la vision ou à la robotique. MAML reste pertinent pour les modèles plus petits déployés en edge computing, pour le meta-RL en robotique, et pour les domaines (médecine, industrie) où les données sensibles ne peuvent pas être envoyées à un service cloud. MAML a aussi l’avantage d’être agnostique au modèle : il fonctionne avec n’importe quelle architecture différentiable.
Comment choisir entre les trois familles de meta-learning ?
Les méthodes metric-based (Prototypical Networks) sont le premier choix quand vous avez besoin d’inférence rapide et que de nouvelles classes apparaissent fréquemment. Les méthodes optimization-based (MAML, Reptile) sont préférables quand vous devez adapter un réseau profond complet et que la latence d’inférence est secondaire. Les méthodes model-based (MANN, Neural Processes) sont adaptées quand vous avez besoin de quantifier l’incertitude ou quand la tâche nécessite une mémoire explicite des exemples passés. En cas de doute, commencez par les Prototypical Networks : c’est le meilleur rapport simplicité/performance.
Le meta-learning fonctionne-t-il avec les Vision Transformers ?
Oui, et c’est une direction de recherche active. Les Vision Transformers (ViT) pré-entraînés produisent des features de haute qualité qui bénéficient directement aux méthodes metric-based (les prototypes calculés dans l’espace d’embedding ViT sont plus discriminants). MAML peut aussi être appliqué aux ViT, bien que le coût de calcul soit significatif. Les ViT pré-entraînés via apprentissage autosupervisé (comme DINO ou MAE) sont particulièrement efficaces comme backbone pour le meta-learning few-shot.
Le meta-learning peut-il résoudre le problème du catastrophic forgetting ?
Partiellement. Le meta-learning apprend des initialisations robustes qui facilitent l’apprentissage de nouvelles tâches, mais il ne résout pas directement le catastrophic forgetting (l’oubli des tâches précédentes lors de l’apprentissage d’une nouvelle tâche). Des variantes comme Online Meta-Learning et Continual MAML combinent meta-learning et apprentissage continu pour atténuer ce problème, mais c’est un défi ouvert. Les méthodes model-based avec mémoire externe (MANN) offrent un avantage naturel ici, car la mémoire permet de stocker et rappeler des informations sur les tâches précédentes sans modifier les poids du réseau.