Transfer Learning

Le transfer learning (apprentissage par transfert) est une technique de machine learning qui consiste à réutiliser un modèle pré-entraîné sur une tâche source (souvent à grande échelle) comme point de départ pour résoudre une nouvelle tâche cible, en évitant d’entraîner un modèle de zéro. C’est le pilier central de l’IA moderne : presque tous les modèles en production reposent sur du transfer learning.

Catégorie: Machine Learning / Deep Learning
Principe: Réutiliser les connaissances acquises sur une tâche source pour accélérer l’apprentissage sur une tâche cible
Deux stratégies: Feature extraction (couches gelées) et fine-tuning (couches dégelées)
Modèles pré-entraînés emblématiques: ResNet, VGG (vision), BERT, GPT (NLP), CLIP (multimodal)
Avantage clé: Réduit le besoin en données (10-100x moins) et en temps d’entraînement
Relation: Le fine-tuning est une forme de transfer learning. Les LLMs sont des produits du transfer learning massif.

Qu’est-ce que le transfer learning ?

Si vous savez jouer de la guitare, apprendre le ukulélé sera beaucoup plus rapide que pour quelqu’un qui n’a jamais touché un instrument à cordes. Vous « transférez » votre compréhension des accords, du rythme et de la coordination. Le transfer learning fonctionne exactement sur ce principe pour les modèles d’IA.

Un modèle de deep learning entraîné sur des millions d’images (comme ImageNet) apprend des features visuelles hiérarchiques : les premières couches détectent des bords et des textures, les couches intermédiaires reconnaissent des formes, les couches profondes identifient des objets complexes. Ces features sont largement réutilisables pour d’autres tâches visuelles.

Plutôt que d’entraîner un nouveau modèle de zéro pour classifier des radiographies médicales (ce qui nécessiterait des millions d’images annotées et des semaines de GPU), vous prenez un ResNet pré-entraîné sur ImageNet et vous l’adaptez à votre tâche avec quelques milliers d’images. C’est du transfer learning.

Pourquoi le transfer learning est-il incontournable ?

Réduction drastique du besoin en données. Entraîner un modèle de vision de zéro nécessite des millions d’images étiquetées. Avec le transfer learning, quelques centaines à quelques milliers suffisent. C’est la différence entre un projet viable et un projet impossible pour la plupart des organisations.

Économie de temps et de calcul. Entraîner un LLM de zéro coûte des millions de dollars en GPU. Le fine-tuning d’un modèle pré-entraîné coûte une fraction de ce montant. Avec des techniques comme LoRA, le fine-tuning d’un modèle 7B devient faisable sur un seul GPU.

Meilleures performances. Les modèles pré-entraînés capturent des représentations riches et généralisables. Le fine-tuning sur un petit dataset cible donne souvent de meilleurs résultats qu’un modèle entraîné de zéro sur ce même dataset.

Démocratisation de l’IA. Sans transfer learning, seules les grandes entreprises pourraient créer des modèles performants. Le transfer learning permet à quiconque de construire des applications IA de qualité production.

Les deux stratégies de transfer learning

Feature extraction (couches gelées)

La stratégie la plus simple : vous prenez un modèle pré-entraîné, vous gelez (freeze) toutes ses couches sauf la dernière, et vous remplacez la tête de classification par une nouvelle adaptée à votre tâche. Seule cette nouvelle tête est entraînée.

Le modèle pré-entraîné agit comme un extracteur de features fixe. Les couches convolutionnelles ou d’attention transforment votre entrée en un vecteur de features riche, et votre classifieur léger apprend à mapper ces features vers vos catégories cibles.

Quand utiliser la feature extraction : votre dataset cible est petit (quelques centaines d’exemples), il est similaire au dataset du modèle pré-entraîné, et vous voulez éviter l’overfitting.

Fine-tuning (couches dégelées)

Le fine-tuning va plus loin : vous dégelez tout ou partie des couches du modèle pré-entraîné et vous continuez l’entraînement sur votre dataset cible avec un learning rate réduit. Cela permet au modèle de réajuster ses features internes pour mieux correspondre à votre domaine.

Le fine-tuning est plus puissant que la feature extraction car le modèle adapte ses représentations profondes. Mais il est aussi plus risqué : avec un petit dataset, le modèle peut overfitter et « oublier » les features utiles du pré-entraînement (catastrophic forgetting).

La pratique standard est le fine-tuning progressif : dégeler les couches du haut vers le bas, en commençant par les couches proches de la sortie (les plus spécialisées). Les learning rates différenciés par couche (layer-wise learning rates) sont aussi une bonne pratique.

Critère	Feature Extraction	Fine-Tuning
Couches modifiées	Seule la tête de classification	Tout ou partie du modèle
Données nécessaires	Peu (centaines)	Modéré (milliers+)
Coût computationnel	Faible	Modéré à élevé
Risque d’overfitting	Faible	Modéré (surtout avec peu de données)
Performance	Bonne (si domaines similaires)	Meilleure (si assez de données)
Quand l’utiliser	Petit dataset, domaine similaire	Dataset suffisant, domaine différent

Guide de décision selon votre situation

Le choix de la stratégie dépend de deux axes : la taille de votre dataset cible et la similarité entre les domaines source et cible.

Petit dataset + domaine similaire : feature extraction. Gelez le modèle et entraînez uniquement la tête de classification. C’est le cas le plus simple et le moins risqué.

Grand dataset + domaine similaire : fine-tuning léger. Dégelez les couches supérieures et fine-tunez avec un learning rate réduit.

Petit dataset + domaine différent : feature extraction avec des couches intermédiaires. Les couches profondes (bords, textures) sont souvent utiles même dans des domaines différents.

Grand dataset + domaine différent : fine-tuning agressif ou entraînement from scratch. Si votre domaine est très éloigné et que vous avez beaucoup de données, le fine-tuning complet peut être nécessaire.

Types de transfer learning

Inductive transfer learning : les tâches source et cible sont différentes mais le domaine peut être le même. C’est le cas le plus courant. Exemple : un modèle de classification ImageNet fine-tuné pour la détection d’objets.

Transductive transfer learning : les tâches sont les mêmes mais les domaines diffèrent. C’est le domaine du domain adaptation. Exemple : un classifieur de sentiment entraîné sur des avis Amazon adapté pour des avis TripAdvisor.

Unsupervised transfer learning : ni le domaine source ni le domaine cible n’ont de données étiquetées. Le modèle apprend des features communes à partir de données non étiquetées. C’est le principe du self-supervised learning qui sous-tend le pré-entraînement des LLMs.

Le transfer learning en pratique

En vision par ordinateur

Le pipeline standard : prendre un modèle pré-entraîné sur ImageNet (ResNet, EfficientNet, ViT), remplacer la tête de classification, et fine-tuner. Des modèles fondamentaux comme CLIP (OpenAI) et DINOv2 (Meta) ont poussé le transfer learning encore plus loin en apprenant des représentations visuelles universelles qui se transfèrent même en zero-shot.

En NLP

Le transfer learning est le fondement de toute l’IA textuelle moderne. BERT (Google, 2018) a démontré qu’un modèle pré-entraîné par masked language modeling pouvait être fine-tuné pour exceller en classification, NER, QA, et bien d’autres tâches. La série GPT a montré que le pré-entraînement autorégressif à très grande échelle produit des modèles capables d’in-context learning sans fine-tuning.

Les LLMs comme GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro sont eux-mêmes des produits du transfer learning massif : pré-entraînés sur des trillions de tokens, puis fine-tunés par instruction tuning et alignement (RLHF/RLAIF). Quand vous fine-tunez un LLM avec LoRA, vous faites du transfer learning au troisième degré.

En audio et parole

Des modèles comme Whisper (OpenAI) pour la transcription et Wav2Vec (Meta) pour la reconnaissance vocale utilisent le transfer learning : pré-entraînés sur des milliers d’heures d’audio, ils sont fine-tunés pour des langues ou des accents spécifiques.

Techniques modernes

Parameter-Efficient Fine-Tuning (PEFT). Des techniques comme LoRA, Adapters, et Prefix Tuning ne modifient qu’une petite fraction des paramètres (0,1-1 %), réduisant le coût de fine-tuning de 10 à 100x tout en maintenant des performances comparables.

Prompt tuning. Apprendre des « soft prompts » (vecteurs continus) concaténés à l’entrée pour adapter le modèle à une tâche, sans modifier ses poids.

Knowledge distillation. Transférer les connaissances d’un grand modèle (teacher) vers un petit modèle (student). Une forme de transfer learning inter-modèle pour le déploiement léger.

Domain adaptation. Adapter un modèle à un nouveau domaine sans (ou avec peu de) données étiquetées dans ce domaine.

Conseil pratique : la règle du « start frozen, unfreeze gradually » Commencez toujours avec toutes les couches gelées (feature extraction). Mesurez la performance. Puis dégelez progressivement les couches du haut vers le bas. Arrêtez quand le gain ne justifie plus le risque d’overfitting. Utilisez un learning rate 10 à 100 fois plus petit que pour un entraînement from scratch.

Le transfer learning en 2026

Les modèles fondamentaux sont du transfer learning pur. CLIP, SAM 2, BERT, GPT, Whisper : tout modèle fondamental est conçu pour être transféré. Le pré-entraînement à grande échelle suivi du fine-tuning est la recette standard de l’industrie.

Le PEFT démocratise le fine-tuning. Grâce à LoRA et ses variantes, fine-tuner un modèle de 7B paramètres est faisable sur un seul GPU de 15 Go de VRAM. Le transfer learning n’est plus réservé aux organisations avec des fermes de GPU.

Le multi-task transfer learning progresse. Les modèles sont de plus en plus entraînés sur plusieurs tâches simultanément, améliorant leur capacité de transfert. L’in-context learning des LLMs est la manifestation la plus spectaculaire de cette tendance.

Questions fréquentes sur le transfer learning

Quelle est la différence entre transfer learning et fine-tuning ?

Le transfer learning est le concept général de réutiliser un modèle pré-entraîné pour une nouvelle tâche. Le fine-tuning est une technique spécifique de transfer learning qui consiste à dégeler et réentraîner des couches du modèle. L’autre technique est la feature extraction, où le modèle reste gelé. Le fine-tuning est un sous-ensemble du transfer learning, pas un synonyme.

Quand le transfer learning ne fonctionne-t-il pas ?

Quand le domaine source et le domaine cible sont trop différents. Un modèle entraîné sur des photos naturelles ne transfère pas bien à des images radar ou des spectrogrammes audio. La règle : plus les domaines sont proches, meilleur est le transfert. Si votre domaine est très éloigné et que vous avez assez de données, l’entraînement from scratch peut être préférable.

Le transfer learning est-il la même chose que le meta-learning ?

Non. Le transfer learning transfère des connaissances d’une tâche à une autre (transfert unique). Le meta-learning apprend le processus de transfert lui-même pour s’adapter rapidement à n’importe quelle nouvelle tâche. Le transfer learning utilise un modèle fixe qu’on adapte. Le meta-learning produit un modèle qui sait s’adapter.

Quel modèle pré-entraîné choisir ?

Pour la vision : ViT ou EfficientNet pré-entraînés sur ImageNet. CLIP pour le multimodal. Pour le NLP : BERT pour la compréhension (classification, NER, QA), GPT pour la génération. Pour l’audio : Whisper, Wav2Vec. Choisissez un modèle dont le domaine de pré-entraînement est le plus proche possible de votre tâche cible.

Le transfer learning fonctionne-t-il avec les LLMs ?

Les LLMs sont le cas ultime du transfer learning. Le pré-entraînement sur des trillions de tokens crée un modèle avec des connaissances vastes et transférables. L’instruction tuning et le RLHF sont des formes de fine-tuning. Le few-shot prompting est une forme de transfer learning « à la volée » via l’in-context learning. Tout le stack des LLMs est du transfer learning empilé.