Self-Supervised Learning

Le self-supervised learning (SSL, apprentissage autosupervisé) est un paradigme d’apprentissage dans lequel un modèle apprend des représentations riches et transférables à partir de données non labellisées, en résolvant des tâches auxiliaires (pretext tasks) dont les signaux de supervision sont extraits automatiquement de la structure des données elles-mêmes.

Alias: SSL, apprentissage autosupervisé, pre-training non supervisé
Catégorie: Representation learning / Pre-training
Deux familles: Contrastif (SimCLR, MoCo, BYOL, DINO) et génératif/masqué (MAE, BEiT)
Benchmark vision: ImageNet top-1 : ~87,8% (MAE ViT-Huge), ~77,1% (ReLICv2 ResNet-50)
Benchmark NLP: BERT, GPT : le SSL est le paradigme fondateur des LLM
Impact: Égale ou surpasse le supervised learning sur la majorité des benchmarks

Le principe fondamental

Le deep learning supervisé classique a un problème simple mais coûteux : il nécessite des quantités massives de données labellisées par des humains. Annoter des millions d’images, transcrire des milliers d’heures d’audio, étiqueter des milliards de tokens de texte, c’est cher, lent et souvent impossible à grande échelle. Le self-supervised learning élimine ce goulet d’étranglement en transformant les données non labellisées en signal d’entraînement.

L’idée centrale : concevoir des tâches auxquelles les données peuvent répondre elles-mêmes. Masquer un mot dans une phrase et demander au modèle de le prédire (c’est BERT). Masquer un patch d’image et demander au modèle de le reconstruire (c’est MAE). Comparer deux versions augmentées de la même image et apprendre à les rapprocher dans l’espace d’embedding (c’est SimCLR). Dans tous les cas, aucun label humain n’est nécessaire : le signal de supervision est extrait de la structure intrinsèque des données.

Le SSL n’est pas réellement « non supervisé » au sens strict. Il y a bien un signal de supervision, mais ce signal est auto-généré, pas fourni par un annotateur humain. D’où le terme « auto-supervisé ». Les représentations apprises via SSL sont ensuite transférées (par fine-tuning ou extraction de features) à des tâches en aval (downstream tasks) comme la classification, la détection d’objets ou la segmentation. Cette approche en deux temps (pre-training SSL + fine-tuning supervisé) est devenue le paradigme dominant de l’IA moderne.

Les tâches prétextes (pretext tasks)

Les tâches prétextes sont les « exercices » que le modèle résout pendant le pre-training. Le choix de la tâche prétexte détermine quels types de représentations le modèle apprend. Voici les grandes familles.

Tâches prédictives

Prédiction de contexte spatial : étant donné un patch d’image, prédire la position relative d’un autre patch (8 positions possibles). Le modèle doit comprendre la structure spatiale des objets pour résoudre cette tâche.

Prédiction de rotation : appliquer une rotation (0°, 90°, 180°, 270°) à une image et demander au modèle de prédire l’angle de rotation. Pour y parvenir, le modèle doit comprendre l’orientation naturelle des objets (les arbres poussent vers le haut, le ciel est en haut).

Complétion (inpainting) : masquer une région de l’image et demander au modèle de la reconstruire. Le modèle apprend les textures, les formes et les relations contextuelles entre les différentes parties de l’image.

Colorisation : convertir une image couleur en niveaux de gris et demander au modèle de prédire les couleurs. Le modèle apprend que l’herbe est verte, le ciel est bleu, les troncs d’arbres sont marron.

Prédiction de mots masqués (MLM) : en NLP, masquer aléatoirement des tokens dans une phrase et demander au modèle de les prédire à partir du contexte. C’est la tâche fondatrice de BERT et la base du pre-training de la plupart des modèles de langage.

Tâches contrastives

Le contrastive learning est devenu la famille dominante de SSL en vision par ordinateur. Le principe : créer des paires positives (deux vues augmentées de la même image) et des paires négatives (vues d’images différentes), puis entraîner le modèle à rapprocher les paires positives et éloigner les paires négatives dans l’espace d’embedding.

Tâches génératives / masked modeling

Le masked image modeling (MIM) masque des portions de l’image d’entrée et entraîne le modèle à reconstruire les portions manquantes. C’est le pendant visuel du MLM en NLP. MAE (Masked Autoencoders) et BEiT sont les représentants phares de cette famille.

Les méthodes contrastives

SimCLR (Google, 2020)

SimCLR (Simple Contrastive Learning of Visual Representations) est le framework qui a popularisé le contrastive learning moderne. Son architecture est épurée : pas de mémoire externe, pas d’architecture spécialisée. On prend une image, on crée deux vues augmentées (crop aléatoire, rotation, distorsion de couleur, flou gaussien), on encode les deux vues via un réseau (ResNet), on projette dans un espace de features via un petit MLP (projection head), et on maximise la similarité entre les deux projections de la même image tout en minimisant la similarité avec les projections de toutes les autres images du batch.

La perte utilisée est NT-Xent (Normalized Temperature-scaled Cross Entropy). Les contributions clés de SimCLR sont empiriques : la composition des augmentations est critique (crop + distorsion de couleur est la combinaison optimale), le projection head non-linéaire améliore substantiellement les représentations, et les grands batch sizes sont essentiels (SimCLR utilise des batches de 4 096 à 8 192). Avec un ResNet-50, SimCLR atteint 76,5% top-1 sur ImageNet en linear evaluation, égalant la performance supervisée.

MoCo (Meta/Facebook, 2020)

Momentum Contrast (MoCo) résout le problème du batch size géant de SimCLR. Au lieu de dépendre d’un batch énorme pour les paires négatives, MoCo maintient une file d’attente dynamique (dictionary queue) d’embeddings négatifs, qui est mise à jour au fil de l’entraînement. Un encodeur « momentum » (mis à jour par moyenne exponentielle mobile des poids de l’encodeur principal) assure la cohérence des embeddings dans la file.

MoCo v2 et MoCo v3 intègrent les améliorations de SimCLR (projection head, augmentations plus fortes) et étendent le framework aux Vision Transformers. MoCo v3 avec ViT a montré que les ViT bénéficient encore plus du pre-training SSL que les CNNs.

BYOL (DeepMind, 2020)

Bootstrap Your Own Latent (BYOL) élimine complètement le besoin de paires négatives. Il utilise deux réseaux : un réseau « online » (encodeur + projecteur + prédicteur) et un réseau « target » (encodeur + projecteur, mis à jour par moyenne exponentielle mobile). Le réseau online prédit la sortie du réseau target sur une vue augmentée différente de la même image.

L’absence de paires négatives rend BYOL plus robuste au choix des augmentations et à la taille du batch. Le mécanisme qui empêche l’effondrement (toutes les représentations identiques) est l’asymétrie entre les deux réseaux : le prédicteur n’existe que dans le réseau online, et le réseau target est mis à jour lentement par EMA. BYOL est considéré comme un précurseur direct de DINO et DINOv2.

DINO (Meta, 2021)

Self-Distillation with No Labels (DINO) utilise l’auto-distillation : un réseau « student » apprend à prédire la sortie d’un réseau « teacher » (mis à jour par EMA). La clé est l’utilisation de crops multi-échelles : le teacher reçoit des crops globaux (couvrant une large partie de l’image), le student reçoit des crops locaux (petites zones). Le student doit prédire la vue globale à partir de la vue locale, ce qui l’oblige à comprendre le contenu sémantique global.

DINO avec Vision Transformers produit des features remarquablement structurées : les cartes d’attention du ViT segmentent automatiquement les objets dans l’image, sans aucun entraînement explicite à la segmentation. DINOv2 (2023) étend cette approche à grande échelle et est devenu l’un des backbones SSL les plus utilisés pour la vision.

SwAV et Barlow Twins

SwAV (Swapped Assignments between Views) remplace le contrastive learning classique par un mécanisme de clustering en ligne : les embeddings sont assignés à des prototypes de clusters, et le modèle apprend à prédire l’assignation d’une vue à partir de l’autre vue. Barlow Twins adopte une approche encore différente : il minimise la redondance entre les dimensions de l’embedding, produisant des représentations décorrélées sans paires négatives ni clustering.

Les méthodes génératives / masked modeling

MAE (Meta, 2022)

Masked Autoencoders (MAE) transposent le principe du MLM de BERT à la vision. Le modèle masque une proportion élevée de patches d’image (typiquement 75%) et entraîne un autoencodeur (encodeur ViT + décodeur léger) à reconstruire les patches manquants. La proportion de masquage élevée est essentielle : elle force le modèle à comprendre la sémantique globale de l’image plutôt que de simplement interpoler à partir des pixels voisins.

MAE avec ViT-Huge atteint 87,8% top-1 sur ImageNet, surpassant les méthodes contrastives et l’entraînement supervisé. C’est l’un des résultats les plus impressionnants du SSL en vision. MAE est aussi plus simple à entraîner que les méthodes contrastives (pas de paires négatives, pas de projection head, pas de grand batch size) et est particulièrement adapté aux Vision Transformers.

BEiT (Microsoft, 2022)

BEiT (Bidirectional Encoder representation from Image Transformers) utilise un tokenizer visuel (d-VAE) pour convertir les patches d’image en tokens discrets, puis applique un masquage et une prédiction de tokens masqués exactement comme BERT le fait pour le texte. C’est un pont conceptuel direct entre le SSL en NLP et le SSL en vision.

Méthode	Année	Type	Paires négatives	ImageNet top-1 (linear)
SimCLR	2020	Contrastif	Oui (batch)	76,5% (ResNet-50)
MoCo v2	2020	Contrastif	Oui (queue)	77,1% (ResNet-50)
BYOL	2020	Auto-distillation	Non	74,3% (ResNet-50)
DINO	2021	Auto-distillation	Non	~80% (ViT-B)
SwAV	2020	Clustering	Non (clusters)	75,3% (ResNet-50)
Barlow Twins	2021	Réduction redondance	Non	73,2% (ResNet-50)
MAE	2022	Masked modeling	Non	87,8% (ViT-Huge, fine-tuned)
BEiT	2022	Masked modeling	Non	83,2% (ViT-Large)

Contrastif vs. génératif : quel paradigme choisir ? Les méthodes contrastives (SimCLR, MoCo, BYOL) apprennent des features par comparaison, sont plus légères (pas de décodeur) et excellent avec les CNNs. Les méthodes par masked modeling (MAE, BEiT) apprennent par reconstruction, sont particulièrement efficaces avec les ViT, et atteignent les meilleures performances absolues. Des benchmarks récents sur les données ECG et IRM montrent que BYOL et MAE surpassent systématiquement SimCLR, avec MAE qui sature en performance plus rapidement (nécessite moins de données).

SSL en NLP : le paradigme fondateur des LLM

Le self-supervised learning n’a pas commencé en vision. Il est le paradigme fondateur du traitement du langage naturel moderne. BERT (Masked Language Modeling), GPT (prédiction du prochain token) et tous les LLM qui ont suivi (ChatGPT, Claude, Gemini, Mistral) sont des modèles pré-entraînés par SSL sur d’immenses corpus de texte.

Le MLM de BERT masque 15% des tokens et entraîne le modèle à les prédire à partir du contexte bidirectionnel. Le pré-entraînement autorégressif de GPT prédit le prochain token de manière séquentielle. Dans les deux cas, le signal de supervision est extrait du texte lui-même, sans aucune annotation humaine. Le fine-tuning supervisé ou le RLHF (Reinforcement Learning from Human Feedback) viennent ensuite, mais la masse des connaissances est acquise pendant le pré-entraînement SSL.

Le succès spectaculaire du SSL en NLP (de Word2Vec en 2013 à GPT-5.4 en 2026) est ce qui a motivé les chercheurs en vision à développer des méthodes SSL pour les images. La question « peut-on faire pour la vision ce que BERT fait pour le texte ? » a lancé la course SimCLR/MoCo/BYOL/DINO/MAE.

Applications concrètes

Imagerie médicale

Le domaine médical bénéficie massivement du SSL. Les données médicales sont abondantes (des millions de scans, radiographies, IRM) mais les labels sont rares et coûteux (nécessitent un médecin spécialiste). Un modèle de fondation SSL basé sur SimCLR, pré-entraîné sur 44 958 IRM cérébrales de 11 datasets différents (couvrant Alzheimer, Parkinson, AVC), surpasse les modèles supervisés entraînés from scratch sur des tâches en aval, y compris en cross-domain.

En endoscopie, un framework SSL multi-tâches combinant prédiction de rotation, colorisation et contrastive learning atteint 98% de précision en classification d’images endoscopiques, réduisant drastiquement la dépendance aux grands datasets annotés. En ECG, BYOL et MAE surpassent SimCLR pour les modèles de fondation, avec une saturation de performance à 60-70% des données totales.

Détection d’objets et segmentation

Le pre-training SSL est devenu la norme pour les tâches de détection. MoCo v2 avec ResNet-50 surpasse le pre-training supervisé ImageNet sur COCO detection. MAE avec ViT améliore l’AP de +4,0 points par rapport au baseline supervisé. Pour la détection en temps réel (YOLO), le pre-training SSL via SimCLR sur des images non labellisées accélère la convergence et améliore la précision, surtout quand les labels sont limités.

Télédétection et observation de la Terre

Les images satellites sont abondantes mais rarement labellisées. Le SSL permet d’exploiter des pétaoctets d’images satellite pour apprendre des représentations de la surface terrestre, utilisables ensuite pour la classification d’occupation des sols, la détection de changements, ou le monitoring environnemental. DINOv2 et MAE sont particulièrement adaptés à ce domaine.

Audio et parole

wav2vec (Meta) applique le SSL au signal audio pour la reconnaissance vocale. Le modèle apprend des représentations du signal audio sans transcription, puis est fine-tuné avec un petit nombre de transcriptions labellisées. Cette approche a considérablement réduit le volume de données labellisées nécessaire pour les systèmes de speech-to-text, rendant la reconnaissance vocale viable pour les langues à faibles ressources.

Few-shot learning

Le SSL produit des backbones particulièrement efficaces pour le few-shot learning. Les features apprises par DINO ou MAE sont plus transférables que celles d’un ResNet supervisé, ce qui améliore directement les performances des Prototypical Networks et des baselines SimpleShot. SSL-ProtoNet combine explicitement l’entraînement autosupervisé avec les Prototypical Networks, montrant des gains de ~16% par rapport aux baselines supervisées.

Insights clés de la recherche

Plusieurs résultats empiriques majeurs ont émergé de la recherche en SSL ces dernières années :

La stratégie d’augmentation est plus importante que l’algorithme SSL. Que vous utilisiez SimCLR, MoCo ou BYOL, la composition des augmentations (crop + distorsion de couleur + flou) est le facteur le plus déterminant pour la qualité des représentations. Changer l’algorithme avec les mêmes augmentations produit des différences modérées ; changer les augmentations avec le même algorithme produit des différences massives.

Les Vision Transformers bénéficient davantage du SSL que les CNNs. Les ViT, avec leur capacité plus élevée, exploitent mieux les signaux du pre-training SSL. MAE avec ViT-Huge surpasse de loin MAE avec des architectures plus petites.

Le masked image modeling offre simplicité et efficacité. Comparé au contrastive learning, le masked modeling (MAE) est plus simple à implémenter (pas de paires négatives, pas de grand batch), plus rapide à entraîner (on ne traite que 25% des patches grâce au masquage), et produit les meilleurs résultats absolus.

Le scaling améliore les performances. Plus de données, des modèles plus grands, et plus de calcul améliorent systématiquement les performances SSL. SEER (Meta) pré-entraîné sur 1 milliard d’images Instagram non labellisées confirme cette tendance à l’extrême.

Limites et défis

Coût de calcul du pre-training. Le pre-training SSL à grande échelle nécessite des centaines de GPU-heures (voire des milliers pour les modèles de fondation). SimCLR requiert des batch sizes de 4 096+, MoCo et BYOL sont plus raisonnables mais restent coûteux. MAE est le plus efficace en calcul grâce au masquage, mais ViT-Huge reste un modèle massif.

Sensibilité aux augmentations. Les méthodes contrastives sont très sensibles au choix des augmentations. Des augmentations inadaptées au domaine (par exemple, distorsion de couleur sur des images médicales où la couleur est diagnostiquement significative) dégradent les performances. Chaque domaine nécessite une calibration spécifique des augmentations.

Transfert cross-domain. Les représentations SSL apprises sur ImageNet ne se transfèrent pas toujours bien à des domaines très différents (médical, satellite, industriel). Le distributional shift entre le domaine de pre-training et le domaine cible peut limiter les gains. Le pre-training dans le domaine est souvent nécessaire pour les applications spécialisées.

Évaluation complexe. Évaluer la qualité des représentations SSL est non trivial. La linear evaluation (geler le backbone et entraîner un classificateur linéaire) est le protocole standard, mais elle ne capture pas toutes les propriétés utiles des représentations (par exemple, la capacité à segmenter ou à détecter). Le fine-tuning complet donne des résultats plus réalistes mais est coûteux.

Verdict

Le self-supervised learning est le paradigme le plus impactant de la décennie en IA. Il est le fondement des LLM en NLP, des modèles de fondation en vision, et de la majorité des systèmes de production modernes. La capacité d’apprendre des représentations riches à partir de données non labellisées a éliminé le principal goulet d’étranglement du deep learning (le coût de l’annotation) et permis l’exploitation de quantités de données sans précédent.

Pour les praticiens, le conseil est direct. En vision, utilisez un backbone pré-entraîné par SSL (DINOv2 ou MAE) plutôt que le pré-entraînement supervisé ImageNet classique : les performances downstream sont supérieures, surtout quand les données labellisées sont limitées. En NLP, le SSL est déjà omniprésent via les LLM. En audio, wav2vec et ses successeurs sont la norme. Pour les domaines spécialisés (médical, satellite, industriel), investissez dans un pre-training SSL dans votre domaine : les gains justifient largement le coût de calcul.

Questions fréquentes sur le self-supervised learning

Quelle est la différence entre self-supervised learning et unsupervised learning ?

L’unsupervised learning (apprentissage non supervisé) classique regroupe les techniques comme le clustering (k-means) et la réduction de dimension (PCA, t-SNE) qui ne nécessitent pas de labels. Le self-supervised learning est techniquement une forme d’unsupervised learning, mais il se distingue par l’utilisation de tâches prétextes qui génèrent un signal de supervision à partir des données elles-mêmes. En pratique, le SSL produit des représentations beaucoup plus riches et transférables que le clustering classique. Le terme « self-supervised » a été popularisé par Yann LeCun pour différencier ces méthodes du clustering traditionnel.

SimCLR, BYOL ou MAE : lequel choisir ?

Pour un CNN (ResNet), MoCo v2 ou BYOL sont les meilleurs choix. BYOL est plus robuste au batch size et aux augmentations. Pour un Vision Transformer, MAE est le choix par défaut : il est le plus simple à entraîner, le plus rapide (grâce au masquage), et produit les meilleures performances absolues. Si vous n’avez pas de préférence architecturale, utilisez un ViT + MAE. Pour le few-shot learning, DINO/DINOv2 produit des features particulièrement structurées et transférables.

Le SSL peut-il remplacer complètement le supervised learning ?

Presque. Sur ImageNet, MAE ViT-Huge atteint 87,8% top-1, surpassant le supervised learning classique. Cependant, le SSL seul ne résout pas les tâches en aval : il faut toujours un fine-tuning supervisé (même minimal) pour adapter les représentations à la tâche spécifique. Le SSL réduit drastiquement la quantité de labels nécessaires (parfois 1% des labels suffit avec un bon pre-training SSL), mais ne l’élimine pas complètement, sauf dans les scénarios zero-shot avec des modèles vision-langage comme CLIP.

Combien de données non labellisées faut-il pour un pre-training SSL efficace ?

Plus c’est mieux, mais les rendements sont décroissants. Sur ImageNet (1,28 million d’images), le SSL atteint déjà d’excellentes performances. SEER (1 milliard d’images) améliore encore les résultats. Pour les domaines spécialisés (médical, industriel), des datasets de 10 000 à 100 000 images non labellisées suffisent souvent pour observer un bénéfice significatif du pre-training SSL par rapport à un entraînement from scratch. Des études sur les données ECG montrent que les performances saturent à environ 60-70% des données totales pour BYOL et MAE.

Le SSL est-il utile si j’ai beaucoup de données labellisées ?

Oui, mais l’avantage est réduit. Le principal bénéfice du SSL apparaît quand les labels sont rares. Avec des millions de labels, le fine-tuning supervisé depuis un backbone pré-entraîné SSL offre un gain modeste mais réel par rapport au supervised from scratch (meilleure généralisation, convergence plus rapide). Le plus grand avantage du SSL même avec beaucoup de labels est la robustesse : les features SSL sont souvent plus résistantes au distributional shift et aux données hors distribution, ce qui est précieux en production.