BYOL (Bootstrap Your Own Latent)

BYOL (Bootstrap Your Own Latent) est un algorithme de self-supervised learning développé par DeepMind qui apprend des représentations visuelles de haute qualité sans utiliser de paires négatives, en entraînant un réseau « online » à prédire la représentation d’un réseau « target » (mis à jour par moyenne exponentielle mobile) sur des vues augmentées différentes de la même image.

Auteurs: Jean-Bastien Grill et al. (DeepMind, Imperial College London)
Publication: NeurIPS 2020 (soumis juin 2020)
Famille: Self-supervised learning / Auto-distillation
Innovation: Pas de paires négatives, asymétrie architecturale (prédicteur), EMA
Benchmark: ImageNet top-1 : 74,3% (ResNet-50), 79,6% (ResNet-200 2×)
Successeur: DINO, DINOv2, SimSiam

La rupture : pas de paires négatives

Avant BYOL, le dogme du contrastive learning était clair : pour apprendre de bonnes représentations, il faut des paires positives ET des paires négatives. Les positives rapprochent les vues de la même image. Les négatives éloignent les vues d’images différentes. Sans négatifs, le modèle peut « tricher » en mappant toutes les entrées au même point (effondrement des représentations, ou collapse). SimCLR dépendait de batches de 4 096+ pour fournir assez de négatifs. MoCo maintenait une queue de 65 536 négatifs.

BYOL a démontré que les paires négatives ne sont pas nécessaires. En atteignant 74,3% top-1 sur ImageNet (ResNet-50) sans aucun négatif, BYOL a surpassé SimCLR et MoCo, tout en étant plus robuste à la taille du batch et au choix des augmentations. Ce résultat a surpris la communauté et ouvert une nouvelle direction de recherche en SSL.

Architecture détaillée

BYOL repose sur deux réseaux qui interagissent : le réseau online et le réseau target.

Le réseau online

Le réseau online se compose de trois modules en série. L’encodeur f_θ (typiquement un ResNet-50) prend une vue augmentée v de l’image et produit une représentation y_θ = f_θ(v). Le projecteur g_θ (MLP à 2 couches, dimension cachée 4 096, sortie 256) projette la représentation dans un espace latent : z_θ = g_θ(y_θ). Le prédicteur q_θ (MLP de même architecture que le projecteur) produit la prédiction : p_θ = q_θ(z_θ).

Le prédicteur q_θ est la clé architecturale de BYOL. Il n’existe que dans le réseau online, pas dans le réseau target. Cette asymétrie est ce qui empêche le collapse.

Le réseau target

Le réseau target contient un encodeur f_ξ et un projecteur g_ξ (mêmes architectures que le réseau online), mais pas de prédicteur. Il traite une vue augmentée différente v’ de la même image et produit une cible : z’_ξ = g_ξ(f_ξ(v’)).

Les paramètres ξ du réseau target ne sont pas entraînés par gradient. Ils sont mis à jour par moyenne exponentielle mobile (EMA) des paramètres θ du réseau online :

ξ ← τ × ξ + (1 - τ) × θ

Le taux de décroissance τ commence à 0,996 et augmente progressivement vers 1,0 pendant l’entraînement (schedule cosinus). Le réseau target est donc une version « lissée » et légèrement en retard du réseau online, ce qui fournit des cibles stables pour la prédiction.

Fonction de perte

BYOL minimise la distance L2 normalisée entre la prédiction du réseau online et la cible du réseau target :

L_θ,ξ = ||p̄_θ - z̄'_ξ||² = 2 - 2 × (⟨p_θ, z'_ξ⟩ / (||p_θ|| × ||z'_ξ||))

où p̄ et z̄’ sont les vecteurs normalisés L2. Cette perte est équivalente à la similarité cosinus négative (plus p_θ et z’_ξ sont alignés, plus la perte est faible). La perte finale est symétrisée : on calcule la perte pour les deux orientations (v→v’ et v’→v) et on moyenne.

Contrairement à SimCLR, il n’y a pas de température, pas de softmax sur les négatifs, pas de négatifs du tout. La perte compare uniquement les deux vues de la même image. C’est une simplification radicale.

Pourquoi BYOL ne s’effondre pas

La question la plus débattue : sans négatifs pour forcer la diversité, pourquoi BYOL ne converge-t-il pas vers la solution triviale (toutes les représentations identiques) ?

L’asymétrie architecturale

Le prédicteur q_θ existe uniquement dans le réseau online. C’est cette asymétrie qui rompt la symétrie du problème et empêche le collapse. Si on retire le prédicteur (en prédisant directement z_θ au lieu de p_θ = q_θ(z_θ)), BYOL s’effondre vers une solution constante. Si on retire le réseau target (en utilisant le réseau online lui-même comme cible), BYOL s’effondre aussi. Les deux composants sont nécessaires conjointement.

Stabilisation par EMA

Le réseau target, mis à jour par EMA, évolue lentement par rapport au réseau online. Cela crée un décalage temporel : le réseau online essaie de prédire une version « passée » et « lissée » de lui-même. Ce décalage empêche la convergence instantanée vers un point fixe trivial. L’EMA avec un taux τ proche de 1 assure que le target change suffisamment lentement pour fournir des cibles stables, mais suffisamment vite pour refléter les améliorations du réseau online.

Batch normalization comme contrastif implicite

Une explication complémentaire, proposée par des travaux ultérieurs : le batch normalization dans l’encodeur agit comme un mécanisme contrastif implicite. En normalisant les activations par rapport à la moyenne et la variance du batch, le BN force chaque représentation à « se différencier » de la moyenne du batch. En d’autres termes, le BN fait en sorte que BYOL apprend en se demandant « comment cette image diffère-t-elle de l’image moyenne du batch ? », ce qui est fonctionnellement similaire au contrastif explicite de SimCLR.

Cependant, des travaux ultérieurs (Richemond et al., 2020) ont montré que BYOL peut fonctionner sans batch statistics (en remplaçant le BN par du group normalization), ce qui suggère que le BN n’est pas l’unique explication. La compréhension théorique complète reste un problème ouvert.

Le bootstrapping initial : pourquoi ça démarre Un résultat clé de l’article : même un réseau target initialisé aléatoirement (non entraîné) fournit un signal d’apprentissage utile. Un réseau entraîné à prédire les sorties d’un réseau aléatoire atteint 18,8% top-1 sur ImageNet, vs 1,4% pour le réseau aléatoire lui-même. Le bootstrapping itératif (utiliser le réseau online comme nouveau target) produit une séquence de représentations de qualité croissante. BYOL généralise ce processus en continu via l’EMA.

Robustesse par rapport à SimCLR

Robustesse au batch size

SimCLR perd ~10 points de précision quand le batch passe de 4 096 à 256 (de ~76% à ~66%). BYOL reste stable entre 256 et 4 096, avec une dégradation significative uniquement en dessous de 256 (due au batch normalization qui nécessite un minimum de statistiques). Cette robustesse élimine le besoin d’infrastructure multi-GPU/TPU massive, rendant BYOL accessible à des équipes avec des ressources GPU limitées.

Robustesse aux augmentations

SimCLR subit une dégradation sévère quand on retire la distorsion de couleur des augmentations (le modèle résout la tâche via le color shortcut). BYOL souffre beaucoup moins de ce retrait. L’article montre que BYOL avec uniquement des crops aléatoires (sans distorsion de couleur) perd ~3 points, contre ~10+ pour SimCLR. Cette robustesse est importante pour les domaines où les augmentations de couleur ne sont pas appropriées (imagerie médicale, microscopie).

Aspect	BYOL	SimCLR	MoCo v2	DINO
Paires négatives	Non	Oui (batch)	Oui (queue)	Non
Anti-collapse	Prédicteur + EMA	Négatifs	Négatifs + momentum	Centering + EMA
Batch size minimum	256	4 096+	256	~1 024
Robustesse augmentations	Élevée	Faible	Modérée	Élevée
ImageNet top-1 (ResNet-50)	74,3%	76,5%	77,1%	~75% (ViT-S)
Architecture	Online + Target + prédicteur	Encodeur + projection	Encodeur + momentum + queue	Student + Teacher

Performances en transfert et semi-supervisé

BYOL ne se contente pas d’être bon en linear evaluation sur ImageNet. Il surpasse les méthodes contrastives sur les benchmarks de transfert : classification sur des datasets variés (Food-101, CIFAR-10/100, SUN397, etc.), segmentation sémantique (PASCAL VOC), et estimation de profondeur (NYU v2). Sur NYU v2, BYOL améliore la métrique « pourcentage de pixels à moins de 1.25 » de +3,5 points par rapport au supervisé et de +1,3 point par rapport à SimCLR.

En semi-supervisé (fine-tuning avec seulement 1% ou 10% des labels ImageNet), BYOL performe au niveau ou au-dessus de l’état de l’art, confirmant que les représentations apprises sont riches et transférables. Avec un ResNet-200 (2×), BYOL atteint 79,6% top-1, améliorant l’état de l’art précédent de +2,8 points tout en utilisant 30% de paramètres en moins.

Héritage et descendants

SimSiam (Chen & He, 2021)

SimSiam simplifie encore BYOL en éliminant le réseau target EMA. Il montre qu’un simple stop-gradient (ne pas propager le gradient à travers la branche target) suffit pour empêcher le collapse, sans EMA, sans queue de négatifs, sans grand batch. C’est la version la plus minimale de l’approche BYOL.

DINO et DINOv2

DINO hérite directement de l’architecture teacher-student de BYOL avec EMA, mais y ajoute le centering (soustraire la moyenne des sorties du teacher pour éviter le collapse) et les crops multi-échelles (le teacher reçoit des vues globales, le student des vues locales). DINOv2 (2023) étend cette approche à grande échelle et est devenu l’un des backbones SSL les plus utilisés. BYOL est reconnu comme un précurseur direct de cette lignée.

BGRL (Bootstrap Graph Latents)

BGRL transpose les principes de BYOL aux données de graphes (réseaux sociaux, molécules, graphes de connaissances). Il apprend des représentations de nœuds sans paires négatives, ce qui est particulièrement adapté aux graphes où la définition de négatifs est ambiguë.

Applications concrètes

Imagerie médicale et ECG

BYOL est particulièrement adapté au médical pour deux raisons : sa robustesse aux augmentations (les augmentations de couleur sont souvent inappropriées pour les images médicales) et son indépendance aux grands batch sizes (les datasets médicaux sont souvent petits). Sur les données ECG, BYOL surpasse systématiquement SimCLR pour le pre-training de modèles de fondation, avec une saturation de performance à seulement 60-70% des données disponibles. Pour l’IRM cérébrale, BYOL avec des augmentations 3D adaptées produit des features utiles pour la classification de pathologies neurologiques.

Few-shot learning

Les features BYOL sont excellentes pour le few-shot learning. SSL-ProtoNet combine BYOL avec les Prototypical Networks pour la classification few-shot, montrant des gains substantiels par rapport aux backbones supervisés. L’absence de dépendance aux négatifs rend BYOL plus adapté aux petits datasets few-shot où les négatifs seraient peu diversifiés.

Télédétection et observation de la Terre

Les images satellite sont abondantes mais rarement labellisées, et les augmentations de couleur standards (jitter de teinte) peuvent être inadaptées (les couleurs spectrales ont une signification physique). La robustesse de BYOL aux augmentations le rend naturellement adapté à ce domaine.

Reinforcement learning

Bootstrap Latent-Predictive Representations, inspiré de BYOL, applique le bootstrapping de représentations au RL multi-tâches. L’agent apprend des représentations prédictives de l’état en bootstrappant ses propres prédictions, ce qui améliore l’efficacité de l’apprentissage sur des tâches variées.

Limites

Compréhension théorique incomplète. Pourquoi BYOL ne s’effondre pas reste partiellement mystérieux. Le rôle respectif du prédicteur, de l’EMA et du batch normalization n’est pas entièrement élucidé. Plusieurs explications (BN implicitement contrastif, asymétrie du prédicteur, régularisation par weight decay) coexistent sans qu’une théorie unifiée ne fasse consensus.

Nécessité du weight decay. L’article note que supprimer le weight decay dans BYOL (ou SimCLR) conduit à une divergence du réseau. Le weight decay agit comme une régularisation essentielle qui prévient l’effondrement, mais cette dépendance ajoute un hyperparamètre sensible.

Performances inférieures à MoCo v2 en linear eval. Avec un ResNet-50, BYOL atteint 74,3% contre 77,1% pour MoCo v2 en linear evaluation standard. Cependant, BYOL surpasse MoCo v2 en transfert et en semi-supervisé, ce qui suggère que les features BYOL sont plus généralisables même si elles sont légèrement moins linéairement séparables sur ImageNet.

Spécifique à la vision. BYOL est conçu pour les images. Les auteurs notent explicitement que l’extension à d’autres modalités (audio, vidéo, texte) nécessite de trouver des augmentations appropriées pour chaque modalité. DINO et ses successeurs ont mieux réussi cette transition vers le multimodal.

Verdict

BYOL est un article pivot dans l’histoire du self-supervised learning. En démontrant que les paires négatives ne sont pas nécessaires, il a ouvert une brèche conceptuelle majeure et lancé la lignée des méthodes non-contrastives (DINO, SimSiam, Barlow Twins, VICReg). Sa robustesse au batch size et aux augmentations en fait un choix pratique excellent, surtout pour les domaines spécialisés où les augmentations standards ne s’appliquent pas et où les ressources GPU sont limitées.

Pour les praticiens, BYOL est le choix recommandé dans trois situations : quand vous travaillez avec des CNNs et que votre budget GPU ne permet pas les batches massifs de SimCLR, quand les augmentations de couleur sont inadaptées à votre domaine, ou quand les performances en transfert (et pas seulement en linear eval ImageNet) comptent pour vous. Si vous travaillez avec des ViT, préférez DINO ou MAE qui exploitent mieux les propriétés des Transformers. Et si la simplicité d’implémentation est prioritaire, SimSiam offre les mêmes principes que BYOL avec une architecture encore plus minimale.

Questions fréquentes sur BYOL

Pourquoi BYOL est-il plus robuste aux augmentations que SimCLR ?

SimCLR dépend des paires négatives pour empêcher l’effondrement. Si les augmentations ne créent pas suffisamment de variabilité (par exemple, sans distorsion de couleur), le modèle peut résoudre la tâche contrastive en utilisant des raccourcis de bas niveau (comme l’histogramme de couleurs), car les négatifs sont trop « faciles » à distinguer. BYOL n’a pas ce problème : sans négatifs, il n’y a pas de raccourci à exploiter. Le modèle doit apprendre des représentations sémantiquement significatives quelle que soit la force des augmentations. C’est pourquoi BYOL perd seulement ~3 points sans distorsion de couleur, contre ~10+ pour SimCLR.

Le prédicteur est-il vraiment nécessaire ?

Oui. Sans le prédicteur (en alignant directement z_θ avec z’_ξ), BYOL s’effondre vers une solution constante. Le prédicteur crée une asymétrie entre le réseau online et le réseau target qui est essentielle pour empêcher le collapse. SimSiam (Chen & He, 2021) a confirmé cette observation en montrant qu’un stop-gradient combiné à un prédicteur suffit, même sans EMA. L’interprétation est que le prédicteur force le réseau online à encoder plus d’information dans ses représentations pour pouvoir prédire la sortie du target, ce qui prévient naturellement l’effondrement.

BYOL ou DINO : lequel choisir ?

DINO est le successeur conceptuel de BYOL et est généralement préférable pour les Vision Transformers (grâce aux crops multi-échelles et au centering). BYOL est préférable pour les CNNs (ResNet) et quand la simplicité de l’architecture compte. Sur les benchmarks récents, DINOv2 surpasse BYOL significativement, surtout avec les ViT. Si vous démarrez un nouveau projet SSL, DINOv2 est le choix par défaut pour les ViT, et BYOL pour les CNNs. Mais en pratique, MAE avec ViT surpasse les deux pour les performances absolues.

Peut-on ajouter des paires négatives à BYOL ?

Oui, l’article explore cette option. Ajouter des négatifs à BYOL sans réajuster la température dégrade les performances (résultat contre-intuitif). Avec un réajustement approprié de la température, la version avec négatifs atteint des performances similaires à BYOL standard, pas meilleures. La conclusion est que les négatifs ne sont ni nécessaires ni bénéfiques pour BYOL, ce qui renforce l’idée que le mécanisme d’apprentissage de BYOL est fondamentalement différent du contrastive learning classique.

BYOL fonctionne-t-il sur de petits datasets ?

BYOL nécessite un dataset suffisamment grand pour que l’EMA et le bootstrapping fonctionnent efficacement. Sur ImageNet (1,28M images), les performances sont excellentes. Sur des datasets de quelques milliers d’images, BYOL peut ne pas converger aussi bien que des méthodes supervisées. Cependant, sur des datasets médicaux de taille intermédiaire (10 000-100 000 images), BYOL produit des features utiles et surpasse souvent SimCLR. La clé est de s’assurer que le batch size reste suffisant pour que le batch normalization fonctionne correctement (au minimum 128-256).