Masked LM (Masked Language Modeling)

Le Masked Language Modeling (MLM) est un objectif d’entraînement auto-supervisé qui consiste à masquer aléatoirement une fraction des tokens d’une séquence et à entraîner le modèle à prédire les tokens masqués en utilisant le contexte bidirectionnel (passé et futur). C’est l’objectif fondateur de BERT et la base de tous les modèles encoder-only.

Catégorie: Objectif d’entraînement / Tâche de pré-entraînement
Aussi appelé: MLM, Masked Language Model, Cloze task (inspiré du test de closure en linguistique)
Principe: Masquer ~15 % des tokens, prédire les tokens masqués via le contexte bidirectionnel
Architecture associée: Encoder-only (attention bidirectionnelle, sans masque causal)
Opposé: Causal Language Modeling (CLM, prédiction du prochain token, unidirectionnel)
Modèles emblématiques: BERT, RoBERTa, ModernBERT, ALBERT, DeBERTa, ELECTRA

Le principe : un exercice à trous pour l’IA

Le MLM s’inspire directement du test de closure (cloze test) en linguistique : on cache un mot dans une phrase et on demande au lecteur de deviner quel mot manque. C’est un exercice classique pour évaluer la compréhension du langage chez les humains, et c’est exactement ce que fait le MLM pour les modèles de langue.

Prenez la phrase « Le chat dort sur le canapé ». Le MLM sélectionne aléatoirement ~15 % des tokens et les masque :

Entrée : « Le [MASK] dort sur le canapé »

Prédiction attendue : « chat » à la position masquée

Le modèle utilise le contexte des deux côtés du token masqué (« Le » avant et « dort sur le canapé » après) pour prédire le mot manquant. C’est cette bidirectionnalité qui distingue fondamentalement le MLM du Causal Language Modeling (CLM), où le modèle ne voit que les tokens précédents.

La stratégie de masquage 80-10-10

L’implémentation du MLM dans BERT ne se résume pas à remplacer des tokens par [MASK]. Le protocole est plus subtil, et cette subtilité est cruciale pour les performances.

Parmi les 15 % de tokens sélectionnés pour la prédiction :

Traitement	Probabilité	Exemple (token original : « chat »)	Raison
Remplacement par [MASK]	80 %	« Le [MASK] dort sur le canapé »	Cas standard : force le modèle à prédire à partir du contexte
Remplacement par un token aléatoire	10 %	« Le piano dort sur le canapé »	Empêche le modèle de se fier uniquement à la présence de [MASK]
Token conservé tel quel	10 %	« Le chat dort sur le canapé »	Maintient la capacité du modèle à représenter les tokens non masqués

Dans les trois cas, le modèle doit prédire le token original. La perte de cross-entropy est calculée uniquement sur les positions sélectionnées (pas sur l’ensemble de la séquence).

Le problème du dataset shift Sans la stratégie 80-10-10, le modèle ne verrait le token [MASK] que pendant l’entraînement, jamais pendant le fine-tuning ou l’inférence. Ce décalage entre les distributions d’entraînement et d’utilisation (dataset shift) dégraderait les performances. En remplaçant 10 % des tokens sélectionnés par des tokens aléatoires et en conservant 10 % inchangés, BERT apprend à maintenir de bonnes représentations même quand aucun [MASK] n’est présent.

Pourquoi 15 % de masquage ?

Le choix de 15 % est un compromis empirique original de BERT. Les auteurs ont estimé qu’un taux trop élevé détruirait trop de contexte pour permettre des prédictions fiables, et qu’un taux trop faible gaspillerait du calcul sur des tokens non masqués qui ne contribuent pas à la perte.

Des travaux ultérieurs ont remis ce choix en question. Une étude de 2022 (Wettig et al.) a démontré que 15 % n’est pas universellement optimal :

Les grands modèles bénéficient d’un taux plus élevé. Pour BERT-Large, un taux de masquage de 40 % surpasse 15 % sur les benchmarks GLUE et SQuAD (amélioration de ~2 points F1). Plus le modèle est grand, plus il peut gérer un contexte plus corrompu.

Même 80 % fonctionne étonnamment bien. Un taux extrême de 80 % de masquage préserve 95 % des performances de fine-tuning. C’est un résultat surprenant qui remet en cause l’intuition selon laquelle un taux élevé « détruit trop de contexte ».

L’augmentation du taux a deux effets opposés. Plus de corruption rend la tâche plus difficile (négatif), mais plus de positions masquées génèrent plus de signaux de perte (positif). Ces deux effets se compensent partiellement, ce qui explique la robustesse aux variations du taux de masquage.

Malgré ces résultats, 15 % reste le standard de facto. RoBERTa, DeBERTa et ModernBERT l’utilisent tous, simplement par convention et par compatibilité avec les recettes d’entraînement existantes.

Masquage dynamique vs. statique

BERT original utilisait un masquage statique : les positions masquées étaient déterminées une fois pour toutes lors de la préparation des données, et le modèle voyait les mêmes masques à chaque époque. RoBERTa (2019) a introduit le masquage dynamique : les positions masquées sont recalculées aléatoirement à chaque époque d’entraînement, augmentant la diversité des exemples vus par le modèle.

Le masquage dynamique est un changement simple mais efficace. Il a contribué aux gains significatifs de RoBERTa par rapport à BERT, sans aucune modification architecturale. C’est aujourd’hui le standard pour tous les modèles MLM modernes.

Variantes et évolutions du MLM

Span masking (T5)

Au lieu de masquer des tokens individuels, le span masking de T5 masque des séquences contiguës (spans) de tokens et les remplace par un seul token sentinelle. Le modèle doit reconstruire le span entier. Cette approche est plus naturelle (les informations manquantes dans un texte sont rarement des mots isolés) et potentiellement plus efficiente (un span masqué contient plus d’information qu’un token isolé).

ELECTRA : remplacer plutôt que masquer

ELECTRA (2020) remplace le masquage par une tâche de détection de tokens remplacés. Un petit modèle générateur crée des substitutions plausibles pour les tokens sélectionnés (pas des tokens aléatoires, mais des tokens vraisemblables en contexte). Un modèle discriminateur plus grand doit identifier quels tokens ont été remplacés. Cette approche utilise tous les tokens pour générer un signal de perte (pas seulement les 15 % sélectionnés), comblant le principal défaut d’efficacité du MLM standard.

MAE-LM : séparer encodeur et prédiction

Le Masked Autoencoder LM (MAE-LM, Meng et al., 2023) ne passe que les tokens non masqués à travers l’encodeur principal, puis utilise un décodeur léger pour reconstruire les tokens masqués. Cela évite le problème de « déficience de représentation » où certaines dimensions de l’encodeur se spécialisent pour le token [MASK] et deviennent inutiles pour les tokens réels pendant le fine-tuning.

ExLM : gérer l’ambiguïté des tokens masqués

ExLM (Enhanced-Context MLM, Zheng et al., 2025) adresse le problème de la « sémantique corrompue ». Quand un token est masqué, le contexte restant peut correspondre à plusieurs tokens plausibles (ambiguïté). ExLM modélise cette ambiguïté en dupliquant les états cachés à chaque position masquée et en utilisant un encodage positionnel 2D rotatif pour distinguer les alternatives sémantiques.

MLM vs. CLM : forces et faiblesses

La comparaison avec le Causal Language Modeling est la clé pour comprendre quand utiliser le MLM :

Le MLM produit de meilleures représentations. L’attention bidirectionnelle force le modèle à considérer le contexte complet (passé et futur) pour chaque prédiction. Les représentations résultantes capturent des relations sémantiques plus riches que celles du CLM unidirectionnel. C’est pourquoi les modèles MLM dominent pour les embeddings, la classification et le NER.

Le CLM est plus efficient en signal d’entraînement. Le CLM génère un signal de perte pour chaque position (L-1 signaux pour L tokens). Le MLM n’en génère que pour les ~15 % de positions masquées. À volume de données égal, le CLM apprend plus vite. C’est un avantage critique à grande échelle.

Le MLM force un processus d’apprentissage en deux étapes. Des analyses des représentations internes montrent que les modèles MLM traversent un processus d’apprentissage distinctif : d’abord l’encodage du contexte (les couches intermédiaires « oublient » le token masqué pour se concentrer sur le contexte), puis la reconstruction (les couches profondes reconstituent l’information nécessaire pour prédire le token manquant). Ce processus en deux étapes produit des représentations plus structurées que le CLM.

Le MLM ne peut pas générer de texte. C’est sa limitation structurelle. Le MLM est conçu pour comprendre, pas pour produire. Un modèle entraîné par MLM ne peut pas générer de texte de manière autoréressive car il n’a pas de mécanisme de génération séquentielle. Pour la génération, le CLM est le seul choix viable.

Où le MLM est utilisé en 2026

Embeddings et RAG

Le MLM est la base de la majorité des modèles d’embeddings textuels utilisés dans les pipelines RAG. BGE, E5, GTE, Sentence-Transformers : presque tous partent d’un modèle pré-entraîné par MLM (BERT, RoBERTa, ModernBERT) puis sont affinés par apprentissage contrastif pour produire des embeddings de phrases. Le MLM fournit les représentations bidirectionnelles riches nécessaires à une bonne similarité sémantique.

Classification et extraction d’entités

Le fine-tuning d’un modèle MLM pour la classification est simple et efficace : on prend la représentation du token [CLS], on ajoute une couche de classification, et on fine-tune avec des données labélisées. Pour le NER (Named Entity Recognition), on utilise les représentations de chaque token pour prédire sa catégorie d’entité. Les modèles MLM sont plus performants que les modèles CLM pour ces tâches à taille comparable.

Reranking de résultats de recherche

Les cross-encoders utilisés pour le reranking sont typiquement des modèles MLM fine-tunés. Le modèle prend en entrée la paire (requête, document) et produit un score de pertinence. La compréhension bidirectionnelle du MLM permet au cross-encoder de capturer les interactions fines entre requête et document.

Pré-entraînement de domaine

Le MLM est couramment utilisé pour adapter un modèle encoder-only à un domaine spécifique. On reprend un BERT/ModernBERT pré-entraîné et on continue le MLM sur un corpus de domaine (médical, juridique, financier). Cette étape, appelée domain-adaptive pre-training, améliore significativement les performances sur les tâches spécifiques au domaine. BioClinical ModernBERT (2025) illustre cette approche en adaptant ModernBERT aux textes biomédicaux et cliniques.

Implémentation pratique du MLM

L’implémentation du MLM est simple avec Hugging Face Transformers. Le DataCollator gère automatiquement la sélection des tokens, l’application de la stratégie 80-10-10 et la création des labels :

from transformers import (
    AutoModelForMaskedLM,
    AutoTokenizer,
    DataCollatorForLanguageModeling,
    TrainingArguments,
    Trainer
)

# Charger modèle et tokenizer
model = AutoModelForMaskedLM.from_pretrained("answerdotai/ModernBERT-base")
tokenizer = AutoTokenizer.from_pretrained("answerdotai/ModernBERT-base")

# DataCollator avec mlm=True (par défaut) et taux de 15%
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=True,              # Mode MLM (pas CLM)
    mlm_probability=0.15   # Taux de masquage standard
)

# Entraînement
training_args = TrainingArguments(
    output_dir="./mlm-finetuned",
    per_device_train_batch_size=16,
    num_train_epochs=3,
    learning_rate=5e-5,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    data_collator=data_collator,
)

trainer.train()

MLM pour le domain-adaptive pre-training Si vous souhaitez adapter un modèle encoder-only à votre domaine, le script ci-dessus est votre point de départ. Collectez un corpus de textes de votre domaine (articles médicaux, documents juridiques, code source), tokenisez-le, et lancez le MLM sur votre modèle de base (ModernBERT recommandé). Quelques époques suffisent souvent pour observer une amélioration mesurable sur les tâches spécifiques au domaine.

Limites du MLM

Inefficacité du signal d’entraînement. Seuls ~15 % des tokens génèrent un signal de perte. Les 85 % restants traversent le modèle mais ne contribuent pas à l’apprentissage. C’est un gaspillage computationnel que le CLM n’a pas (chaque token contribue). ELECTRA résout partiellement ce problème en utilisant tous les tokens pour la détection de remplacement.

Déficience de représentation. Le token [MASK], omniprésent pendant l’entraînement, capture des dimensions spécifiques de l’espace de représentation. Ces dimensions sont inutilisées pendant le fine-tuning et l’inférence, où [MASK] n’apparaît jamais. Certaines dimensions de l’encodeur sont donc gaspillées. MAE-LM et la stratégie 80-10-10 atténuent ce problème sans l’éliminer complètement.

Incohérence conditionnelle. Un modèle MLM entraîné avec différents patterns de masquage ne garantit pas des distributions jointes cohérentes entre les conditionnelles. Si vous masquez deux tokens dans la même phrase, la prédiction de l’un peut être incohérente avec la prédiction de l’autre. Le CLM, par construction autoréressive, ne souffre pas de ce problème.

Pas de génération de texte. Le MLM ne fournit aucun mécanisme natif de génération séquentielle. Un modèle MLM peut remplir des trous dans un texte existant, mais il ne peut pas produire du texte nouveau de bout en bout. Pour la génération, le CLM et l’architecture decoder-only restent nécessaires.

Biais et mémorisation. Comme tout modèle entraîné sur des données web, les modèles MLM encodent les biais présents dans les données d’entraînement. Les métriques standard de mesure des biais (basées sur les prédictions de tokens masqués) sont elles-mêmes imparfaites. La métrique AUL (All Unmasked Likelihood) a été proposée pour une mesure plus fidèle.

Verdict

Le Masked Language Modeling est l’objectif qui a donné naissance à BERT et révolutionné le NLP en 2018. Son idée fondamentale (masquer et prédire via le contexte bidirectionnel) produit des représentations textuelles d’une richesse que le CLM unidirectionnel ne peut pas égaler. C’est pourquoi le MLM reste la base de tous les modèles d’embeddings, de classification et de reranking en 2026.

Sa principale faiblesse (l’impossibilité de générer du texte) l’a relégué au second plan face aux LLM génératifs. Mais dans les coulisses de chaque pipeline RAG, de chaque moteur de recherche sémantique et de chaque système de classification, c’est un modèle MLM qui fait le travail. Le MLM et le CLM ne sont pas en compétition : ils sont complémentaires, chacun optimal pour sa catégorie de tâches.

Questions fréquentes sur le Masked Language Modeling

Pourquoi le MLM ne peut-il pas générer de texte ?

Le MLM utilise une attention bidirectionnelle : chaque token voit toute la séquence, y compris les tokens futurs. Or, au moment de générer du texte, les tokens futurs n’existent pas encore. Il n’y a pas de mécanisme pour produire des tokens séquentiellement, car le modèle n’a jamais appris à prédire « le prochain token » mais uniquement à prédire « le token manquant étant donné tout le contexte ». C’est une différence architecturale fondamentale, pas une simple limitation d’entraînement.

Quelle est la différence entre MLM et le masquage en vision (MAE) ?

Le Masked Autoencoder (MAE) en vision applique le même principe aux images : masquer des patches (portions) de l’image et entraîner le modèle à les reconstruire. L’intuition est identique (apprendre des représentations par reconstruction), mais les détails diffèrent. Les MAE en vision masquent typiquement 75 % de l’image (beaucoup plus que 15 %), car les images contiennent plus de redondance que le texte. Le succès du MLM en NLP a directement inspiré le MAE en vision.

Faut-il utiliser le MLM ou ELECTRA pour pré-entraîner un encoder ?

ELECTRA est plus efficient (signal de perte sur 100 % des tokens vs. 15 % pour le MLM) et produit souvent de meilleurs résultats à budget de calcul égal. Cependant, il est plus complexe à implémenter (nécessite deux modèles : générateur + discriminateur) et la plupart des modèles pré-entraînés disponibles utilisent le MLM. Si vous pré-entraînez from scratch avec un budget limité, ELECTRA est un bon choix. Si vous faites du domain-adaptive pre-training à partir d’un modèle existant, le MLM standard est plus simple et parfaitement suffisant.

Le taux de masquage optimal est-il toujours 15 % ?

Non. Les recherches montrent que les grands modèles bénéficient d’un taux plus élevé (40 % pour BERT-Large). Même un taux de 80 % préserve 95 % des performances. En pratique, 15 % reste le standard par convention, mais si vous pré-entraînez un modèle large, expérimenter avec 30-40 % vaut la peine. Pour le domain-adaptive pre-training à petite échelle, 15 % reste un choix sûr.

Le MLM est-il obsolète face au CLM ?

Non, mais son rôle a changé. Le MLM n’est plus la base des modèles génératifs (c’est le CLM qui domine), mais il reste indispensable pour les tâches de compréhension. Les modèles encoder-only pré-entraînés par MLM représentent toujours la majorité des téléchargements sur Hugging Face. ModernBERT (décembre 2024) a relancé l’innovation dans cet espace. Le MLM ne disparaît pas : il se spécialise sur les tâches où il excelle (embeddings, classification, NER, reranking).