Causal LM (Causal Language Modeling)

Le Causal Language Modeling (CLM), aussi appelé Next Token Prediction, est l’objectif d’entraînement qui consiste à prédire le prochain token d’une séquence en se basant uniquement sur les tokens précédents. C’est l’objectif fondamental de tous les LLM génératifs modernes : GPT, Claude, LLaMA, Mistral, DeepSeek.

Catégorie: Objectif d’entraînement / Tâche de pré-entraînement
Aussi appelé: Next Token Prediction (NTP), autoregressive language modeling, full language modeling (FLM)
Principe: Prédire le token t+1 à partir des tokens 1 à t (contexte gauche uniquement)
Architecture associée: Decoder-only (avec masque d’attention causal)
Opposé: Masked Language Modeling (MLM, utilisé par BERT)
Fonction de perte: Cross-entropy entre la distribution prédite et le vrai token

Le principe : prédire le prochain mot

L’idée derrière le CLM est d’une simplicité remarquable. Prenez un texte quelconque. Pour chaque position dans ce texte, le modèle doit prédire le token suivant en ne regardant que ce qui précède. C’est exactement ce que fait votre cerveau quand vous lisez ou écoutez : vous anticipez inconsciemment le mot suivant à partir du contexte passé.

Exemple concret avec la phrase « Le chat dort sur le » :

Position	Contexte visible	Token à prédire
1	[début]	Le
2	Le	chat
3	Le chat	dort
4	Le chat dort	sur
5	Le chat dort sur	le
6	Le chat dort sur le	canapé (ou tapis, lit…)

Chaque position génère un signal d’entraînement. Pour une séquence de L tokens, le CLM produit L-1 prédictions (tout sauf le premier token qui n’a pas de contexte). C’est l’une des raisons de son efficacité : chaque token du corpus d’entraînement contribue à l’apprentissage.

Formulation mathématique

Formellement, le CLM maximise la vraisemblance de la séquence observée. Pour une séquence de tokens x = (x₁, x₂, …, xₙ), le modèle apprend à maximiser :

P(x) = ∏ᵢ₌₁ⁿ P(xᵢ | x₁, x₂, ..., xᵢ₋₁)

En pratique, on minimise le négatif du log de cette vraisemblance (la perte de cross-entropy) :

L = - ∑ᵢ₌₁ⁿ log P(xᵢ | x₁, ..., xᵢ₋₁; θ)

Où θ représente les paramètres du modèle. À chaque position i, le modèle produit une distribution de probabilité sur l’ensemble du vocabulaire (typiquement 30 000 à 128 000 tokens). La perte mesure l’écart entre cette distribution prédite et le vrai token observé. L’entraînement ajuste les paramètres θ pour minimiser cette perte sur l’ensemble du corpus.

Le « causal » dans Causal LM Le terme « causal » fait référence à la causalité temporelle : seul le passé (les tokens précédents) influence la prédiction du token courant. Les tokens futurs sont invisibles. C’est cette propriété qui nécessite le masque d’attention triangulaire dans le decoder-only Transformer : les positions futures sont mises à -∞ dans la matrice d’attention, les rendant inopérantes après le softmax.

Un apprentissage auto-supervisé

Le CLM est une forme d’apprentissage auto-supervisé : le texte lui-même fournit les labels d’entraînement. Pas besoin d’annotation humaine, pas besoin de labels explicites. Le token suivant est le label. Cette propriété est fondamentale car elle permet d’entraîner sur des quantités astronomiques de texte (des milliers de milliards de tokens) sans coût d’annotation.

C’est ce qui rend le scaling des LLM possible. Avec un objectif supervisé classique (classification, NER), les données labélisées sont le goulot d’étranglement. Avec le CLM, chaque page web, chaque livre, chaque article de code est une source de données d’entraînement gratuite et auto-labélisée.

CLM vs. MLM : deux philosophies opposées

Le Masked Language Modeling (MLM), utilisé par BERT et les modèles encoder-only, est l’alternative principale au CLM. Les différences sont profondes :

Critère	CLM (Causal Language Modeling)	MLM (Masked Language Modeling)
Direction	Gauche à droite uniquement (unidirectionnel)	Bidirectionnel (le token voit tout le contexte)
Objectif	Prédire le prochain token	Prédire les tokens masqués (15 % de la séquence)
Signaux par séquence	L-1 (quasi-total)	~15 % de L (seuls les masqués)
Efficacité d’entraînement	~6× plus efficient en signal par token	Moins efficient (85 % des tokens ne génèrent pas de perte)
Qualité des représentations	Orientées génération, sensibles à l’ordre	Plus riches pour la compréhension (contexte bidirectionnel)
Capacité générative	Native (génération token par token)	Absente (pas de mécanisme de génération séquentielle)
Scaling	Domine à grande échelle	Avantage aux petites échelles, limité au-delà
Architecture	Decoder-only	Encoder-only

Le résumé est net : le CLM est plus efficient pour l’entraînement et excelle en génération. Le MLM produit de meilleures représentations pour la compréhension. C’est pourquoi les LLM génératifs (chatbots, assistants) utilisent le CLM, tandis que les modèles d’embeddings et de classification utilisent le MLM.

Recherche récente : combiner CLM et MLM Le projet AntLM (décembre 2024) et les résultats du BabyLM Challenge 2024 montrent qu’alterner CLM et MLM pendant le pré-entraînement (en basculant le masque d’attention et l’objectif) produit des modèles qui combinent les forces des deux approches : convergence rapide du CLM et richesse sémantique du MLM. Des modèles CLM convertis en encoders bidirectionnels (LLM2Vec) montrent aussi des performances compétitives pour les tâches d’embeddings.

CLM vs. Prefix LM

Le Prefix Language Modeling est un compromis entre CLM et MLM. Dans un Prefix LM, une partie de la séquence (le « préfixe ») est traitée avec une attention bidirectionnelle (comme un encodeur), tandis que le reste est généré causalement (comme un décodeur). C’est l’approche utilisée par UL2 (Google) et certaines variantes de T5.

L’avantage du Prefix LM est que l’entrée (la question, le document à analyser) bénéficie d’une compréhension bidirectionnelle, tandis que la sortie (la réponse) est générée causalement. C’est un compromis élégant, mais qui ajoute de la complexité par rapport au CLM pur. En pratique, le CLM standard a gagné grâce à sa simplicité et ses propriétés de scaling supérieures.

Le CLM en pratique : entraîner un LLM

Préparation des données

L’implémentation du CLM est remarquablement simple. Dans Hugging Face Transformers, il suffit de configurer un DataCollator avec mlm=False pour passer en mode CLM. Le data collator copie les input_ids en labels, et le décalage (shift) entre entrée et prédiction est géré automatiquement par le modèle : les labels sont décalés d’une position vers la droite par rapport aux inputs.

Concrètement, si l’entrée est [Le, chat, dort, sur, le, canapé], les labels sont [chat, dort, sur, le, canapé, EOS]. Le modèle apprend à prédire chaque token à partir des tokens précédents.

Pré-entraînement à grande échelle

Le pré-entraînement CLM à l’échelle des LLM modernes implique :

Des milliers de milliards de tokens. LLaMA 3.1 a été entraîné sur 15 000 milliards de tokens. ModernBERT sur 2 000 milliards (en MLM). DeepSeek V3 sur des volumes comparables. Le volume de données est l’un des facteurs déterminants de la qualité du modèle.

Des lois de scaling. Les travaux de Kaplan et al. (OpenAI) et de Chinchilla (DeepMind) montrent que la performance du CLM suit des lois de puissance prévisibles en fonction du nombre de paramètres, du volume de données et du budget de calcul. Ces lois permettent d’estimer à l’avance la performance attendue et d’optimiser l’allocation des ressources.

Un compute massif. L’entraînement de Mistral Large 3 (675B MoE) a nécessité 3 000 GPU H200. Le coût d’un entraînement frontier se chiffre en dizaines de millions de dollars.

Du CLM au chatbot : instruction tuning

Un modèle entraîné uniquement avec le CLM est un « complémenteur de texte » : il continue n’importe quel texte de manière statistiquement plausible. Pour en faire un assistant utile (chatbot), deux étapes supplémentaires sont nécessaires :

Instruction tuning (SFT, Supervised Fine-Tuning). Le modèle est fine-tuné sur des paires (instruction, réponse). L’objectif reste du CLM (prédire les tokens de la réponse), mais conditionné sur l’instruction. Le modèle apprend ainsi à interpréter une consigne et à produire une réponse structurée plutôt que de simplement continuer le texte.

Alignement (RLHF, DPO). Le modèle est affiné pour produire des réponses que les humains préfèrent : plus utiles, plus précises, plus sûres. Le CLM reste l’objectif sous-jacent (le modèle génère toujours token par token), mais la fonction de perte intègre les préférences humaines.

Pourquoi un objectif si simple fonctionne-t-il si bien ?

La puissance du CLM est contre-intuitive. Prédire le prochain mot semble être une tâche triviale, pourtant c’est cette tâche qui a produit les systèmes d’IA les plus capables jamais créés. Plusieurs facteurs l’expliquent :

La prédiction implique la compréhension. Pour prédire correctement le prochain token dans un texte scientifique, juridique ou de code, le modèle doit comprendre la logique sous-jacente. Prédire le prochain mot de « Le théorème de Pythagore s’applique aux triangles… » nécessite de savoir ce qu’est le théorème de Pythagore et ce que sont les triangles rectangles. L’objectif est simple, mais le résoudre à grande échelle impose une compréhension profonde du monde.

Le scaling transforme la quantité en qualité. À petite échelle, le CLM produit un modèle qui fait du « copier-coller statistique ». À grande échelle (des centaines de milliards de paramètres, des milliers de milliards de tokens), des capacités émergentes apparaissent : raisonnement, traduction, programmation, maths. Le passage à l’échelle ne produit pas seulement un meilleur complémenteur de texte, il produit un système qualitativement différent.

L’universalité du texte comme interface. En formulant toute tâche comme une séquence de tokens (question → réponse, code → output, problème → solution), le CLM devient un objectif universellement applicable. C’est l’insight fondateur de GPT-2 : un modèle de langage assez grand peut résoudre n’importe quelle tâche expressible en langage naturel.

Extensions et variantes du CLM

Multi-Token Prediction (MTP). Au lieu de prédire un seul token, le modèle prédit simultanément les N tokens suivants via des « têtes » indépendantes. DeepSeek V3 utilise cette technique. Le tronc partagé du Transformer traite la séquence une seule fois, puis chaque tête prédit un offset différent (t+1, t+2, etc.). Le MTP améliore la qualité des représentations internes et peut accélérer l’inférence quand combiné avec le speculative decoding.

Future Token Prediction (FTP). Une variante de recherche (Walker et al., 2024) qui, au lieu de prédire les tokens individuels, entraîne les vecteurs d’embedding de chaque position à capturer la sémantique de plusieurs tokens futurs. L’hypothèse, inspirée des neurosciences, est que les humains anticipent non pas un seul mot mais plusieurs mots à venir.

ContraCLM. Ajoute un objectif contrastif au CLM standard pour améliorer la discriminativité et l’isotropie des représentations. ContraCLM comble l’écart entre les représentations des modèles causaux et ceux des encoder-only sur des tâches de similarité sémantique et de recherche de code.

CLM + MLM alterné. L’approche AntLM (2024) alterne CLM et MLM pendant le pré-entraînement en basculant entre masque causal et masque bidirectionnel. Cette unification produit des modèles qui combinent les forces des deux paradigmes. Les résultats du BabyLM Challenge 2024 confirment l’intérêt de cette approche.

Du CLM à la génération : l’inférence

L’entraînement par CLM définit comment le modèle apprend. L’inférence (la génération de texte) est le processus inverse : utiliser le modèle entraîné pour produire de nouveaux tokens. Le processus est autorégressif : chaque token généré est ajouté à la séquence, et le modèle est relancé pour prédire le suivant.

Stratégies de décodage

À chaque étape, le modèle produit une distribution de probabilité sur tout le vocabulaire. La façon dont on sélectionne le token dans cette distribution impacte profondément la qualité du texte généré :

Greedy decoding. On prend simplement le token avec la probabilité la plus élevée. C’est déterministe et rapide mais produit souvent du texte répétitif et peu naturel.

Échantillonnage avec température. La distribution de probabilité est « adoucie » (température > 1 pour plus de diversité) ou « durcie » (température < 1 pour plus de certitude) avant l'échantillonnage. C'est le paramètre le plus intuitif à régler.

Top-K sampling. On ne considère que les K tokens les plus probables et on redistribue les probabilités entre eux. Élimine les tokens très improbables qui pourraient produire du texte incohérent.

Top-P (nucleus) sampling. On sélectionne les tokens dont les probabilités cumulées atteignent un seuil P. Plus adaptatif que le top-K car le nombre de tokens considérés varie selon la confiance du modèle. Si le modèle est très confiant (un token à 95 %), peu de tokens sont considérés. S’il est incertain (distribution plate), plus de tokens entrent en jeu.

Beam search. Maintient K « faisceaux » (hypothèses partielles) en parallèle et conserve les K séquences les plus vraisemblables. Rarement utilisé pour les LLM modernes en mode conversationnel, mais utile pour la traduction et le résumé.

Le rôle du KV-cache

Sans optimisation, la génération de chaque nouveau token nécessiterait de recalculer l’attention sur toute la séquence depuis le début (coût quadratique). Le KV-cache stocke les clés et valeurs calculées lors des passes précédentes. Pour chaque nouveau token, seuls les calculs relatifs à ce token sont effectués. Le KV-cache transforme le coût de génération de O(n²) à O(n), rendant la génération de longues réponses pratiquement viable.

Le KV-cache est la contrepartie mémoire du gain de vitesse : il consomme de la VRAM proportionnellement à la longueur de la séquence et au nombre de requêtes concurrentes. C’est souvent le facteur limitant du throughput de serving, pas les calculs eux-mêmes.

Limites du CLM

Compréhension unidirectionnelle. Le CLM ne voit que le contexte passé. Pour des tâches où le contexte futur est informatif (classification d’un document entier, extraction d’entités), cette limitation est structurelle. Les modèles encoder-only avec attention bidirectionnelle restent supérieurs pour ces tâches.

Hallucinations. Le CLM génère le token le plus « vraisemblable » statistiquement, pas nécessairement le plus « vrai ». Cette propriété conduit aux hallucinations : le modèle produit du texte fluide mais factuellement incorrect. C’est un problème inhérent à l’objectif de prédiction de vraisemblance.

Raisonnement causal limité. Malgré son nom, le CLM ne développe pas un véritable raisonnement causal au sens scientifique. Le benchmark CLEAR-3K montre que même les plus grands modèles plafonnent à un score MCC de ~0,55 pour distinguer corrélation et causalité. Le CLM capture des patterns statistiques, pas des relations causales profondes.

Risque de mémorisation. Sur des données sensibles, le CLM peut mémoriser et régurgiter des informations privées. Des approches comme PPclm-gpt (Boutet et al., 2025) proposent d’exclure les tokens identifiants de l’objectif de prédiction pour réduire ce risque.

Verdict

Le Causal Language Modeling est l’objectif d’entraînement le plus influent de l’ère de l’IA moderne. Sa simplicité (prédire le prochain token) masque une profondeur remarquable : à grande échelle, il produit des systèmes capables de raisonnement, de programmation, de traduction et de créativité. C’est le fondement de GPT, Claude, LLaMA, et de quasiment tous les LLM que vous utilisez au quotidien.

Ses limitations (unidirectionnalité, hallucinations, raisonnement causal superficiel) sont réelles mais activement adressées par des extensions (MTP, ContraCLM, CLM+MLM hybride) et des techniques post-entraînement (RLHF, reasoning models). Le CLM n’est pas parfait, mais il est le meilleur objectif connu pour produire des modèles de langage génératifs à grande échelle. Et pour l’instant, personne n’a trouvé mieux.

Questions fréquentes sur le Causal Language Modeling

CLM et « next token prediction », est-ce la même chose ?

Oui. « Causal Language Modeling » est le terme technique académique, « next token prediction » (NTP) est la description intuitive du même processus. Les deux désignent le fait de prédire le prochain token à partir des tokens précédents. Certains auteurs utilisent aussi « full language modeling » (FLM) ou « autoregressive language modeling » pour désigner la même chose.

Pourquoi GPT utilise-t-il le CLM plutôt que le MLM ?

GPT est conçu pour la génération de texte, qui est intrinsèquement séquentielle (un token après l’autre). Le CLM est le seul objectif naturellement compatible avec la génération autoréressive. Le MLM, avec ses tokens masqués aléatoirement et son attention bidirectionnelle, ne permet pas de générer du texte de manière séquentielle. C’est un choix architectural fondamental : si vous voulez un modèle qui génère du texte, le CLM est la voie obligée.

Le CLM peut-il être utilisé pour la classification ?

Oui, de manière détournée. Un LLM entraîné par CLM peut classifier du texte via le prompting (« Ce texte est-il positif ou négatif ? »). Mais un modèle encoder-only entraîné par MLM puis fine-tuné pour la classification sera généralement plus précis et plus rapide à taille comparable. Le CLM est optimal pour la génération, le MLM pour la compréhension.

La perplexité mesure-t-elle la qualité d’un modèle CLM ?

Partiellement. La perplexité (2^perte moyenne) mesure à quel point le modèle est « surpris » par les tokens réels. Une perplexité basse signifie de bonnes prédictions. C’est la métrique standard pour évaluer le pré-entraînement CLM. Cependant, la perplexité ne capture pas toujours la performance sur les tâches en aval (classification, raisonnement). Un modèle avec une perplexité légèrement plus élevée peut surpasser un modèle à perplexité plus basse sur des benchmarks pratiques, si ses représentations sont plus utiles.

Le CLM deviendra-t-il obsolète avec de meilleurs objectifs ?

Peu probable à court terme. Le CLM bénéficie d’une inertie massive (tous les frameworks, recettes et données sont optimisés pour lui), de propriétés de scaling empiriquement supérieures, et d’une simplicité d’implémentation inégalée. Les extensions (MTP, CLM+MLM hybride) enrichissent le CLM plutôt que de le remplacer. Le scénario le plus probable est une évolution incrémentale (CLM augmenté) plutôt qu’une rupture vers un objectif radicalement différent.