Autorégressif (Autoregressive)

Un modèle autorégressif génère une séquence élément par élément, chaque nouvel élément étant conditionné sur tous les éléments précédents. Dans le contexte des LLM, cela signifie que le texte est produit un token à la fois, chaque token dépendant de toute la séquence qui le précède. C’est le mode de fonctionnement de GPT, Claude, LLaMA, Mistral et de tous les LLM génératifs modernes.

Catégorie: Mode de génération / Paradigme de modélisation séquentielle
Aussi appelé: AR, autoregressive generation, left-to-right generation, sequential decoding
Principe: P(xₙ) = P(xₙ | x₁, x₂, …, xₙ₋₁) : chaque token dépend de tous les précédents
Objectif associé: Causal Language Modeling (entraînement), next token prediction
Architecture associée: Decoder-only Transformer avec masque d’attention causal
Opposé: Non-autorégressif (génération parallèle)

Qu’est-ce que l’autorégressivité ?

Le terme « autorégressif » vient des statistiques, où un modèle autorégressif (AR) est un processus dans lequel la valeur courante dépend linéairement des valeurs passées. En séries temporelles, un modèle AR(p) prédit la valeur actuelle à partir des p valeurs précédentes. Les LLM appliquent ce même principe au langage, mais avec une différence majeure : la dépendance est hautement non-linéaire (via le mécanisme d’attention du Transformer) et porte sur l’intégralité de la séquence passée, pas seulement les p derniers tokens.

Concrètement, quand un LLM génère la phrase « Le chat dort sur le canapé », le processus se déroule ainsi :

Étape	Contexte (tokens précédents)	Token généré	Dépendance
1	[prompt utilisateur]	Le	Prompt seul
2	[prompt] Le	chat	Prompt + « Le »
3	[prompt] Le chat	dort	Prompt + « Le chat »
4	[prompt] Le chat dort	sur	Prompt + « Le chat dort »
5	[prompt] Le chat dort sur	le	Prompt + « Le chat dort sur »
6	[prompt] Le chat dort sur le	canapé	Toute la séquence précédente

Chaque étape nécessite un passage complet (ou partiel, avec le KV-cache) à travers le modèle. C’est fondamentalement séquentiel : le token 3 ne peut pas être généré avant le token 2, car il en dépend. Cette séquentialité est à la fois la force et la faiblesse principale du paradigme autorégressif.

Formulation mathématique

La génération autoréressive factorise la probabilité jointe d’une séquence en un produit de probabilités conditionnelles :

P(x₁, x₂, ..., xₙ) = P(x₁) × P(x₂|x₁) × P(x₃|x₁,x₂) × ... × P(xₙ|x₁,...,xₙ₋₁)

Soit : P(x) = ∏ᵢ₌₁ⁿ P(xᵢ | x₁, ..., xᵢ₋₁)

Cette factorisation est exacte grâce à la règle de la chaîne des probabilités. Il n’y a aucune approximation dans la décomposition elle-même. L’approximation vient du modèle qui estime chaque P(xᵢ | x₁, …, xᵢ₋₁), car aucun réseau de neurones ne peut représenter parfaitement ces distributions conditionnelles.

Autorégressif ≠ déterministe Le modèle autorégressif produit une distribution de probabilité sur les tokens possibles à chaque étape, pas un seul token déterministe. Le choix du token dépend de la stratégie d’échantillonnage (température, top-p, top-k). Avec une température de 0 (greedy decoding), le résultat est déterministe. Avec une température > 0, la même entrée peut produire des sorties différentes à chaque exécution.

Les deux phases de l’inférence autoréressive

L’inférence d’un LLM autorégressif se décompose en deux phases distinctes avec des profils de performance très différents :

Phase 1 : Prefill (traitement du prompt)

Le prompt d’entrée (la question de l’utilisateur) est traité en une seule passe parallèle. Bien que le masque causal soit appliqué, tous les tokens du prompt sont traités simultanément car ils sont déjà connus. Le KV-cache est rempli pour chaque token du prompt. Cette phase est compute-bound : le goulot d’étranglement est la puissance de calcul du GPU.

Phase 2 : Decode (génération token par token)

Les tokens de réponse sont générés un par un, de manière autoréressive. Pour chaque nouveau token, le modèle effectue une passe, mais grâce au KV-cache, seul le calcul relatif au nouveau token est nécessaire (les clés/valeurs des tokens précédents sont en cache). Cette phase est memory-bandwidth-bound : le goulot d’étranglement est la vitesse de lecture des poids et du KV-cache depuis la mémoire GPU.

Le ratio de temps entre prefill et decode dépend de la longueur du prompt et de la réponse. Pour un prompt court et une réponse longue, le decode domine. Pour un prompt très long (document de 100K tokens) et une réponse courte, le prefill domine. Les frameworks de serving modernes (NVIDIA Dynamo, vLLM) optimisent les deux phases séparément.

Pourquoi l’autorégressif domine les LLM

Simplicité d’entraînement

L’entraînement d’un modèle autorégressif est remarquablement simple. L’objectif (Causal LM) consiste à prédire le prochain token à chaque position. Le texte brut fournit automatiquement les labels (le token suivant est le label). Pas besoin d’annotation humaine, pas de pipeline complexe. Cette simplicité permet d’entraîner sur des milliers de milliards de tokens issus du web.

Qualité de génération supérieure

La nature séquentielle garantit la cohérence : chaque token est conditionné sur tout ce qui précède, y compris les tokens déjà générés. Le modèle ne peut pas produire un token 5 qui contredit le token 3, car il voit le token 3 quand il génère le token 5. Les modèles non-autorégressifs, qui génèrent tous les tokens en parallèle, souffrent souvent de tokens incohérents entre eux car chaque token est généré indépendamment.

Universalité du paradigme

Le paradigme autorégressif s’applique à tout ce qui peut être tokenisé : texte, code, images (via tokenisation en patches), audio, vidéo, modèles 3D. La même architecture et le même objectif d’entraînement fonctionnent pour tous ces modaux. C’est cette universalité qui a permis l’émergence des modèles multimodaux : un seul Transformer autorégressif peut traiter et générer du texte, des images et de l’audio dans une séquence unifiée.

Capacités émergentes à grande échelle

À grande échelle, les modèles autorégressifs développent des capacités que leur objectif d’entraînement ne prédit pas directement : raisonnement en chaîne, traduction entre langues, résolution de problèmes mathématiques, programmation. Ces capacités émergentes sont l’un des résultats les plus surprenants de l’IA moderne. Un modèle entraîné « simplement » à prédire le prochain token développe des comportements qualitativement complexes quand il atteint une taille suffisante.

Le prix de la séquentialité

Lenteur inhérente de la génération

C’est la critique principale du paradigme autorégressif. Générer N tokens nécessite N passes séquentielles à travers le modèle (ou au minimum N lectures du KV-cache). Pour une réponse de 1 000 tokens avec un modèle de 70B paramètres, c’est 1 000 lectures séquentielles des poids du modèle depuis la mémoire GPU. La latence est proportionnelle à la longueur de la réponse, ce qui limite le throughput pour les applications temps réel.

Un article d’Apple Research (2025) souligne que les LLM autorégressifs sont « fondamentalement limités par leur nature séquentielle inhérente ». Cependant, les humains aussi « formulent leurs pensées au niveau de la phrase avant de les articuler mot par mot », suggérant que la séquentialité n’est pas intrinsèquement nécessaire.

Pas de révision possible

Un modèle autorégressif ne peut pas revenir en arrière. Une fois un token généré et ajouté à la séquence, il ne peut pas être modifié. Si le modèle commence une réponse dans une direction sous-optimale, il doit continuer avec ce contexte. Les humains, eux, révisent constamment : ils reformulent, corrigent, réorganisent. Cette limitation est partiellement contournée par les « reasoning models » (o1, DeepSeek-R1) qui génèrent une longue chaîne de pensée pouvant inclure des corrections internes, mais le paradigme reste fondamentalement unidirectionnel.

Redondance de calcul

Même avec le KV-cache, chaque nouveau token nécessite la lecture de tous les poids du modèle et de tout le KV-cache accumulé. Pour les longues séquences, ce coût croît linéairement. C’est ce qui rend les modèles autorégressifs memory-bandwidth-bound pendant le decode : le calcul effectif est faible, mais le volume de données à lire est énorme.

Accélérer la génération autoréressive

Plusieurs techniques contournent le goulot d’étranglement séquentiel sans abandonner le paradigme autorégressif :

Speculative decoding

Le speculative decoding utilise un petit modèle « brouillon » rapide pour prédire plusieurs tokens d’avance. Ces prédictions sont ensuite vérifiées en parallèle par le grand modèle. Si les prédictions sont correctes (ce qui arrive souvent pour du texte prévisible), plusieurs tokens sont validés en un seul passage du grand modèle. L’accélération typique est de 2 à 3×, sans aucune perte de qualité (les tokens validés sont identiques à ceux que le grand modèle aurait produit).

Multi-Token Prediction (MTP)

DeepSeek V3 utilise le MTP : le modèle est entraîné à prédire simultanément les N prochains tokens via des têtes de prédiction indépendantes. Le tronc partagé du Transformer calcule les représentations une seule fois, puis chaque tête prédit un offset différent. Combiné avec le speculative decoding, le MTP permet de valider plusieurs tokens par passage. Apple Research (2025) montre que les modèles autorégressifs « savent déjà » ce que seront les tokens futurs, et que cette connaissance peut être exploitée pour accélérer la génération.

Parallel decoding

Le parallel decoding regroupe plusieurs techniques qui génèrent des tokens en parallèle plutôt que séquentiellement. La méthode Medusa ajoute des « têtes » supplémentaires au modèle pour prédire plusieurs tokens simultanément, sans modèle brouillon séparé. Le speculative decoding classique est aussi une forme de parallel decoding (le modèle brouillon et le grand modèle travaillent en parallèle).

CALM : vers l’autorégressif continu

Le projet CALM (Continuous Autoregressive Language Models, 2025) propose un changement de paradigme : au lieu de prédire le prochain token discret, le modèle prédit le prochain vecteur continu. Un autoencodeur compresse K tokens en un seul vecteur, réduisant le nombre de pas autorégressifs d’un facteur K. C’est un compromis entre le parallélisme complet des modèles de diffusion et la séquentialité du Transformer classique.

Les alternatives au paradigme autorégressif

Paradigme	Principe	Avantages	Limites	Exemples
Autorégressif (AR)	Token par token, séquentiel	Qualité maximale, cohérence	Lent, pas de révision	GPT, Claude, LLaMA
Non-autorégressif (NAR)	Tous les tokens en parallèle	Rapide (1 passage)	Qualité dégradée, tokens incohérents	NAT, CMLM
Diffusion LLM (dLLM)	Débruitage itératif d’une séquence de bruit	Parallèle, auto-correction, qualité en progression	Plus lent qu’AR en pratique, écosystème immature	Mercury (Inception AI)
Semi-autorégressif	Génération par blocs de tokens	Compromis vitesse/qualité	Complexité accrue	MegaByte, CALM

Les modèles de diffusion pour le texte (dLLM) sont l’alternative la plus prometteuse. Inspirés de Stable Diffusion pour les images, ils génèrent la réponse entière en parallèle via un processus de débruitage itératif. Mercury d’Inception AI revendique une inférence jusqu’à 10× plus rapide que les LLM autorégressifs traditionnels. Cependant, les dLLM restent expérimentaux pour le texte et n’ont pas encore atteint la qualité des meilleurs modèles autorégressifs.

L’autorégressif reste dominant en 2026 Malgré les recherches actives sur les alternatives, tous les modèles frontier (GPT-5.4, Claude Opus 4.6, Gemini 3.1, DeepSeek V3.2) restent autorégressifs. Les techniques d’accélération (speculative decoding, MTP, Medusa) permettent de contourner le goulot d’étranglement séquentiel sans abandonner les avantages de cohérence du paradigme AR. L’autorégressif n’est pas sur le point de disparaître, il s’optimise.

L’autorégressif au-delà du texte

Le paradigme autorégressif s’étend désormais bien au-delà du texte. Tout ce qui peut être décomposé en une séquence ordonnée peut être modélisé autorégressivement :

Images. Les modèles comme DALL-E (version tokenisée) et Parti génèrent des images pixel par pixel ou patch par patch, de manière autoréessive. La tokenisation des images (via des autoencodeurs comme VQVAE) convertit les pixels en une séquence de tokens discrets compatible avec un Transformer autorégressif.

Audio et parole. Les codecs neuronaux (EnCodec, SoundStream) tokenisent l’audio en séquences de codes discrets, que des modèles autorégressifs comme AudioLM et MusicLM génèrent séquentiellement.

Code. La génération de code est naturellement autoréessive : les tokens de code sont générés séquentiellement, comme du texte. GPT-5.4 Codex, Claude Code et les assistants de programmation fonctionnent tous en mode autorégressif.

Multimodal. Les modèles multimodaux modernes (GPT-4o, Gemini) traitent texte, images et audio dans une séquence unifiée de tokens, tous générés autorégressivement. Un seul Transformer produit alternativement du texte et des tokens d’image/audio dans une boucle autoréessive unique.

Verdict

L’autorégressivité est le paradigme fondamental qui a rendu les LLM possibles. Sa simplicité (prédire le prochain token) combinée à ses propriétés de cohérence (chaque token voit tout le passé) en fait l’approche la plus robuste pour la génération de texte de haute qualité. Les limites de performance (lenteur séquentielle, pas de révision) sont réelles mais activement contournées par des optimisations comme le speculative decoding, le MTP et le KV-cache.

Les alternatives (modèles de diffusion, non-autorégressifs) progressent mais n’ont pas encore prouvé qu’elles peuvent égaler la qualité des meilleurs modèles AR à grande échelle. Le paradigme autorégressif continuera de dominer les LLM dans un futur prévisible, probablement augmenté de techniques de parallélisation partielle plutôt que remplacé par un paradigme fondamentalement différent.

Questions fréquentes sur les modèles autorégressifs

Autorégressif et decoder-only, est-ce la même chose ?

Les deux termes sont liés mais distincts. « Autorégressif » décrit le mode de génération (un token à la fois, conditionné sur les précédents). « Decoder-only » décrit l’architecture (seule la partie décodeur du Transformer est utilisée). En pratique, tous les modèles decoder-only sont autorégressifs, et quasiment tous les modèles autorégressifs pour le texte sont decoder-only. Mais un modèle encoder-decoder est aussi autorégressif dans sa partie décodeur (T5, BART génèrent la sortie token par token).

Pourquoi le streaming des réponses fonctionne-t-il token par token ?

C’est une conséquence directe de l’autorégressivité. Le modèle produit chaque token avant de calculer le suivant, ce qui permet d’envoyer chaque token à l’utilisateur dès qu’il est généré, sans attendre la réponse complète. C’est pourquoi vous voyez les réponses de ChatGPT, Claude ou Gemini apparaître mot par mot. Un modèle non-autorégressif ou de diffusion ne pourrait pas streamer de cette manière, car la réponse entière est produite simultanément.

Les reasoning models (o1, R1) sont-ils autorégressifs ?

Oui. Les modèles de raisonnement comme o1 (OpenAI), DeepSeek-R1 et GPT-5.4 Thinking sont pleinement autorégressifs. Leur « raisonnement » consiste à générer une longue chaîne de tokens (la chain-of-thought) avant la réponse finale. Il n’y a pas de mécanisme de planification non séquentiel : le modèle « pense » en générant du texte, token par token, comme pour n’importe quelle autre réponse. C’est l’une des critiques du paradigme AR : le raisonnement est simulé par la linéarité du texte, pas par un processus de planification structuré.

Le speculative decoding change-t-il la sortie du modèle ?

Non. Le speculative decoding est « mathématiquement équivalent » à la génération autoréessive standard. Les tokens validés sont exactement ceux que le grand modèle aurait produits seul. L’accélération vient du fait que la vérification de plusieurs tokens en parallèle est plus rapide que la génération séquentielle. Si une prédiction du modèle brouillon est incorrecte, elle est rejetée et le grand modèle reprend la génération normalement.

Les modèles de diffusion pour le texte vont-ils remplacer l’autorégressif ?

C’est peu probable à court terme. Les diffusion LLMs (dLLM) offrent un parallélisme attractif mais se heurtent à plusieurs obstacles : qualité de texte inférieure aux meilleurs modèles AR, écosystème d’entraînement et d’inférence immature, et absence de capacité de streaming (la réponse entière doit être générée avant d’être affichée). Le scénario le plus probable est une coexistence : modèles AR pour la génération de haute qualité et le dialogue, dLLM pour les cas où la vitesse prime sur la qualité absolue (édition, complétion, tâches structurées).