Non-Autorégressif (Non-Autoregressive, NAR)

Un modèle non-autorégressif (NAR) génère plusieurs ou tous les tokens d’une séquence en parallèle, au lieu de les produire un par un comme un modèle autorégressif. L’objectif est de briser le goulot d’étranglement séquentiel de la génération token-par-token pour accélérer l’inférence.

Catégorie: Paradigme de génération / Architecture de décodage
Aussi appelé: NAR, Non-Autoregressive Generation, parallel generation, simultaneous decoding
Principe: Prédire plusieurs tokens simultanément sans dépendance séquentielle stricte
Opposé: Autorégressif (AR, token par token, séquentiel)
Formes principales: NAT (one-shot), diffusion LLM (débruitage itératif), semi-autorégressif (par blocs)
Statut 2026: Recherche très active ; pas encore au niveau des meilleurs modèles AR en qualité de texte

Pourquoi dépasser l’autorégressif ?

Le paradigme autorégressif (AR) génère du texte un token à la fois, chaque token dépendant de tous les précédents. Cette séquentialité est un goulot d’étranglement fondamental : générer 1 000 tokens nécessite 1 000 passes séquentielles à travers le modèle (ou au minimum 1 000 lectures du KV-cache). La latence croît linéairement avec la longueur de la réponse.

Les modèles non-autorégressifs cherchent à contourner cette limitation en générant plusieurs tokens en parallèle. L’idée est de remplacer N passes séquentielles par un nombre bien inférieur de passes parallèles, exploitant la capacité de calcul parallèle massive des GPU modernes.

Le défi est de taille : les tokens d’une phrase ne sont pas indépendants. « Le chat dort sur le canapé » est cohérent. « Le dort chat le canapé sur » ne l’est pas. Supprimer la dépendance séquentielle risque de produire des tokens incohérents entre eux. C’est le compromis fondamental du NAR : vitesse vs. cohérence.

Les trois familles de génération non-autoréessive

1. Génération one-shot (NAT)

Le Non-Autoregressive Transformer (NAT), introduit par Gu et al. en 2018 pour la traduction automatique, génère tous les tokens de la sortie en un seul passage. Le modèle prédit la séquence complète en parallèle, sans aucune dépendance entre les tokens générés.

Avantage : vitesse maximale (un seul passage = une latence constante quelle que soit la longueur de la sortie).

Limite : qualité de traduction nettement inférieure à l’AR. Les tokens générés indépendamment souffrent du « multimodality problem » : le modèle hésite entre plusieurs traductions plausibles et peut mixer des fragments incohérents (par exemple, traduire la première moitié en langage formel et la seconde en langage familier).

Le NAT a été amélioré par des techniques comme le Conditional Masked Language Model (CMLM, Ghazvininejad et al., 2019), qui génère d’abord tous les tokens puis raffine itérativement les moins confiants en les re-masquant et re-prédisant. C’est un compromis entre one-shot pur et autorégressif : le modèle fait plusieurs passes, mais chaque passe traite tous les tokens en parallèle.

2. Diffusion Language Models (dLLM)

Les modèles de diffusion pour le texte sont l’approche NAR la plus prometteuse en 2026. Inspirés de Stable Diffusion pour les images, ils génèrent du texte par un processus itératif de débruitage :

Forward process : La séquence de texte « propre » est progressivement corrompue en ajoutant du bruit (remplacement de tokens par des tokens masqués ou aléatoires) sur T étapes.

Reverse process : Le modèle apprend à inverser cette corruption, débruitant progressivement la séquence de noise vers du texte cohérent. Chaque étape de débruitage peut modifier tous les tokens en parallèle.

Les diffusion LLM existent en deux variantes principales :

Type	Espace de travail	Processus de bruit	Exemples
Diffusion discrète (Masked Diffusion)	Tokens discrets	Masquage progressif (absorbing state)	LLaDA, Dream, MDLM
Diffusion continue	Embeddings continus	Bruit gaussien sur les vecteurs d’embedding	Diffusion-LM, GENIE, CoDAR

Les diffusion LLM discrètes (masked diffusion) sont devenues dominantes en 2025-2026. LLaDA (Large Language Diffusion with mAsking, Nie et al., 2025) et Dream (Ye et al., 2025) ont démontré que la diffusion peut scaler à des modèles de plusieurs milliards de paramètres avec des capacités d’instruction following compétitives. Ces modèles utilisent une attention bidirectionnelle (chaque token voit toute la séquence), ce qui leur confère un avantage théorique en modélisation du contexte par rapport à l’attention causale des modèles AR.

Le piège de la flexibilité d’ordre (février 2026) Un article récent (Ni et al., 2026, « The Flexibility Trap ») met en garde : la flexibilité d’ordre de génération des diffusion LLM peut paradoxalement nuire au raisonnement. Les modèles tendent à résoudre d’abord les tokens « faciles » (faible incertitude) et à contourner les points de décision critiques (haute incertitude), ce qui réduit l’espace de raisonnement effectif. Contraindre l’ordre de génération peut parfois améliorer le raisonnement, ce qui questionne l’intérêt même du parallélisme pour les tâches complexes.

3. Génération semi-autoréessive

Les modèles semi-autorégressifs (semi-AR) sont un compromis : ils génèrent des blocs de tokens en parallèle, mais les blocs sont produits séquentiellement. La cohérence est maintenue entre les blocs (autorégressif) tandis que les tokens à l’intérieur d’un bloc sont générés simultanément (non-autorégressif).

MegaByte (Yu et al., 2023) utilise un Transformer global pour prédire des blocs de tokens, puis un Transformer local autorégressif pour générer les tokens au sein de chaque bloc.

CALM (Continuous Autoregressive Language Models, Shao et al., 2025) compresse K tokens en un seul vecteur continu via un autoencodeur (précision de reconstruction > 99,9 %). Le modèle génère autoregressivement des vecteurs continus (pas des tokens discrets), réduisant le nombre de pas autorégressifs d’un facteur K.

Blockwise parallel decoding combine un modèle AR standard avec des vérificateurs pour produire et valider plusieurs tokens simultanément, similaire au speculative decoding.

État de l’art des dLLM en 2026

La recherche sur les diffusion LLM a explosé en 2025-2026. Le dépôt Awesome-DLMs recense des dizaines de publications par mois. Voici les avancées clés :

Scaling à l’échelle du milliard de paramètres. LLaDA, DiffuLLaMA et Dream ont prouvé que la diffusion discrète fonctionne à l’échelle des LLM modernes (1B+ paramètres). DiffuLLaMA s’initialise à partir de poids LLaMA existants, montrant que les connaissances d’un modèle AR pré-entraîné peuvent être transférées à un dLLM.

Mercury d’Inception AI. Ce modèle revendique une inférence jusqu’à 10× plus rapide que les LLM AR traditionnels. C’est le dLLM le plus orienté production à ce jour, bien que les benchmarks de qualité restent en dessous des meilleurs modèles AR.

Speedups mesurés. Learn2PD (2025) atteint un speedup de 22-57× sur GSM8K avec une dLLM et des caches optimisés, bien qu’avec une légère perte de précision (79,8 % → 74-77 %). Ces chiffres montrent le potentiel de vitesse, mais aussi le compromis qualité persistant.

Limitations pour le raisonnement. L’article « The Flexibility Trap » (Li et al., février 2026) et « Why Diffusion Language Models Struggle with Truly Parallel Decoding » montrent que les dLLM actuelles convergent souvent vers un décodage quasi-AR (gauche-à-droite) en pratique, perdant leur avantage de parallélisme. Les données d’entraînement séquentielles (texte linéaire, chain-of-thought) poussent les modèles vers des dynamiques AR même quand l’architecture ne l’impose pas.

NAR vs. AR : le bilan comparatif

Critère	Autorégressif (AR)	Non-Autorégressif (NAR / dLLM)
Vitesse de génération	Proportionnelle à la longueur (séquentiel)	Sub-linéaire voire constante (parallèle)
Qualité de texte	Référence (GPT, Claude)	Inférieure, gap qui se réduit progressivement
Cohérence entre tokens	Garantie (chaque token voit les précédents)	Problématique (tokens générés indépendamment ou semi-indépendamment)
Raisonnement complexe	Supérieur (chain-of-thought séquentielle)	Limité (« flexibility trap », perte de raisonnement séquentiel)
Streaming	Natif (token par token)	Impossible ou dégradé (réponse produite en bloc)
Révision / auto-correction	Impossible une fois généré	Possible (débruitage itératif permet la révision)
Utilisation du GPU	Sous-utilise le parallélisme GPU (decode memory-bound)	Meilleure exploitation du calcul parallèle
Écosystème	Mature (frameworks, outils, recettes)	Immature, expérimental
Modèles frontier	GPT-5.4, Claude Opus 4.6, Gemini 3.1	Mercury (Inception AI), LLaDA, Dream

L’avenir : modèles hybrides AR + NAR

La tendance la plus prometteuse n’est pas le remplacement de l’AR par le NAR, mais leur combinaison intelligente :

AR pour le texte, NAR pour l’audio/image. Le projet Text-to-Talk (TtT, 2026) utilise un décodage AR pour le texte et une diffusion NAR pour l’audio dans le même modèle, avec un mécanisme d’attention adapté à chaque modalité. Les résultats surpassent à la fois les baselines AR et NAR pures. Cette approche reconnaît que le texte est intrinsèquement séquentiel (les mots s’enchaînent logiquement) tandis que l’audio a plus de redondance et tolère mieux le parallélisme.

Speculative decoding : le NAR au service de l’AR. Le speculative decoding (Leviathan et al., 2023) est la forme la plus pragmatique de « NAR » : un petit modèle prédit plusieurs tokens en parallèle, le grand modèle AR les vérifie en un passage. La qualité est identique à l’AR pur, avec un speedup de 2-3×. C’est aujourd’hui la technique d’accélération la plus largement déployée en production.

Medusa et têtes multi-tokens. Au lieu d’un modèle brouillon séparé, Medusa ajoute des têtes de prédiction supplémentaires directement au modèle principal. Chaque tête prédit un token futur différent. Les prédictions sont vérifiées en parallèle. C’est une intégration plus serrée du NAR dans l’AR.

Diffusion + AR speculative. DFlash (Chen et al., 2026) combine diffusion par blocs et speculative decoding : les blocs sont débruités en parallèle via diffusion, puis vérifiés par un modèle AR. Le meilleur des deux mondes, en théorie.

Le consensus émergent Après des années de recherche, le consensus de la communauté se cristallise : l’AR restera la base pour le texte de haute qualité, mais des composantes NAR (speculative decoding, têtes multi-tokens, diffusion pour certaines modalités) s’intégreront progressivement. Le remplacement total de l’AR par le NAR est improbable pour le texte, car la nature séquentielle du langage et du raisonnement favorise structurellement l’AR.

Où le NAR est pertinent en 2026

Traduction automatique. C’est le domaine d’origine du NAR (NAT), et celui où il est le plus mature. Les modèles NAR de traduction ont considérablement progressé, avec des techniques comme le Directed Acyclic Transformer (DA-Transformer) et M-DAT qui atteignent des performances compétitives sans distillation de connaissance.

Génération audio. La diffusion NAR excelle pour la synthèse audio, où le signal a une structure plus redondante que le texte. Les codecs neuronaux (EnCodec) combinés avec des dLLM produisent de l’audio de haute qualité en parallèle.

Complétion et édition de texte. Les dLLM peuvent modifier des tokens à des positions arbitraires dans une séquence existante (pas seulement à la fin). C’est un avantage naturel pour l’édition, la correction et le remplissage de texte, des tâches mal servies par le décodage AR gauche-à-droite.

Applications à latence critique. Pour des cas où la latence prime sur la qualité absolue (suggestions en temps réel, sous-titrage live), le NAR offre un compromis attractif. Un modèle NAR qui produit une réponse acceptable en 50 ms peut être préférable à un modèle AR qui produit une réponse parfaite en 500 ms.

Verdict

Le non-autorégressif est le paradigme le plus actif de la recherche en génération de texte en 2026. Les diffusion LLM (LLaDA, Dream, Mercury) ont prouvé que la génération parallèle peut scaler, et les speedups sont impressionnants sur le papier. Mais la réalité est nuancée : la qualité reste en dessous des meilleurs modèles AR, les dLLM convergent souvent vers des dynamiques quasi-AR en pratique, et le raisonnement complexe souffre de la perte de séquentialité.

Le NAR ne remplacera probablement pas l’AR pour la génération de texte de haute qualité. Son avenir le plus probable est l’intégration comme composante d’accélération au sein de systèmes fondamentalement AR (speculative decoding, têtes multi-tokens, diffusion par modalité). C’est une technologie de complément, pas de remplacement.

Questions fréquentes sur la génération non-autoréessive

Les diffusion LLM sont-ils vraiment non-autorégressifs ?

En théorie, oui : ils peuvent modifier tous les tokens simultanément à chaque étape de débruitage. En pratique, les recherches de février 2026 montrent que les dLLM entraînés sur des données textuelles standard convergent souvent vers un décodage quasi-séquentiel (gauche-à-droite), mimant un comportement AR. La structure séquentielle du langage et des données d’entraînement (chain-of-thought, dialogue) pousse les modèles vers des dynamiques AR même quand l’architecture ne l’impose pas. C’est le paradoxe central des dLLM actuelles.

Mercury d’Inception AI est-il prêt pour la production ?

Mercury revendique des speedups de 10× et est l’un des rares dLLM avec une orientation production. Cependant, les benchmarks de qualité publiés restent en dessous des meilleurs modèles AR frontier (GPT-5.4, Claude Opus 4.6). Pour des applications où la vitesse prime sur la qualité maximale et où le streaming n’est pas nécessaire, Mercury peut être un choix viable. Pour les chatbots et assistants nécessitant une qualité frontier, les modèles AR restent le standard.

Le speculative decoding est-il une technique NAR ?

C’est un hybride. Le modèle principal reste pleinement autorégressif (la qualité est identique). Le modèle brouillon génère des prédictions « en avance » (comportement NAR), qui sont vérifiées en parallèle par le modèle AR. Le résultat final est garanti identique à ce que le modèle AR aurait produit seul. C’est le speculative decoding qui est aujourd’hui la technique d’accélération la plus déployée en production, car elle offre un speedup sans aucun compromis de qualité.

Pourquoi le NAR fonctionne-t-il mieux pour les images que pour le texte ?

Les images ont une redondance spatiale élevée : les pixels voisins sont souvent similaires, et la structure globale d’une image peut être déduite même à partir d’une version très bruitée. Le texte est beaucoup moins redondant : un seul mot changé peut inverser le sens d’une phrase (« il n’est pas coupable » vs. « il est coupable »). Cette moindre redondance rend la génération parallèle de tokens textuels intrinsèquement plus difficile que la génération parallèle de pixels.

Le NAR sera-t-il pertinent pour les modèles de raisonnement ?

C’est peu probable à court terme. Les modèles de raisonnement (o1, DeepSeek-R1) dépendent d’une chain-of-thought séquentielle où chaque étape de raisonnement s’appuie sur la précédente. La nature parallèle du NAR entre en conflit direct avec cette dépendance séquentielle. L’article « The Flexibility Trap » (2026) montre que les dLLM peinent avec le raisonnement complexe car elles contournent les points de décision critiques. Le raisonnement restera un bastion de l’autorégressif.