Encoder-Decoder (Transformer)

L’architecture encoder-decoder est la forme originale du Transformer, composée d’un encodeur qui traite l’entrée avec une attention bidirectionnelle et d’un décodeur qui génère la sortie de manière autoréressive. C’est l’architecture de modèles comme T5, BART, Whisper et NLLB-200.

Catégorie: Architecture de réseau de neurones / Variante de Transformer
Aussi appelé: Sequence-to-sequence (seq2seq), Transformer complet, architecture originale
Encodeur: Attention bidirectionnelle (chaque token voit toute la séquence d’entrée)
Décodeur: Attention causale + cross-attention vers les sorties de l’encodeur
Modèles emblématiques: T5, BART, mBART, Whisper, NLLB-200, Pegasus, Switch Transformer
Opposés: Decoder-only (GPT, Claude), Encoder-only (BERT)

L’architecture Transformer originale

Quand Vaswani et al. ont publié « Attention Is All You Need » en 2017, l’architecture qu’ils proposaient était un encoder-decoder. Ce choix était logique : le modèle visait la traduction automatique (anglais vers allemand, anglais vers français), une tâche intrinsèquement séquence-à-séquence où l’entrée et la sortie sont deux séquences distinctes.

L’encodeur lit la phrase source en intégralité et produit une représentation contextuelle riche. Le décodeur génère la phrase cible mot par mot, en s’appuyant à la fois sur les mots déjà générés (via l’auto-attention causale) et sur la représentation de la phrase source (via la cross-attention). Cette séparation permet à l’encodeur de comprendre profondément l’entrée tandis que le décodeur se concentre sur la production fluide de la sortie.

Les trois sous-couches du décodeur

La différence structurelle clé entre un encoder-decoder et un decoder-only est le nombre de sous-couches par bloc. Un bloc decoder-only a 2 sous-couches. Un bloc décodeur dans un encoder-decoder en a 3 :

Sous-couche	Type d’attention	Fonction	Présente dans decoder-only ?
Auto-attention causale	Masquée (ne voit que les tokens précédents)	Le décodeur « se souvient » de ce qu’il a déjà généré	Oui
Cross-attention	Bidirectionnelle vers l’encodeur	Le décodeur « interroge » les sorties de l’encodeur pour chaque token à générer	Non (supprimée)
Réseau feed-forward (FFN)	N/A (transformation pointwise)	Transforme individuellement chaque vecteur de token	Oui

La cross-attention est le mécanisme distinctif de l’encoder-decoder. Dans cette couche, les queries viennent du décodeur (le token en cours de génération), tandis que les keys et values viennent de l’encodeur (la représentation de l’entrée). Cela permet au décodeur de « pointer » vers les parties pertinentes de l’entrée à chaque étape de génération, un mécanisme particulièrement utile pour la traduction (aligner les mots source et cible) et le résumé (identifier les passages importants).

L’encodeur, lui, est composé de blocs à 2 sous-couches : auto-attention bidirectionnelle (chaque token voit toute la séquence, sans masque causal) et FFN. C’est fondamentalement la même architecture que BERT, et c’est pourquoi BART est parfois décrit comme « un encodeur type BERT + un décodeur type GPT ».

Les modèles encoder-decoder majeurs

T5 : Text-to-Text Transfer Transformer (Google, 2020)

T5 est probablement le modèle encoder-decoder le plus influent. Son innovation conceptuelle est de formuler toutes les tâches NLP comme des problèmes texte-à-texte. La classification, la traduction, le résumé, le Q&A : tout est traité comme « prendre un texte en entrée, produire un texte en sortie ». Par exemple, pour la traduction : l’entrée est « translate English to French: The house is wonderful. » et la sortie est « La maison est merveilleuse. »

T5 a été entraîné avec un objectif de span corruption : des segments aléatoires du texte sont masqués et le modèle doit les reconstruire. C’est une généralisation du Masked Language Modeling de BERT appliquée à un contexte séquence-à-séquence. T5 existe en versions allant de 60 millions à 11 milliards de paramètres.

T5 a aussi servi de base au Switch Transformer (Google, 2022), qui a remplacé les couches FFN par des couches MoE, prouvant que l’architecture encoder-decoder est compatible avec la sparsité structurelle.

BART (Meta/Facebook, 2020)

BART (Bidirectional and Auto-Regressive Transformer) combine explicitement un encodeur bidirectionnel (type BERT) et un décodeur autorégressif (type GPT). Son pré-entraînement utilise un objectif de débruitage : le texte d’entrée est corrompu de multiples façons (masquage de tokens, suppression de phrases, permutation, remplacement de tokens) et le décodeur doit reconstruire le texte original.

BART excelle en résumé abstractif, un domaine où la compréhension bidirectionnelle de l’entrée (par l’encodeur) et la génération fluide de la sortie (par le décodeur) sont toutes deux critiques. BART-Large-CNN reste un modèle de référence pour le résumé automatique.

Whisper (OpenAI, 2023)

Whisper est un modèle de reconnaissance vocale (ASR) qui utilise une architecture encoder-decoder. L’encodeur traite le signal audio (spectrogramme mel) et produit une représentation contextuelle du discours. Le décodeur génère la transcription textuelle de manière autoréressive, en cross-attendant les sorties de l’encodeur audio.

Whisper illustre parfaitement l’intérêt de l’encoder-decoder pour les tâches multimodales : l’entrée (audio) et la sortie (texte) sont de natures fondamentalement différentes, rendant la séparation encodeur/décodeur naturelle. Des tokens spéciaux permettent à Whisper de basculer entre transcription, traduction vers l’anglais et détection de timestamps. Le plus grand modèle (whisper-large-v3) a 1,5 milliard de paramètres dont 630 millions dans l’encodeur.

NLLB-200 (Meta, 2022)

NLLB (No Language Left Behind) est un modèle de traduction encoder-decoder couvrant 200 langues. Sa version MoE (3,3 milliards de paramètres) utilise un routage hiérarchique à deux niveaux dans les couches décodeur : d’abord un choix entre un FFN partagé et les experts, puis un routage top-2 parmi les experts sélectionnés. NLLB reste en 2026 l’un des modèles de traduction multilingue les plus utilisés, souvent en pipeline avec Whisper pour la traduction vocale temps réel.

Autres modèles encoder-decoder notables

Modèle	Créateur	Spécialité	Particularité
mBART	Meta	Traduction multilingue	Pré-entraîné sur 25 langues avec débruitage
Pegasus	Google	Résumé abstractif	Pré-entraînement par masquage de phrases entières (gap sentences)
Flan-T5	Google	Multitâche	T5 instruction-tuné sur plus de 1 800 tâches (collection Flan)
UL2	Google	Unification d’objectifs	Combine objectifs de débruitage, causal LM et prefix LM
M2M-100	Meta	Traduction many-to-many	Traduction directe entre 100 langues sans pivot anglais
SeamlessM4T	Meta	Traduction multimodale	Texte + audio, 100 langues, encoder-decoder multimodal

Les objectifs de pré-entraînement

L’encoder-decoder se distingue par la variété de ses objectifs de pré-entraînement, là où le decoder-only utilise quasi exclusivement le Causal Language Modeling :

Span corruption (T5). Des segments contigus de tokens (spans) sont remplacés par un token sentinelle unique. Le modèle doit reconstruire les spans manquants. Plus efficient que le MLM de BERT car il peut masquer des séquences entières, pas seulement des tokens individuels.

Débruitage (BART). Multiples corruptions appliquées à l’entrée : masquage de tokens, suppression de tokens, permutation de phrases, rotation de document, remplacement aléatoire. Le décodeur reconstruit le document original. Cette diversité de corruptions rend BART très robuste.

Prefix Language Modeling. Une partie de la séquence est traitée en attention bidirectionnelle (le « préfixe »), le reste est généré causalement. C’est un compromis entre l’encoder-decoder et le decoder-only, utilisé par certaines variantes de T5 et UL2.

Pourquoi l’objectif d’entraînement compte L’étude RedLLM (2025) montre que le decoder-only avec Causal LM utilise plus efficacement chaque token d’entraînement à grande échelle. Mais l’encoder-decoder avec span corruption ou débruitage apprend des représentations bidirectionnelles plus riches, ce qui avantage les tâches nécessitant une compréhension profonde de l’entrée (traduction, résumé, Q&A). Le choix de l’objectif est au moins aussi important que le choix de l’architecture.

Avantages de l’encoder-decoder

Compréhension bidirectionnelle de l’entrée

L’encodeur traite l’entrée avec une attention bidirectionnelle : chaque token voit tous les autres tokens de la séquence d’entrée. Cette compréhension globale est structurellement supérieure à l’attention causale du decoder-only, où un token ne voit que ses prédécesseurs. Pour les tâches où comprendre l’entrée est aussi important que produire la sortie (traduction, résumé, ASR), c’est un avantage significatif.

Séparation naturelle input/output

L’encoder-decoder traite l’entrée et la sortie avec deux réseaux distincts mais connectés. Cette séparation est naturelle pour les tâches où l’entrée et la sortie diffèrent en nature (audio → texte dans Whisper), en langue (traduction) ou en longueur (résumé). Le decoder-only doit simuler cette séparation en concaténant input et output dans une seule séquence, ce qui est fonctionnel mais moins structurellement élégant.

Efficacité sur l’entrée

L’encodeur ne traite l’entrée qu’une seule fois, quelle que soit la longueur de la sortie. Dans un decoder-only, les tokens d’entrée occupent le début de la séquence et sont retraités (via le KV-cache) à chaque token de sortie généré. Pour les tâches avec une entrée longue et une sortie courte (classification d’un document, extraction d’information), l’encoder-decoder peut être plus efficient.

Performances supérieures après instruction tuning

Des travaux comparatifs montrent que l’encoder-decoder surpasse le decoder-only après instruction tuning (multitask finetuning) quand les deux ont un budget de paramètres comparable. L’étude Flan (Google) a montré que Flan-T5 (encoder-decoder instruction-tuné) surpasse des modèles decoder-only significativement plus grands sur de nombreux benchmarks zero-shot. Le MoE bénéficie d’ailleurs encore plus de l’instruction tuning que les modèles denses, un résultat encourageant pour les architectures encoder-decoder MoE.

Pourquoi l’encoder-decoder a été éclipsé

Malgré ses avantages théoriques, l’encoder-decoder est devenu minoritaire pour les LLM génératifs. Plusieurs facteurs expliquent ce déclin :

Le succès empirique de GPT. La série GPT (decoder-only) a démontré des capacités zero-shot et few-shot spectaculaires grâce au scaling. Ce succès a orienté la recherche et les investissements vers le decoder-only, créant un effet de réseau (plus de modèles, plus d’outils, plus de données d’évaluation).

La simplicité du decoder-only. Un seul type de bloc, un seul objectif d’entraînement (CLM), pas de cross-attention : le decoder-only est plus simple à implémenter, débugger et optimiser. À l’échelle des modèles frontier, cette simplicité n’est pas un luxe mais une nécessité.

L’unification entrée/sortie. Le decoder-only traite tout comme une séquence unique, ce qui le rend naturellement flexible pour les dialogues multi-tours, le code, le raisonnement en chaîne de pensée. L’encoder-decoder, avec sa séparation rigide entrée/sortie, est moins naturel pour les interactions conversationnelles.

Le scaling favorise le decoder-only. L’étude RedLLM (2025) confirme que le decoder-only tire mieux parti des budgets de calcul croissants. Pour les labos investissant des dizaines de millions de dollars en entraînement, c’est un argument décisif.

Où l’encoder-decoder reste pertinent en 2026

L’encoder-decoder n’est pas mort. Il domine dans plusieurs niches bien définies :

Traduction automatique. NLLB-200 (Meta) couvre 200 langues et reste le modèle de traduction le plus utilisé en production. La structure encoder-decoder est naturelle pour la traduction : l’encodeur comprend la phrase source, la cross-attention aligne source et cible, le décodeur produit la traduction. Les pipelines Whisper + NLLB pour la traduction vocale temps réel sont devenus un standard.

Reconnaissance vocale (ASR). Whisper d’OpenAI utilise un encoder-decoder pour transcrire l’audio en texte. L’encodeur traite le spectrogramme audio, le décodeur génère le texte. Cette architecture est tellement efficace que Whisper a été adapté avec succès pour des applications aussi exotiques que le décodage de signaux neuronaux en texte (projet BrainWhisperer, ICLR 2026).

Résumé abstractif. BART et Pegasus dominent toujours le résumé automatique. La compréhension bidirectionnelle du document source par l’encodeur, combinée à la génération fluide par le décodeur, produit des résumés de meilleure qualité que les approches decoder-only à taille comparable.

Modèles spécialisés et légers. Pour les applications embedded ou les pipelines spécialisés (traduction en temps réel, sous-titrage, speech-to-text), les encoder-decoders de taille modeste (quelques centaines de millions à quelques milliards de paramètres) restent plus performants et plus efficients que les LLM decoder-only généralistes.

Utiliser un encoder-decoder en pratique

Frameworks et outils

Les encoder-decoders sont parfaitement supportés par l’écosystème open-source. Hugging Face Transformers fournit des implémentations prêtes à l’emploi pour T5, BART, mBART, Whisper, Pegasus et NLLB. CTranslate2 (OpenNMT) offre une inférence optimisée pour les modèles encoder-decoder avec support du batching, de la quantification et de l’accélération GPU et CPU.

Le framework Hugging Face permet aussi de créer des modèles encoder-decoder hybrides en combinant n’importe quel encodeur avec n’importe quel décodeur. Vous pouvez par exemple utiliser un encodeur BERT avec un décodeur GPT-2, en ajoutant automatiquement la couche de cross-attention nécessaire. C’est un outil puissant pour le transfer learning cross-architectural.

Fine-tuning d’un encoder-decoder

Le fine-tuning d’un encoder-decoder est simple : il suffit de fournir des paires (input_ids, labels), où input_ids est la séquence d’entrée tokenisée et labels est la séquence cible tokenisée. Le modèle calcule automatiquement la perte de cross-entropy entre les prédictions du décodeur et les labels.

Les hyperparamètres clés à ajuster sont le learning rate (typiquement 1e-4 à 5e-5 pour T5/BART), le nombre d’époques (3-10 pour le fine-tuning), et la longueur maximale des séquences source et cible. Les techniques de parameter-efficient fine-tuning (LoRA, QLoRA) s’appliquent aussi aux encoder-decoders.

Astuce : Flan-T5 comme point de départ Si vous démarrez un projet nécessitant un encoder-decoder, commencez par Flan-T5 plutôt que T5 brut. Flan-T5 est instruction-tuné sur plus de 1 800 tâches, ce qui lui donne une bien meilleure base de départ pour le fine-tuning sur votre tâche spécifique. La version Flan-T5-XL (3B paramètres) offre un excellent compromis qualité/coût.

Pipelines de production courants

En production, les encoder-decoders sont souvent utilisés dans des pipelines composites plutôt qu’en standalone. Voici les combinaisons les plus courantes :

Whisper + NLLB : transcription audio puis traduction du texte. C’est le pipeline de référence pour la traduction vocale temps réel, utilisé par des applications de sous-titrage en direct. Whisper transcrit l’audio en texte (avec possibilité de traduction vers l’anglais), puis NLLB traduit vers la langue cible parmi 200 options.

BART/Pegasus + post-processing : résumé automatique de documents longs. Le document est découpé en chunks compatibles avec la fenêtre de contexte du modèle, chaque chunk est résumé indépendamment, puis les résumés sont fusionnés (éventuellement avec un second passage de résumé).

NLLB + LLM decoder-only : traduction haute qualité suivie de reformulation par un LLM. NLLB assure la traduction brute (précise mais parfois rigide), le LLM decoder-only retravaille le style et la fluidité. Ce pipeline combine le meilleur des deux architectures.

Les trois architectures Transformer comparées

Critère	Encoder-only (BERT)	Encoder-decoder (T5, BART)	Decoder-only (GPT)
Attention	Bidirectionnelle	Bidirectionnelle (encodeur) + causale (décodeur)	Causale uniquement
Objectif typique	MLM	Span corruption / débruitage	CLM
Force principale	Compréhension, embeddings, classification	Traduction, résumé, tâches seq-to-seq	Génération, dialogue, raisonnement
Taille typique 2026	100M – 1B	100M – 11B (sauf Switch Transformer)	1B – 675B+
Scaling	Limité au-delà de 1B	Bon, mais surpassé par decoder-only à grande échelle	Dominant
Adoption 2026	Niches (embeddings, classification)	Niches (traduction, ASR, résumé)	Architecture par défaut

Verdict

L’encoder-decoder est l’architecture Transformer originale, et elle reste la meilleure pour les tâches de transformation séquence-à-séquence où l’entrée et la sortie sont structurellement distinctes : traduction, ASR, résumé. Sa compréhension bidirectionnelle de l’entrée et sa cross-attention sont des avantages structurels que le decoder-only ne peut que simuler.

Cependant, pour les LLM généralistes (chatbots, assistants, raisonnement, code), le decoder-only a gagné la bataille du scaling. Le decoder-only est devenu le « couteau suisse » du NLP : moins optimal que l’encoder-decoder sur les tâches seq-to-seq spécifiques, mais suffisamment bon et infiniment plus simple à scaler. Les encoder-decoders continueront de prospérer dans leurs niches (Whisper pour l’ASR, NLLB pour la traduction), mais le mouvement de fond vers le decoder-only comme architecture par défaut est irréversible.

Questions fréquentes sur l’architecture encoder-decoder

Quelle est la différence entre encoder-decoder et seq2seq ?

Les termes sont souvent utilisés de manière interchangeable, mais il y a une nuance. « Seq2seq » (sequence-to-sequence) désigne tout modèle qui transforme une séquence en une autre séquence. L’encoder-decoder est une architecture spécifique pour réaliser le seq2seq. Avant les Transformers, les modèles seq2seq utilisaient des RNN/LSTM. Le Transformer encoder-decoder est la forme moderne du seq2seq, mais d’autres architectures (comme un decoder-only avec prompt) peuvent aussi réaliser des tâches seq2seq.

T5 ou BART : lequel choisir pour du résumé ?

Les deux excellent en résumé, mais avec des profils différents. BART reste plus proche de l’architecture Transformer originale et utilise un pré-entraînement par débruitage plus varié (5 types de corruption). T5 utilise un objectif de span corruption plus uniforme et formule tout en text-to-text. En pratique, BART-Large-CNN est souvent le choix par défaut pour le résumé « out of the box ». T5 (surtout dans sa variante Flan-T5) est plus polyvalent si vous avez besoin de multitâche. Pour des besoins spécifiques, Pegasus (pré-entraîné spécifiquement pour le résumé) peut surpasser les deux.

Whisper est-il un LLM ?

Whisper utilise une architecture Transformer encoder-decoder, ce qui le rapproche structurellement des LLM. Mais il est spécialisé dans le traitement audio-vers-texte (ASR), pas dans la génération de langage généraliste. Son encodeur traite des spectrogrammes audio (pas du texte), et son décodeur est limité à la transcription/traduction. On le qualifie plus justement de « modèle fondationnel audio » que de LLM au sens strict. Cela dit, les techniques d’optimisation des LLM (Flash Attention, quantification, KV-cache) s’appliquent parfaitement à Whisper.

Peut-on utiliser un LLM decoder-only à la place d’un encoder-decoder pour la traduction ?

Oui, et les grands LLM decoder-only (GPT-5, Claude, LLaMA) sont capables de traduire via le prompting. Cependant, les tests montrent que les pipelines spécialisés (comme Whisper + NLLB) restent supérieurs pour la traduction à grande échelle, surtout pour les langues à faibles ressources. L’encoder-decoder spécialisé offre un meilleur rapport qualité/coût pour cette tâche spécifique, car il est beaucoup plus petit (1-3B paramètres) tout en étant très performant.

L’encoder-decoder pourrait-il faire un retour pour les LLM ?

C’est possible mais peu probable à court terme. L’étude RedLLM (2025) montre que l’écart entre encoder-decoder et decoder-only se réduit avec l’augmentation du budget de calcul, sans disparaître. Le momentum industriel (outils, frameworks, recettes d’entraînement) est massivement en faveur du decoder-only. Un scénario plus probable serait l’adoption de modèles hybrides (comme le Prefix LM, qui combine attention bidirectionnelle sur l’entrée et attention causale sur la sortie dans un seul réseau) plutôt qu’un retour au Transformer encoder-decoder classique.