Transformer (Architecture)
Le Transformer est probablement l’innovation technique la plus importante de la dernière décennie en IA. Avant son introduction, les modèles de traitement du langage s’appuyaient sur des réseaux récurrents (RNN, LSTM) qui traitaient les séquences mot par mot, de gauche à droite. Cette approche séquentielle limitait à la fois la vitesse d’entraînement et la capacité à capturer les dépendances à longue distance dans le texte.
Le Transformer a résolu ces deux problèmes d’un coup : grâce au mécanisme d’attention, chaque mot peut « regarder » tous les autres mots de la séquence simultanément, et le traitement parallèle permet d’exploiter pleinement la puissance des GPU modernes. C’est cette architecture qui a rendu possible l’entraînement de modèles à des centaines de milliards de paramètres.
L’architecture du Transformer
Le Transformer original se compose de deux blocs principaux : l’encodeur (encoder) et le décodeur (decoder). Chacun est constitué de couches empilées qui transforment progressivement la représentation des données.
L’encodeur
L’encodeur traite la séquence d’entrée et produit une représentation contextuelle de chaque token. Il est composé de N couches identiques (6 dans le papier original, des dizaines dans les modèles modernes). Chaque couche contient deux sous-composants :
| Composant | Rôle | Mécanisme |
|---|---|---|
| Multi-Head Self-Attention | Permet à chaque token de pondérer l’importance de tous les autres tokens | Calcule des scores d’attention via Query, Key, Value pour chaque « tête » |
| Feed-Forward Network | Transforme individuellement la représentation de chaque token | Deux couches linéaires avec activation (ReLU ou GELU) |
Chaque sous-composant est suivi d’une connexion résiduelle (residual connection) et d’une normalisation de couche (layer normalization), qui stabilisent l’entraînement et permettent aux gradients de circuler efficacement dans les réseaux profonds.
Le décodeur
Le décodeur génère la séquence de sortie token par token. Il ajoute un troisième sous-composant par rapport à l’encodeur :
| Composant | Rôle | Spécificité |
|---|---|---|
| Masked Self-Attention | Attention sur les tokens précédents uniquement | Un masque empêche de « voir » les tokens futurs (causal) |
| Cross-Attention | Attention sur la sortie de l’encodeur | Permet au décodeur de « consulter » l’entrée encodée |
| Feed-Forward Network | Transformation individuelle de chaque token | Identique à l’encodeur |
Le mécanisme d’attention en détail
Le mécanisme d’attention est le cœur du Transformer. Il repose sur trois matrices : Query (Q), Key (K) et Value (V), calculées à partir de l’embedding de chaque token via des transformations linéaires apprises.
Le processus fonctionne comme un système de recherche d’information : la Query représente « ce que je cherche », la Key représente « ce que j’offre comme clé de recherche », et la Value représente « l’information que je transmets si je suis sélectionné ». Le score d’attention entre deux tokens est le produit scalaire entre la Query de l’un et la Key de l’autre, normalisé par la racine carrée de la dimension.
L’attention multi-tête (Multi-Head Attention)
Plutôt qu’un seul mécanisme d’attention, le Transformer utilise plusieurs « têtes » d’attention en parallèle. Chaque tête apprend à capturer un type de relation différent : certaines têtes se spécialisent dans les relations syntaxiques (sujet-verbe), d’autres dans les relations sémantiques (synonymes, antonymes), d’autres encore dans les dépendances à longue distance.
Dans le Transformer original, 8 têtes d’attention sont utilisées en parallèle. Les modèles modernes en utilisent des dizaines voire des centaines. Les sorties de toutes les têtes sont concaténées puis projetées linéairement pour produire la sortie finale de la couche d’attention.
L’encodage positionnel
Le mécanisme d’attention est intrinsèquement agnostique à l’ordre des tokens — il traite une séquence comme un ensemble non ordonné. Le positional encoding résout ce problème en ajoutant une information de position à l’embedding de chaque token.
Le papier original utilise des fonctions sinusoïdales à différentes fréquences. Les modèles modernes utilisent des encodages positionnels rotatifs (RoPE) qui gèrent mieux les séquences longues et permettent l’extrapolation au-delà de la longueur d’entraînement.
Les variantes du Transformer
| Variante | Architecture | Modèles | Usage |
|---|---|---|---|
| Encoder-only | Uniquement l’encodeur. Attention bidirectionnelle. | BERT, RoBERTa | Classification, NER, analyse de sentiment |
| Decoder-only | Uniquement le décodeur. Attention causale (gauche à droite). | GPT, Claude, Llama | Génération de texte, chatbots, code |
| Encoder-Decoder | Les deux blocs complets. Attention croisée. | T5, BART, mBART | Traduction, résumé, seq2seq |
| Vision Transformer | Transformer adapté aux images (patches comme tokens) | ViT, DeiT, CLIP | Vision par ordinateur |
En 2026, l’architecture decoder-only domine largement pour les LLM. GPT-5, Claude, Gemini et Llama sont tous des modèles decoder-only. Cette architecture est la plus efficace pour la génération de texte autorégressif — la tâche fondamentale des LLM.
Les innovations récentes sur l’architecture Transformer
Mixture of Experts (MoE)
L’architecture MoE divise le réseau en « experts » spécialisés. Un routeur apprend à diriger chaque token vers les 1-2 experts les plus pertinents parmi des dizaines ou centaines disponibles. Résultat : un modèle avec un très grand nombre de paramètres total mais qui n’active qu’une fraction à chaque inférence. Mistral et probablement GPT-4/GPT-5 utilisent cette approche.
Attention optimisée
L’attention standard a une complexité quadratique (O(n²)) par rapport à la longueur de la séquence, ce qui limite les fenêtres de contexte. Plusieurs innovations réduisent ce coût : Flash Attention (optimisation mémoire GPU), Grouped Query Attention (partage de Keys/Values entre les têtes), Ring Attention (distribution sur plusieurs GPU pour le contexte long).
State Space Models (SSM)
Les SSM (Mamba, Jamba) sont des alternatives à l’attention qui traitent les séquences avec une complexité linéaire O(n) plutôt que quadratique. Ils sont plus efficaces sur les très longues séquences. En 2026, les architectures hybrides combinant Transformer et SSM émergent comme une direction prometteuse.
Le Transformer au-delà du texte
L’architecture Transformer s’est révélée universelle — bien au-delà de son domaine initial du NLP.
| Domaine | Adaptation | Applications |
|---|---|---|
| Vision | Les images sont découpées en patches traités comme des tokens | Classification, détection, segmentation (ViT, DINO) |
| Audio | Les spectrogrammes sont traités comme des séquences | Reconnaissance vocale (Whisper), musique |
| Vidéo | Les frames sont des séquences de patches spatio-temporels | Génération vidéo (Sora), analyse vidéo |
| Protéines | Les acides aminés sont traités comme des tokens | Prédiction de structure (AlphaFold, ESMFold) |
| Molécules | Les atomes et liaisons sont encodés comme séquences | Découverte de médicaments |
| Multimodal | Texte, images, audio tokenisés dans un espace commun | GPT-5, Gemini, modèles vision-langage |
L’impact du Transformer sur l’IA
Il n’est pas exagéré de dire que le Transformer est l’innovation la plus transformative en IA depuis les réseaux de neurones eux-mêmes. Avant 2017, le NLP était fragmenté en tâches spécialisées avec des architectures dédiées. Le Transformer a unifié le domaine autour d’une seule architecture capable de tout faire — et cette unification s’étend maintenant à la vision, l’audio et la biologie computationnelle.
Les lois d’échelle (scaling laws) ont montré que les performances des Transformers s’améliorent de manière prévisible avec l’augmentation des données, des paramètres et du calcul. Cette prévisibilité a justifié les investissements massifs dans l’entraînement de modèles toujours plus grands, donnant naissance à la course actuelle aux LLM.
Questions fréquentes sur le Transformer
Pourquoi le Transformer a-t-il remplacé les RNN ?
Deux raisons principales : la parallélisation (les RNN traitent les tokens séquentiellement, les Transformers en parallèle, ce qui accélère drastiquement l’entraînement sur GPU) et la gestion des dépendances longues (le mécanisme d’attention connecte directement tous les tokens, quelle que soit leur distance, alors que les RNN perdent l’information sur les longues séquences).
Qu’est-ce que le mécanisme d’attention en termes simples ?
Imaginez que vous lisez une phrase et que pour comprendre un mot, vous avez besoin de « regarder » d’autres mots. L’attention permet au modèle de pondérer l’importance de chaque mot par rapport à chaque autre mot. Par exemple, dans « Le chat qui dormait sur le canapé s’est réveillé », le modèle doit comprendre que « s’est réveillé » se rapporte au « chat » et non au « canapé » — c’est le mécanisme d’attention qui établit cette connexion.
Quelle est la différence entre BERT et GPT ?
BERT utilise l’encodeur du Transformer avec une attention bidirectionnelle (chaque mot voit tous les autres). GPT utilise le décodeur avec une attention causale (chaque mot ne voit que les précédents). BERT excelle en compréhension de texte (classification, extraction). GPT excelle en génération de texte. En 2026, les modèles decoder-only (GPT, Claude) dominent car ils sont plus polyvalents.
Le Transformer sera-t-il remplacé par une autre architecture ?
Des alternatives émergent, notamment les State Space Models (Mamba) qui offrent une complexité linéaire plutôt que quadratique. Cependant, les architectures hybrides (Transformer + SSM) semblent plus probables qu’un remplacement complet. Le Transformer a prouvé sa robustesse et son universalité — il est plus probable qu’il soit augmenté que remplacé.
Combien de couches a un Transformer moderne ?
Le Transformer original en avait 6. BERT-Large en a 24. Les LLM modernes comme GPT-5 et Claude en comptent probablement des dizaines voire une centaine, avec des milliers de neurones par couche et des dizaines de têtes d’attention. L’échelle exacte de ces modèles n’est pas toujours publiée par leurs créateurs.