Transformer (Architecture)

Définition rapide Le Transformer est une architecture de réseau de neurones introduite en 2017 par Google dans le papier « Attention Is All You Need ». Sa caractéristique principale est le mécanisme d’attention (self-attention) qui permet de traiter des séquences en parallèle plutôt que séquentiellement. C’est l’architecture fondatrice des LLM modernes (GPT, Claude, Gemini) et de la majorité des avancées en intelligence artificielle depuis 2017.

Le Transformer est probablement l’innovation technique la plus importante de la dernière décennie en IA. Avant son introduction, les modèles de traitement du langage s’appuyaient sur des réseaux récurrents (RNN, LSTM) qui traitaient les séquences mot par mot, de gauche à droite. Cette approche séquentielle limitait à la fois la vitesse d’entraînement et la capacité à capturer les dépendances à longue distance dans le texte.

Le Transformer a résolu ces deux problèmes d’un coup : grâce au mécanisme d’attention, chaque mot peut « regarder » tous les autres mots de la séquence simultanément, et le traitement parallèle permet d’exploiter pleinement la puissance des GPU modernes. C’est cette architecture qui a rendu possible l’entraînement de modèles à des centaines de milliards de paramètres.

L’architecture du Transformer

Le Transformer original se compose de deux blocs principaux : l’encodeur (encoder) et le décodeur (decoder). Chacun est constitué de couches empilées qui transforment progressivement la représentation des données.

L’encodeur

L’encodeur traite la séquence d’entrée et produit une représentation contextuelle de chaque token. Il est composé de N couches identiques (6 dans le papier original, des dizaines dans les modèles modernes). Chaque couche contient deux sous-composants :

Composant	Rôle	Mécanisme
Multi-Head Self-Attention	Permet à chaque token de pondérer l’importance de tous les autres tokens	Calcule des scores d’attention via Query, Key, Value pour chaque « tête »
Feed-Forward Network	Transforme individuellement la représentation de chaque token	Deux couches linéaires avec activation (ReLU ou GELU)

Chaque sous-composant est suivi d’une connexion résiduelle (residual connection) et d’une normalisation de couche (layer normalization), qui stabilisent l’entraînement et permettent aux gradients de circuler efficacement dans les réseaux profonds.

Le décodeur

Le décodeur génère la séquence de sortie token par token. Il ajoute un troisième sous-composant par rapport à l’encodeur :

Composant	Rôle	Spécificité
Masked Self-Attention	Attention sur les tokens précédents uniquement	Un masque empêche de « voir » les tokens futurs (causal)
Cross-Attention	Attention sur la sortie de l’encodeur	Permet au décodeur de « consulter » l’entrée encodée
Feed-Forward Network	Transformation individuelle de chaque token	Identique à l’encodeur

Le mécanisme d’attention en détail

Le mécanisme d’attention est le cœur du Transformer. Il repose sur trois matrices : Query (Q), Key (K) et Value (V), calculées à partir de l’embedding de chaque token via des transformations linéaires apprises.

Le processus fonctionne comme un système de recherche d’information : la Query représente « ce que je cherche », la Key représente « ce que j’offre comme clé de recherche », et la Value représente « l’information que je transmets si je suis sélectionné ». Le score d’attention entre deux tokens est le produit scalaire entre la Query de l’un et la Key de l’autre, normalisé par la racine carrée de la dimension.

L’attention multi-tête (Multi-Head Attention)

Plutôt qu’un seul mécanisme d’attention, le Transformer utilise plusieurs « têtes » d’attention en parallèle. Chaque tête apprend à capturer un type de relation différent : certaines têtes se spécialisent dans les relations syntaxiques (sujet-verbe), d’autres dans les relations sémantiques (synonymes, antonymes), d’autres encore dans les dépendances à longue distance.

Dans le Transformer original, 8 têtes d’attention sont utilisées en parallèle. Les modèles modernes en utilisent des dizaines voire des centaines. Les sorties de toutes les têtes sont concaténées puis projetées linéairement pour produire la sortie finale de la couche d’attention.

L’encodage positionnel

Le mécanisme d’attention est intrinsèquement agnostique à l’ordre des tokens — il traite une séquence comme un ensemble non ordonné. Le positional encoding résout ce problème en ajoutant une information de position à l’embedding de chaque token.

Le papier original utilise des fonctions sinusoïdales à différentes fréquences. Les modèles modernes utilisent des encodages positionnels rotatifs (RoPE) qui gèrent mieux les séquences longues et permettent l’extrapolation au-delà de la longueur d’entraînement.

Les variantes du Transformer

Variante	Architecture	Modèles	Usage
Encoder-only	Uniquement l’encodeur. Attention bidirectionnelle.	BERT, RoBERTa	Classification, NER, analyse de sentiment
Decoder-only	Uniquement le décodeur. Attention causale (gauche à droite).	GPT, Claude, Llama	Génération de texte, chatbots, code
Encoder-Decoder	Les deux blocs complets. Attention croisée.	T5, BART, mBART	Traduction, résumé, seq2seq
Vision Transformer	Transformer adapté aux images (patches comme tokens)	ViT, DeiT, CLIP	Vision par ordinateur

En 2026, l’architecture decoder-only domine largement pour les LLM. GPT-5, Claude, Gemini et Llama sont tous des modèles decoder-only. Cette architecture est la plus efficace pour la génération de texte autorégressif — la tâche fondamentale des LLM.

Analyst Tip Si vous débutez dans la compréhension des Transformers, concentrez-vous sur la variante decoder-only : c’est celle qui alimente tous les chatbots et LLM que vous utilisez. L’encoder-only (BERT) reste pertinent pour les tâches de classification et d’extraction, mais le decoder-only est le standard de l’IA générative.

Les innovations récentes sur l’architecture Transformer

Mixture of Experts (MoE)

L’architecture MoE divise le réseau en « experts » spécialisés. Un routeur apprend à diriger chaque token vers les 1-2 experts les plus pertinents parmi des dizaines ou centaines disponibles. Résultat : un modèle avec un très grand nombre de paramètres total mais qui n’active qu’une fraction à chaque inférence. Mistral et probablement GPT-4/GPT-5 utilisent cette approche.

Attention optimisée

L’attention standard a une complexité quadratique (O(n²)) par rapport à la longueur de la séquence, ce qui limite les fenêtres de contexte. Plusieurs innovations réduisent ce coût : Flash Attention (optimisation mémoire GPU), Grouped Query Attention (partage de Keys/Values entre les têtes), Ring Attention (distribution sur plusieurs GPU pour le contexte long).

State Space Models (SSM)

Les SSM (Mamba, Jamba) sont des alternatives à l’attention qui traitent les séquences avec une complexité linéaire O(n) plutôt que quadratique. Ils sont plus efficaces sur les très longues séquences. En 2026, les architectures hybrides combinant Transformer et SSM émergent comme une direction prometteuse.

Le Transformer au-delà du texte

L’architecture Transformer s’est révélée universelle — bien au-delà de son domaine initial du NLP.

Domaine	Adaptation	Applications
Vision	Les images sont découpées en patches traités comme des tokens	Classification, détection, segmentation (ViT, DINO)
Audio	Les spectrogrammes sont traités comme des séquences	Reconnaissance vocale (Whisper), musique
Vidéo	Les frames sont des séquences de patches spatio-temporels	Génération vidéo (Sora), analyse vidéo
Protéines	Les acides aminés sont traités comme des tokens	Prédiction de structure (AlphaFold, ESMFold)
Molécules	Les atomes et liaisons sont encodés comme séquences	Découverte de médicaments
Multimodal	Texte, images, audio tokenisés dans un espace commun	GPT-5, Gemini, modèles vision-langage

L’impact du Transformer sur l’IA

Il n’est pas exagéré de dire que le Transformer est l’innovation la plus transformative en IA depuis les réseaux de neurones eux-mêmes. Avant 2017, le NLP était fragmenté en tâches spécialisées avec des architectures dédiées. Le Transformer a unifié le domaine autour d’une seule architecture capable de tout faire — et cette unification s’étend maintenant à la vision, l’audio et la biologie computationnelle.

Les lois d’échelle (scaling laws) ont montré que les performances des Transformers s’améliorent de manière prévisible avec l’augmentation des données, des paramètres et du calcul. Cette prévisibilité a justifié les investissements massifs dans l’entraînement de modèles toujours plus grands, donnant naissance à la course actuelle aux LLM.

Point de vigilance Le Transformer n’est pas parfait. Sa complexité quadratique en attention limite les séquences très longues. Son coût d’entraînement est astronomique. Et il n’est pas nécessairement optimal pour tous les types de données (les CNN restent compétitifs pour certaines tâches de vision embarquée). Les alternatives hybrides (Transformer + SSM) sont une direction active de recherche.

Points clés à retenir Le Transformer est l’architecture fondatrice de l’IA moderne, introduite en 2017. Son mécanisme d’attention permet le traitement parallèle et la capture de dépendances à longue distance. Les variantes decoder-only (GPT, Claude) dominent les LLM. Les innovations récentes (MoE, Flash Attention, SSM) étendent ses capacités. Le Transformer s’applique désormais au texte, aux images, à l’audio, à la vidéo et aux protéines.

Questions fréquentes sur le Transformer

Pourquoi le Transformer a-t-il remplacé les RNN ?

Deux raisons principales : la parallélisation (les RNN traitent les tokens séquentiellement, les Transformers en parallèle, ce qui accélère drastiquement l’entraînement sur GPU) et la gestion des dépendances longues (le mécanisme d’attention connecte directement tous les tokens, quelle que soit leur distance, alors que les RNN perdent l’information sur les longues séquences).

Qu’est-ce que le mécanisme d’attention en termes simples ?

Imaginez que vous lisez une phrase et que pour comprendre un mot, vous avez besoin de « regarder » d’autres mots. L’attention permet au modèle de pondérer l’importance de chaque mot par rapport à chaque autre mot. Par exemple, dans « Le chat qui dormait sur le canapé s’est réveillé », le modèle doit comprendre que « s’est réveillé » se rapporte au « chat » et non au « canapé » — c’est le mécanisme d’attention qui établit cette connexion.

Quelle est la différence entre BERT et GPT ?

BERT utilise l’encodeur du Transformer avec une attention bidirectionnelle (chaque mot voit tous les autres). GPT utilise le décodeur avec une attention causale (chaque mot ne voit que les précédents). BERT excelle en compréhension de texte (classification, extraction). GPT excelle en génération de texte. En 2026, les modèles decoder-only (GPT, Claude) dominent car ils sont plus polyvalents.

Le Transformer sera-t-il remplacé par une autre architecture ?

Des alternatives émergent, notamment les State Space Models (Mamba) qui offrent une complexité linéaire plutôt que quadratique. Cependant, les architectures hybrides (Transformer + SSM) semblent plus probables qu’un remplacement complet. Le Transformer a prouvé sa robustesse et son universalité — il est plus probable qu’il soit augmenté que remplacé.

Combien de couches a un Transformer moderne ?

Le Transformer original en avait 6. BERT-Large en a 24. Les LLM modernes comme GPT-5 et Claude en comptent probablement des dizaines voire une centaine, avec des milliers de neurones par couche et des dizaines de têtes d’attention. L’échelle exacte de ces modèles n’est pas toujours publiée par leurs créateurs.