Model Architecture (Architecture du Modèle)

L’architecture d’un modèle d’IA (model architecture) désigne la structure interne du réseau de neurones : le nombre et le type de couches, les connexions entre elles, les mécanismes d’attention, la façon dont les données circulent de l’entrée à la sortie. C’est le « plan de construction » du modèle, distinct des poids (les valeurs apprises) et des données d’entraînement.

Définition: Structure organisationnelle d’un réseau de neurones (couches, connexions, mécanismes)
Architecture dominante en IA générative: Transformer (depuis 2017)
Variantes principales (2026): Dense, Mixture-of-Experts (MoE), hybride MoE-dense, hybride Transformer-SSM
Définie par: Les chercheurs et ingénieurs avant l’entraînement
Distincte de: Poids (appris pendant l’entraînement), hyperparamètres (réglés avant), données d’entraînement
Impact sur: Performance, coût d’entraînement, vitesse d’inférence, consommation mémoire

Pourquoi l’architecture compte

L’architecture est le premier choix fondamental dans la construction d’un modèle d’IA. Avant de collecter des données ou de lancer l’entraînement, il faut décider comment le réseau de neurones sera organisé. Ce choix détermine :

La capacité du modèle : combien de patterns il peut apprendre et retenir
L’efficacité d’entraînement : combien de FLOPs sont nécessaires pour atteindre un niveau de performance donné
La vitesse d’inférence : combien de tokens par seconde le modèle peut générer
La consommation mémoire : combien de GPU et de RAM sont nécessaires pour exécuter le modèle
Les modalités supportées : texte seul, texte + images, texte + images + audio + vidéo

Deux modèles avec le même nombre de paramètres mais des architectures différentes peuvent avoir des performances radicalement différentes. L’architecture est souvent plus déterminante que la taille brute du modèle.

Le Transformer : l’architecture fondatrice

Depuis le papier « Attention Is All You Need » (Vaswani et al., 2017), le Transformer est l’architecture dominante pour les LLM et la plupart des modèles d’IA générative. Sa force : le mécanisme d’self-attention, qui permet à chaque token de « regarder » tous les autres tokens de la séquence, capturant les dépendances longue distance de façon massivement parallèle.

Un Transformer standard se compose de blocs empilés, chacun contenant :

Un module d’attention multi-têtes (multi-head attention), qui calcule les relations entre tokens
Un réseau feed-forward (FFN), qui transforme la représentation de chaque token
Des connexions résiduelles et des couches de normalisation

Les LLM modernes utilisent le Transformer en mode « decoder-only » : le modèle ne voit que les tokens précédents et prédit le suivant, token par token. C’est le cas de GPT, Claude, Llama, Mistral et Gemma.

Dense vs Mixture-of-Experts : le grand choix de 2025-2026

La distinction architecturale la plus importante aujourd’hui oppose les modèles « denses » aux modèles « Mixture-of-Experts » (MoE). La quasi-totalité des modèles frontier de 2025-2026 sont MoE.

Architecture dense

Dans un modèle dense, chaque paramètre est activé pour chaque token traité. Tous les neurones participent à chaque prédiction. C’est l’approche classique, utilisée par les premières versions de GPT, Llama 3.3, et les petits modèles Gemma.

Avantages : simple à implémenter, à fine-tuner et à optimiser. Tous les paramètres contribuent à chaque prédiction, ce qui maximise l’utilisation de la capacité du modèle.

Inconvénient majeur : le coût d’inférence est proportionnel au nombre total de paramètres. Un modèle dense de 400B de paramètres coûte 400B de paramètres de calcul pour chaque token. À grande échelle, cela devient prohibitif.

Architecture MoE (Mixture-of-Experts)

Un modèle MoE remplace le réseau feed-forward (FFN) de chaque bloc Transformer par un ensemble de « experts » (chacun étant un petit FFN spécialisé) et un « routeur » (gating network) qui décide quels experts activer pour chaque token.

Le principe : pour chaque token, seuls 1 à 4 experts (sur 8, 16 ou 128 au total) sont activés. Les autres restent dormants. Cela découple la capacité du modèle (paramètres totaux) du coût de calcul (paramètres actifs).

Modèle	Type	Paramètres totaux	Paramètres actifs	Experts	Actifs/token
Mistral Large 3	MoE	675B	41B	128	~4
DeepSeek V3.2	MoE	685B	37B	256	9
Llama 4 Maverick	MoE	400B	17B	128	2
Llama 4 Scout	MoE	109B	17B	16	2
gpt-oss-120b	MoE	117B	5,1B	128	4
GLM-5	MoE	744B	40B	N/A	N/A
Qwen 3.5	MoE	397B	17B	N/A	N/A
Llama 3.3 70B	Dense	70B	70B	N/A	N/A
Gemma 3 27B	Dense	27B	27B	N/A	N/A

L’avantage est considérable : Mistral Large 3 possède la capacité d’un modèle de 675B paramètres, mais le coût d’inférence d’un modèle dense de ~41B. C’est ce qui permet de l’exécuter sur un seul nœud de 8 GPU H100, alors qu’un modèle dense de 675B serait impraticable.

Le bascule vers MoE est massive En 2025-2026, la quasi-totalité des modèles frontier ont adopté l’architecture MoE : DeepSeek V3.2, Mistral Large 3, Llama 4, gpt-oss, GLM-5, Qwen 3.5. La réduction de coût de calcul est estimée à environ 70 % par rapport à un modèle dense de capacité comparable. C’est un changement structurel, pas une mode.

Les défis de l’architecture MoE

Mémoire. Même si seuls quelques experts sont activés par token, tous les poids doivent être chargés en mémoire (ou paginés depuis le stockage). Un modèle MoE de 675B nécessite autant de RAM/VRAM qu’un modèle dense de 675B, même si son coût de calcul est bien inférieur.

Load balancing. Le routeur peut développer un biais vers certains experts, en envoyant la majorité des tokens à un petit nombre d’experts « favoris ». Cela sous-utilise les autres experts et dégrade les performances. Des techniques comme les « auxiliary losses » (pertes auxiliaires d’équilibrage) ou l’approche sans perte auxiliaire de DeepSeek (utilisant des termes de biais ajustés manuellement) adressent ce problème.

Fine-tuning. Les modèles MoE sont historiquement plus difficiles à fine-tuner que les modèles denses. Les mises à jour de gradient sont plus « éparses » (seuls les experts activés reçoivent des gradients), ce qui peut entraîner un surapprentissage. Les recherches récentes (notamment le papier ST-MoE) ont montré que fine-tuner les couches non-MoE (attention, normalisation) plutôt que les experts donne souvent de meilleurs résultats.

Composants architecturaux clés

Mécanismes d’attention

L’attention est le cœur du Transformer. Plusieurs variantes ont émergé pour réduire le coût et la mémoire :

Multi-Head Attention (MHA) : le mécanisme original, avec des têtes d’attention indépendantes. Coûteux en mémoire (cache KV volumineux).
Grouped-Query Attention (GQA) : partage les clés et valeurs entre groupes de têtes de requête. Réduit le cache KV. Utilisé par Llama 3, Gemma 3, Qwen 3.
Multi-Head Latent Attention (MLA) : compresse les représentations clé-valeur dans un espace latent de dimension réduite. Innovation de DeepSeek V3.
Sliding Window Attention : chaque token ne regarde qu’une fenêtre locale de tokens récents, au lieu de toute la séquence. Réduit drastiquement le coût pour les longs contextes. Utilisé par Mistral, Gemma 3 (alternance attention locale/globale à ratio 5:1).
DeepSeek Sparse Attention (DSA) : mécanisme d’attention clairsemé à grain fin, réduisant le coût d’entraînement et d’inférence de ~50 % par rapport à l’attention dense. Innovation de DeepSeek V3.2.

Encodage positionnel

Les Transformers n’ont pas de notion intrinsèque de l’ordre des tokens. L’encodage positionnel résout ce problème. L’approche dominante est RoPE (Rotary Positional Embeddings), avec des fréquences de base ajustables pour supporter différentes longueurs de contexte. Gemma 3 utilise une fréquence de base de 1M (contre 10K pour Gemma 2), puis multiplie par 8 pour l’extension à 128K tokens.

Llama 4 utilise iRoPE (interleaved RoPE), qui alterne des couches avec et sans encodage positionnel, améliorant le traitement des séquences très longues (jusqu’à 10M tokens pour Scout).

Normalisation

Les couches de normalisation stabilisent l’entraînement. La tendance actuelle est à RMSNorm (Root Mean Square Normalization), plus simple et plus rapide que LayerNorm classique, avec QK-normalization pour stabiliser les scores d’attention à grande échelle. La plupart des modèles récents (DeepSeek, Llama 4, Gemma 3) utilisent cette approche.

Tokenizer

Le tokenizer convertit le texte en séquences de tokens numériques que le modèle peut traiter. Ce n’est pas à proprement parler un composant de l’architecture du réseau, mais il est intimement lié à celle-ci (la taille du vocabulaire détermine la dimension de la matrice d’embedding). Les tokenizers modernes utilisent BPE (Byte-Pair Encoding) ou SentencePiece, avec des vocabulaires allant de 32K à 262K tokens.

Architectures hybrides : la tendance 2026

Hybride MoE-dense

Plutôt qu’un choix binaire entre dense et MoE, certains modèles alternent les deux types de couches. Llama 4 Maverick alterne des blocs MoE et des blocs denses (environ un sur deux), combinant la spécialisation des experts avec la stabilité des couches denses. C’est un compromis qui facilite le fine-tuning tout en conservant l’efficacité du MoE.

Hybride Transformer-SSM (State Space Model)

Les State Space Models (SSM), comme Mamba, offrent une alternative aux Transformers pour le traitement des séquences longues. Leur coût est linéaire par rapport à la longueur de la séquence (contre quadratique pour l’attention standard), ce qui les rend très efficaces pour les très longs contextes.

Les architectures hybrides comme Jamba (AI21 Labs) et Nemotron 3 (NVIDIA) combinent des couches Transformer (pour la précision du rappel et l’attention sur les détails) avec des couches SSM/Mamba (pour l’efficacité sur les longs contextes). NVIDIA Nemotron 3, sorti en décembre 2025, est un hybride MoE-Mamba-Transformer qui publie à la fois les poids, le dataset et le code d’entraînement.

Fusion multimodale

L’architecture détermine aussi comment un modèle traite plusieurs modalités (texte, images, vidéo, audio). Deux approches coexistent :

Fusion tardive (late fusion) : un encodeur séparé (SigLIP pour les images, Whisper pour l’audio) convertit chaque modalité en tokens, puis le Transformer texte traite l’ensemble. C’est l’approche de Gemma 3 et PaliGemma.

Fusion précoce (early fusion) : les différentes modalités sont entraînées ensemble dès le départ, dans une architecture unifiée. C’est l’approche de Llama 4, qui intègre un encodeur vision MetaCLIP nativement dans l’architecture. La fusion précoce produit généralement de meilleures interactions intermodales, mais elle est plus coûteuse à entraîner.

Architecture et performance : ce qui compte vraiment

Un enseignement clé de 2025-2026 : l’architecture seule n’explique pas les performances. Le pipeline d’entraînement (données, curriculum, distillation, post-training RLHF) compte au moins autant. Gemma 3 4B, grâce à la distillation depuis Gemini 2.0, rivalise avec Gemma 2 27B malgré une architecture plus petite. DeepSeek V3.2 a été entraîné pour moins de 6 millions de dollars selon les rapports publiés, prouvant que l’optimisation du pipeline peut compenser un budget compute limité.

L’architecture fixe les limites de ce qui est possible. Le pipeline d’entraînement détermine à quel point ces limites sont atteintes. Les deux sont essentiels.

Impact de l’architecture sur le déploiement

Caractéristique	Dense	MoE	Hybride SSM-Transformer
Coût calcul par token	Proportionnel aux paramètres totaux	Proportionnel aux paramètres actifs (~5-10× moins)	Linéaire en longueur de séquence
Mémoire requise	Proportionnelle aux paramètres totaux	Proportionnelle aux paramètres totaux (tous chargés)	Réduite (pas de cache KV croissant)
Facilité de fine-tuning	Simple et bien compris	Plus fragile, surapprentissage fréquent	En cours de maturation
Longueur de contexte efficace	Limitée par le coût quadratique de l’attention	Idem (mais sliding window aide)	Excellente (coût linéaire)
Maturité de l’écosystème	Très mature (frameworks, outils, documentation)	Mature (vLLM, TensorRT-LLM supportent MoE)	Émergent

Conseil pratique pour le choix de modèle Ne choisissez pas un modèle pour son architecture, choisissez-le pour ses performances sur votre cas d’usage et votre budget d’inférence. L’architecture MoE est un avantage si vous servez le modèle en production (coût par token réduit). Un modèle dense est plus simple si vous faites du fine-tuning intensif. Un hybride SSM est pertinent si vous traitez des documents très longs (> 100K tokens) en continu.

Architecture et confidentialité

La plupart des éditeurs de modèles propriétaires ne publient pas les détails exacts de leur architecture. OpenAI n’a jamais confirmé officiellement l’architecture de GPT-4 ou GPT-5.4 (bien que de fortes présomptions indiquent qu’il s’agit de MoE). Anthropic ne publie pas les détails architecturaux de Claude. Google ne détaille pas l’architecture exacte de Gemini.

C’est un contraste frappant avec les modèles open weights, où les rapports techniques et le code source rendent l’architecture entièrement transparente. La communauté open source a bénéficié de rapports techniques détaillés de DeepSeek (architecture MLA, DSA), de Mistral (architecture MoE granulaire), et de Google (rapport technique Gemma 3).

Verdict

L’architecture d’un modèle d’IA est le fondement sur lequel tout le reste repose. Le Transformer reste l’architecture de base indiscutée, mais la variante MoE est devenue la norme pour les modèles frontier en 2025-2026, offrant une réduction de coût de calcul d’environ 70 % par rapport aux modèles denses de capacité comparable.

La prochaine évolution sera probablement la généralisation des architectures hybrides (Transformer + SSM + MoE), combinant la précision de l’attention, l’efficacité des State Space Models sur les longs contextes, et la spécialisation des experts. NVIDIA Nemotron 3 montre la direction.

Pour un praticien, la bonne nouvelle est que les choix architecturaux sont transparents pour la plupart des usages : vous téléchargez un modèle, vous l’exécutez avec vLLM ou Ollama, et l’architecture fait son travail en coulisses. Mais comprendre les bases vous aide à choisir le bon modèle pour votre cas d’usage, à anticiper les contraintes de déploiement, et à interpréter les benchmarks de façon éclairée.

FAQ

Quelle est la différence entre l’architecture et les poids d’un modèle d’IA ?

L’architecture est le plan de construction : elle définit la structure du réseau (nombre de couches, type d’attention, mécanismes MoE, etc.). Elle est conçue par les chercheurs avant l’entraînement. Les poids sont les valeurs numériques apprises pendant l’entraînement : ils encodent ce que le modèle a appris des données. Deux modèles peuvent avoir la même architecture mais des poids différents (entraînés sur des données différentes), ou la même quantité de paramètres mais des architectures différentes (dense vs MoE).

Pourquoi la plupart des modèles frontier utilisent-ils l’architecture MoE en 2026 ?

Parce que MoE découple la capacité du modèle (paramètres totaux) du coût de calcul (paramètres actifs). Un modèle MoE de 675B paramètres avec 41B actifs offre la « connaissance » d’un modèle de 675B mais le coût d’inférence d’un modèle de ~41B. La réduction est d’environ 70 % par rapport à un modèle dense de capacité comparable. À l’échelle des millions de requêtes par jour, cette économie est déterminante.

Connaît-on l’architecture exacte de GPT-5.4 ou Claude Opus 4.6 ?

Non. OpenAI et Anthropic ne publient pas les détails architecturaux de leurs modèles phares. Pour GPT-4/5.x, de fortes présomptions (basées sur des fuites et des analyses indirectes) suggèrent une architecture MoE, mais rien n’a été officiellement confirmé. Anthropic ne détaille pas l’architecture de Claude au-delà de la mention de Constitutional AI comme approche de sécurité. C’est une différence majeure avec les modèles open weights comme DeepSeek ou Mistral, dont les rapports techniques décrivent l’architecture en détail.

Un modèle dense peut-il être meilleur qu’un modèle MoE ?

Oui, sur certains critères. Un modèle dense utilise chaque paramètre pour chaque token, ce qui peut donner une meilleure qualité par paramètre à petite échelle. Les modèles denses sont aussi plus simples à fine-tuner et moins sujets au surapprentissage lors du fine-tuning. Pour les très petits modèles (< 10B paramètres) destinés au edge ou au mobile, le dense reste souvent le meilleur choix. Le MoE brille quand on veut maximiser la capacité tout en contrôlant le coût d'inférence à grande échelle.

Qu’est-ce qu’une architecture hybride Transformer-SSM ?

C’est une architecture qui combine des couches Transformer classiques (avec attention) et des couches State Space Model (SSM) comme Mamba. Les couches Transformer excellent pour la précision du rappel et le traitement fin des détails. Les couches SSM traitent les séquences longues avec un coût linéaire plutôt que quadratique. L’hybride Jamba (AI21 Labs) a démontré un contexte de 256K tokens sur un seul GPU avec cette approche. NVIDIA Nemotron 3 combine les trois : Transformer + SSM + MoE.