Dense Model (Modèle Dense)

Un dense model est un réseau de neurones dans lequel tous les paramètres sont activés et contribuent au calcul pour chaque entrée traitée, par opposition à un modèle sparse qui n’active qu’une fraction de ses paramètres.

Catégorie: Architecture de réseau de neurones
Aussi appelé: Modèle dense, dense transformer, modèle à activation complète
Opposé: Sparse model, MoE
Principe: 100 % des paramètres activés pour chaque token
Exemples majeurs: Claude (Opus 4.6, Sonnet 4.6), LLaMA 3.1, GPT-3, BERT, T5, Ministral, Gemma
Statut 2026: Architecture de référence pour les modèles ≤70B ; concurrencée par le MoE au-delà

Comment fonctionne un modèle dense

Dans un modèle dense basé sur le Transformer, chaque bloc contient une couche d’auto-attention suivie d’un réseau feed-forward (FFN). Pour chaque token qui traverse le modèle, chaque neurone de chaque couche participe au calcul. Il n’y a pas de sélection, pas de routage, pas d’experts inactifs : le signal passe par l’intégralité du réseau.

C’est l’architecture originale décrite dans le papier fondateur « Attention Is All You Need » (Vaswani et al., 2017). Tous les LLM jusqu’en 2023 étaient denses : GPT-1, GPT-2, GPT-3, BERT, T5, LLaMA, PaLM. C’est la forme « par défaut » d’un Transformer.

Conséquence directe : dans un modèle dense, le nombre de paramètres totaux égale toujours le nombre de paramètres actifs. Un modèle dense de 70 milliards de paramètres utilise 70 milliards de paramètres pour chaque token. Il n’y a qu’un seul chiffre à retenir, ce qui simplifie la comparaison entre modèles.

Dense = simple à comprendre Si un modèle n’annonce qu’un seul chiffre de paramètres (ex : « LLaMA 3.1 70B »), sans mention de « paramètres actifs » ni d’experts, c’est un modèle dense. Dès que vous voyez deux chiffres (ex : « 671B/37B ») ou la mention « MoE », c’est un modèle sparse.

Anatomie d’un modèle dense moderne

Un LLM dense moderne est presque toujours un Transformer decoder-only. Son architecture se compose de blocs répétés, chacun contenant :

Normalisation. Typiquement RMSNorm (plus efficace que LayerNorm), appliquée avant l’attention et avant le FFN. C’est un changement par rapport aux premières architectures qui appliquaient la normalisation après.

Auto-attention multi-têtes. La couche de multi-head attention permet à chaque token de « regarder » tous les autres tokens de la séquence. Les architectures récentes utilisent la Grouped-Query Attention (GQA) pour réduire la taille du KV-cache tout en préservant la qualité. L’encodage positionnel est assuré par RoPE (Rotary Position Embeddings).

Réseau feed-forward (FFN). C’est la couche la plus volumineuse. Dans les grands modèles comme PaLM-540B, environ 90 % des paramètres se trouvent dans les couches FFN. Les architectures modernes utilisent SwiGLU comme fonction d’activation (combinaison de Swish et Gated Linear Unit), plus performante que le ReLU original.

Connexion résiduelle. Chaque sous-couche (attention et FFN) est contournée par une connexion résiduelle qui additionne l’entrée à la sortie, facilitant l’entraînement des réseaux profonds.

C’est précisément la couche FFN qui est remplacée par la couche MoE dans les modèles sparse. Le reste de l’architecture (attention, normalisation, connexions résiduelles) est identique entre un modèle dense et un modèle MoE.

Les modèles denses majeurs en 2026

Modèle	Créateur	Paramètres	Contexte	Licence	Particularité
Claude Opus 4.6	Anthropic	Non divulgué	1M tokens	Propriétaire	Modèle frontier dense, Constitutional AI
Claude Sonnet 4.6	Anthropic	Non divulgué	1M tokens	Propriétaire	Équilibre coût/performance, plus de surcoût long contexte
LLaMA 3.1 405B	Meta	405B	128K tokens	Community License	Plus grand modèle dense open-weight
Ministral 14B/8B/3B	Mistral AI	3-14B	128K tokens	Apache 2.0	Modèles denses compacts de Mistral 3
Gemma 2 27B	Google	27B	8K tokens	Open	Modèle dense efficace pour usage local
GPT-3	OpenAI	175B	4K tokens	API uniquement	Modèle fondateur de l’ère LLM
PaLM 2	Google	~340B (estimé)	32K tokens	Propriétaire	Dense, base de Gemini 1.0

Claude : le champion dense Anthropic est le seul labo frontier qui confirme publiquement utiliser une architecture dense pour ses modèles Claude. Claude Opus 4.6 rivalise avec les meilleurs modèles MoE (DeepSeek-R1, Mistral Large 3, GPT-5.4) malgré cette contrainte architecturale. La preuve que le dense, bien optimisé, reste compétitif au plus haut niveau. La contrepartie est un prix API plus élevé (5 $/M tokens en input vs. 0,50 $ pour Mistral Large 3).

Les avantages du modèle dense

Simplicité d’architecture et de déploiement

Un modèle dense n’a pas de routeur, pas d’experts à distribuer, pas de load balancing à gérer. Le déploiement se fait avec du model parallelism et du data parallelism standard, des techniques bien maîtrisées et outillées. Les frameworks comme vLLM, TensorRT-LLM et SGLang sont historiquement optimisés pour les modèles denses.

Stabilité d’entraînement

L’entraînement d’un modèle dense est plus prévisible. Il n’y a pas de décisions de routage « hard » qui introduisent des discontinuités dans les gradients. Pas de risque de collapse d’experts (où tous les tokens convergent vers quelques experts). Pas de perte auxiliaire à calibrer. Les hyperparamètres sont mieux compris et les recettes d’entraînement sont éprouvées.

Utilisation maximale de chaque paramètre

Chaque paramètre d’un modèle dense contribue au traitement de chaque token. Il n’y a pas de paramètres « dormants ». Cela signifie que pour un nombre de paramètres actifs donné, un modèle dense extrait théoriquement le maximum de capacité. C’est l’argument principal contre le MoE : dans un modèle de 37 milliards de paramètres actifs, un dense entraîne et utilise chaque paramètre bien plus intensément qu’un MoE qui en active 37B parmi 671B.

Fine-tuning standard et prévisible

Le fine-tuning d’un modèle dense suit des procédures bien documentées (LoRA, QLoRA, full fine-tuning). Les hyperparamètres sont relativement standard. Avec un modèle MoE, le fine-tuning est plus délicat : les modèles sparse bénéficient de batch sizes plus petits et de learning rates plus élevés, et geler les couches MoE (80 % des paramètres) est parfois nécessaire.

Mémoire proportionnelle au calcul

C’est un avantage souvent sous-estimé. Dans un modèle dense de 70B paramètres, les 70B sont à la fois la quantité de mémoire nécessaire et la quantité de calcul effectuée. Il n’y a pas de « surcharge mémoire » comme dans un MoE où 671B doivent être en mémoire pour n’en utiliser que 37B. Pour un déploiement local sur GPU limité, un dense de 7-13B est bien plus gérable qu’un MoE de 80B/3B actifs (qui nécessite quand même 80B de mémoire).

Les limites du modèle dense

Coût de scaling prohibitif

Le problème fondamental du dense est que coût de calcul et capacité sont couplés. Doubler la capacité du modèle (nombre de paramètres) double le coût de calcul par token. À l’échelle des modèles frontier (>100B paramètres), cela rend l’entraînement et l’inférence extrêmement coûteux. L’entraînement de GPT-3 (175B, dense) aurait coûté plusieurs millions de dollars. Un modèle dense de 671B serait incomparablement plus cher à entraîner et servir que DeepSeek V3 (671B MoE, 37B actifs).

Inefficacité d’activation latente

Des recherches ont révélé que même dans les modèles denses, une proportion significative des neurones produit des activations quasi-nulles pour un token donné. Le modèle active tous ses paramètres, mais beaucoup ne contribuent pas significativement au résultat. C’est un gaspillage structurel que le MoE évite par conception en n’activant que les experts pertinents.

Une étude publiée à ICLR 2025 montre que dans un modèle dense au niveau token, seul un faible pourcentage de neurones est réellement activé de manière significative, ce qui suggère une capacité excédentaire mal exploitée. C’est l’un des arguments théoriques en faveur du MoE et de la sparsité d’activation.

Plafond pratique de taille

Le plus grand modèle dense open-weight est LLaMA 3.1 à 405 milliards de paramètres. Au-delà, le coût d’entraînement et de déploiement d’un modèle dense devient difficile à justifier face à un MoE de taille comparable. C’est pourquoi les modèles au-delà de 500B paramètres sont quasi exclusivement MoE : DeepSeek V3 (671B), Mistral Large 3 (675B), Kimi K2 (1T), Switch-C (1,6T).

La « Densing Law » : l’efficacité des denses progresse aussi

Un article publié dans Nature Machine Intelligence en novembre 2025 introduit le concept de « densing law » (loi de densification). Les auteurs définissent la « capability density » (densité de capacité) comme la performance par paramètre d’un modèle. Leur constat : cette densité de capacité double environ tous les 3,5 mois.

En termes concrets, cela signifie qu’un modèle dense entraîné aujourd’hui avec 7B paramètres peut atteindre les performances d’un modèle de 70B d’il y a quelques années. Cette progression est principalement due à l’amélioration des données d’entraînement (plus de données, meilleure qualité, meilleur filtrage) plutôt qu’à des innovations architecturales majeures. L’architecture Transformer vanilla avec quelques modifications mineures (SwiGLU, RMSNorm, GQA) reste le standard.

Cette loi suggère que même sans passer au MoE, les modèles denses continuent de devenir plus capables à taille constante. La compétition entre dense et MoE n’est donc pas à sens unique : les denses deviennent plus efficients, et les MoE ajoutent de la capacité.

Dense ou MoE : guide de décision

Scénario	Choix recommandé	Pourquoi
Modèle ≤30B, déploiement local	Dense	Mémoire = calcul, déploiement simple, MoE sans bénéfice à cette échelle
Modèle 30-70B, GPU limités	Dense	Un dense de 70B nécessite ~40 Go en 4-bit. Un MoE de 80B/3B actifs nécessite ~45 Go mais calcule comme un 3B
Qualité frontier via API	MoE	DeepSeek V3, Mistral Large 3 : qualité frontier à prix 10× inférieur aux denses
Fine-tuning sur domaine spécifique	Dense	Procédure standard, hyperparamètres bien documentés, résultats prévisibles
Entraînement from scratch >100B	MoE	Rapport capacité/coût bien supérieur, entraînement 7× plus rapide à qualité égale
Alignement et sécurité	Dense	Comportement plus prévisible, techniques d’alignement mieux étudiées
Déploiement edge / embarqué	Dense	Architecture simple, mémoire = calcul, pas d’overhead de routage
Chatbot multi-domaine haute performance	MoE	Spécialisation des experts sur différents types de requêtes

Optimiser un modèle dense : les techniques clés

L’écosystème d’optimisation des modèles denses est mature et riche :

Quantification. Réduire la précision des poids (FP16 → INT4) divise la mémoire par 4 et accélère l’inférence. GPTQ, AWQ et GGUF sont les formats les plus utilisés. Un modèle dense de 70B passe de ~140 Go (FP16) à ~35 Go (INT4), tenant sur un seul GPU A100 de 80 Go.

Flash Attention. Optimisation algorithmique de l’attention qui réduit l’utilisation mémoire de O(n²) à O(n) tout en accélérant le calcul. Quasi standard dans tous les frameworks d’inférence modernes.

KV-cache optimisé. PagedAttention (vLLM) gère le cache clé-valeur comme de la mémoire virtuelle, réduisant le gaspillage et augmentant le throughput de serving de 2-4×.

Grouped-Query Attention (GQA). Réduit le nombre de clés/valeurs en les partageant entre groupes de têtes d’attention. LLaMA 3.1 et Ministral utilisent GQA, réduisant la taille du KV-cache sans perte de qualité mesurable.

Speculative decoding. Un petit modèle « brouillon » prédit plusieurs tokens d’avance, validés en parallèle par le grand modèle. Accélère l’inférence de 2-3× sans modification du modèle ni perte de qualité. Particulièrement efficace sur les modèles denses où chaque passage est coûteux.

Distillation. Transférer les connaissances d’un grand modèle vers un plus petit. DeepSeek a distillé DeepSeek-R1 (671B MoE) en modèles denses de 1,5B à 70B (basés sur LLaMA et Qwen), prouvant que la distillation MoE → dense est un pipeline viable.

Parallélisme et serving des modèles denses

Déployer un modèle dense de grande taille requiert des techniques de parallélisme bien établies, mais distinctes de celles utilisées pour les modèles MoE :

Tensor Parallelism (TP). Le modèle est découpé horizontalement : chaque matrice de poids est partitionnée entre plusieurs GPU. Chaque GPU détient une tranche de chaque couche et traite sa portion du calcul. C’est la technique standard pour les modèles denses trop grands pour un seul GPU. LLaMA 3.1 405B nécessite typiquement 4 à 8 GPU H100 en tensor parallelism.

Pipeline Parallelism (PP). Le modèle est découpé verticalement : différentes couches sont assignées à différents GPU. Les données traversent les GPU séquentiellement, comme un pipeline. Moins efficace que le TP pour la latence, mais réduit la communication inter-GPU. Souvent combiné avec le TP pour les très grands modèles.

Data Parallelism (DP). Chaque GPU détient une copie complète du modèle et traite un sous-ensemble du batch de données. Les gradients sont moyennés entre GPU. Simple et efficace pour l’entraînement, mais impose que le modèle tienne sur un seul GPU (ou combiné avec TP/PP).

À noter que les modèles MoE ajoutent un quatrième type de parallélisme absent des modèles denses : l’expert parallelism, où différents experts sont distribués sur différents GPU. C’est cette complexité supplémentaire qui rend le déploiement MoE plus délicat.

Optimisation du serving en production

Le serving de modèles denses en production bénéficie d’un écosystème mature. vLLM avec PagedAttention est devenu le standard de facto pour le serving haute performance, offrant un throughput 2 à 4× supérieur aux implémentations naïves grâce à sa gestion optimisée du KV-cache. TensorRT-LLM (NVIDIA) fournit des optimisations bas niveau spécifiques à chaque architecture GPU.

Le principal goulot d’étranglement des modèles denses en production est la mémoire KV-cache, qui croît linéairement avec la longueur du contexte et le nombre de requêtes concurrentes. Pour un modèle de 70B avec un contexte de 128K tokens, le KV-cache peut consommer autant de mémoire que les poids du modèle eux-mêmes. C’est pourquoi les techniques de compression du KV-cache (GQA, quantification du cache, pruning du cache) sont devenues essentielles pour le serving à grande échelle.

Pour les contraintes de mémoire extrêmes, certaines implémentations déchargent les poids du modèle et le KV-cache vers la mémoire CPU (RAM) et les rechargent à la demande. Cette approche sacrifie le throughput et la latence mais permet d’exécuter des modèles plus grands que la VRAM disponible.

Le dense comme fondation du MoE

Un point crucial souvent négligé : les modèles denses ne sont pas seulement une alternative au MoE, ils en sont la fondation. Les modèles MoE sont construits en remplaçant les couches FFN d’un Transformer dense par des couches MoE. Toutes les autres couches (attention, normalisation, connexions résiduelles) restent identiques. Les techniques développées pour optimiser les denses (Flash Attention, GQA, RoPE) bénéficient directement aux modèles MoE.

De plus, les modèles denses servent de base pour la distillation, le fine-tuning et la conversion dense-to-MoE (comme ToMoE). Ils sont aussi les modèles « brouillons » utilisés dans le speculative decoding des modèles MoE. L’écosystème dense et l’écosystème MoE sont donc symbiotiques, pas antagonistes.

L’avenir du modèle dense

Malgré la montée en puissance du MoE, le modèle dense a un avenir solide dans plusieurs niches :

Modèles compacts haute performance. La « densing law » montre que les petits modèles denses deviennent de plus en plus capables. Les modèles de 7-14B paramètres (Ministral, Gemma, LLaMA 3.2) couvrent désormais la majorité des cas d’usage courants, et ils tiennent sur un seul GPU grand public.

Edge AI et embarqué. Les contraintes de taille et de simplicité rendent le dense incontournable pour le déploiement sur smartphone, navigateur ou IoT. Pas de routeur, pas d’expert parallelism, pas de surcharge mémoire.

Recherche en alignement et interprétabilité. Le comportement déterministe d’un modèle dense (même entrée = même chemin dans le réseau) facilite l’analyse et l’alignement. Les techniques de safety et de RLHF sont mieux comprises sur les architectures denses.

Architectures hybrides. La tendance émergente des architectures hybrides dense-sparse (couches denses initiales + blocs MoE) comme dans GLM-4.5 et DeepSeek V3 montre que le dense et le sparse ne sont pas exclusifs. Les premières couches denses stabilisent l’extraction de features, les couches MoE ultérieures ajoutent la capacité et la spécialisation.

Verdict

Le modèle dense est l’architecture fondamentale sur laquelle repose tout l’écosystème LLM. Il reste le choix optimal pour les modèles de taille petite à moyenne (≤70B), pour le déploiement local sur hardware limité, pour le fine-tuning, et pour les cas où la simplicité et la prévisibilité sont prioritaires.

Face au MoE qui domine au-delà de 100B paramètres, le dense ne disparaît pas : il évolue. La densing law montre que les petits modèles denses deviennent exponentiellement plus capables. Et les modèles denses restent la base de construction, le matériau brut à partir duquel les architectures MoE sont construites et les distillations sont réalisées. Choisir entre dense et MoE n’est pas un débat idéologique mais une décision d’ingénierie qui dépend de votre échelle, votre budget et vos contraintes de déploiement.

Questions fréquentes sur les modèles denses

Claude est-il un modèle dense ?

Oui. Anthropic a confirmé que les modèles Claude (Opus 4.6, Sonnet 4.6, Haiku 4.5) utilisent une architecture dense. C’est l’exception notable parmi les modèles frontier en 2026, la plupart des concurrents étant soit confirmés MoE (DeepSeek, Mistral Large, Qwen3.5), soit soupçonnés de l’être (GPT-4/5, Gemini). Claude Opus 4.6 prouve qu’un modèle dense peut rivaliser au plus haut niveau, mais à un coût API plus élevé (5 $/M tokens en input vs. 0,50 $ pour Mistral Large 3).

Un modèle dense de 70B est-il meilleur qu’un MoE de 671B/37B ?

En termes de qualité brute : non, le MoE de 671B/37B est généralement supérieur, car il dispose d’une capacité totale bien plus importante même si seuls 37B sont actifs par token. En termes de coût de calcul : les deux sont comparables (37B actifs vs. 70B). En termes de mémoire : le dense de 70B est bien plus léger (~140 Go en FP16 vs. ~1,3 To pour le MoE). Le choix dépend donc de votre contrainte principale : qualité maximale (MoE) vs. déploiement simple et mémoire réduite (dense).

Peut-on convertir un modèle dense en MoE ?

Oui. La méthode ToMoE (2026) convertit un modèle dense en MoE par pruning dynamique des couches FFN. Les résultats montrent des performances proches du modèle dense original avec seulement 50 % des paramètres actifs. C’est aussi possible dans l’autre sens : la distillation d’un MoE vers un modèle dense permet de capturer 30-40 % des gains de sparsité dans un modèle plus simple à déployer.

Pourquoi les modèles denses sont-ils plus chers en API ?

Parce que chaque token active tous les paramètres du modèle. Pour un modèle frontier dense (comme Claude Opus 4.6), le coût de calcul par token est proportionnel à la totalité de ses paramètres. Un MoE frontier (comme DeepSeek V3) n’active que ~5 % de ses paramètres, réduisant proportionnellement le coût GPU par token. C’est la raison structurelle pour laquelle DeepSeek V3 coûte 0,28 $/M tokens en input alors que Claude Opus 4.6 coûte 5 $/M.

Les modèles denses vont-ils disparaître au profit du MoE ?

Non. Trois facteurs assurent la pérennité du dense. Premièrement, la « densing law » montre que les petits modèles denses deviennent exponentiellement plus capables, couvrant de plus en plus de cas d’usage. Deuxièmement, le MoE n’apporte pas de bénéfice significatif en dessous de ~30B paramètres, un segment où le dense domine. Troisièmement, les contraintes de déploiement (edge, embarqué, mémoire limitée) favorisent structurellement le dense. Le scénario probable est une coexistence durable : dense pour les petits/moyens modèles et le déploiement contraint, MoE pour les modèles frontier à grande échelle.