Sparse Model (Modèle Sparse)

Un sparse model (modèle sparse ou modèle clairsemé) est un réseau de neurones dans lequel seule une fraction des paramètres ou des activations est utilisée pour traiter chaque entrée, par opposition à un modèle dense où tous les paramètres sont mobilisés à chaque fois.

Catégorie: Architecture / Technique d’optimisation de réseau de neurones
Opposé: Dense model (tous les paramètres actifs pour chaque entrée)
Formes principales: Sparsité structurelle (MoE), sparsité des poids (pruning), sparsité d’activation
Objectif: Réduire le coût de calcul et/ou la mémoire tout en préservant la qualité
Exemples emblématiques: Switch Transformer, Mixtral, DeepSeek V3, SparseGPT, modèles N:M sur GPU NVIDIA
Tendance 2026: Plus de 60 % des LLM frontier open-source sont des modèles sparse (architecture MoE)

Qu’est-ce qu’un modèle sparse ?

La sparsité, en informatique, désigne une structure où la majorité des éléments sont nuls ou inactifs. Appliquée aux réseaux de neurones, cette propriété signifie qu’à chaque passage d’un token ou d’une entrée, seule une partie du réseau est réellement sollicitée. Les poids, les neurones ou les couches non sollicités restent « dormants », ce qui économise du calcul.

L’analogie la plus parlante : imaginez une entreprise de 1 000 employés. Un modèle dense fait intervenir les 1 000 employés pour chaque dossier. Un modèle sparse identifie les 50 personnes pertinentes pour ce dossier spécifique et ne mobilise qu’elles. Le résultat est souvent comparable en qualité, mais le coût opérationnel est radicalement plus faible.

La sparsité dans les LLM se manifeste sous trois formes distinctes, chacune avec ses propres mécanismes, avantages et contraintes.

Les trois formes de sparsité dans les modèles d’IA

1. Sparsité structurelle : Mixture of Experts (MoE)

C’est la forme de sparsité la plus visible et la plus impactante dans les LLM modernes. L’architecture Mixture of Experts remplace les couches feed-forward (FFN) du Transformer par un ensemble d’experts (sous-réseaux FFN), dont seuls quelques-uns sont activés pour chaque token via un routeur.

Caractéristiques :

La sparsité est architecturale : elle est décidée au moment de la conception du modèle, pas après l’entraînement. Le routeur est un composant entraînable qui fait partie intégrante du modèle. Les experts inactifs ne consomment aucun FLOP mais occupent de la mémoire GPU. Le ratio de sparsité typique va de 75 % (top-2 sur 8 experts, comme Mixtral) à plus de 97 % (top-4 sur 256, comme Trinity-Large-Preview).

Exemples concrets :

Modèle	Params totaux	Params actifs	Sparsité effective
DeepSeek V3	671B	37B	~94,5 %
Mistral Large 3	675B	~41B	~93,9 %
Mixtral 8x7B	46,7B	12,9B	~72,4 %
Qwen3-Next 80B	80B	3B	~96,3 %
MiniMax M2.5	230B	10B	~95,7 %

Pour une analyse approfondie du MoE, consultez les pages dédiées : Mixture of Experts et MoE.

2. Sparsité des poids : pruning

Le pruning (élagage) consiste à supprimer ou à mettre à zéro des poids du réseau après l’entraînement (ou pendant). C’est l’approche historique de la sparsité. L’idée part du constat que de nombreux poids dans un réseau entraîné ont des valeurs très proches de zéro et contribuent peu aux prédictions. En les supprimant, on réduit le calcul et la mémoire sans (trop) dégrader la qualité.

Trois catégories de pruning :

Type	Principe	Avantages	Limites
Pruning non structuré	Suppression de poids individuels n’importe où dans le réseau	Peut atteindre des taux de sparsité très élevés (90 %+)	Matrices irrégulières, difficiles à accélérer sur GPU standard
Pruning structuré	Suppression de canaux, têtes d’attention ou couches entières	Accélération directe sur hardware standard	Perte de qualité plus importante à taux de sparsité équivalent
Pruning semi-structuré (N:M)	Pattern fixe : N valeurs non-nulles par bloc de M (ex : 2:4)	Accélération hardware native (Tensor Cores NVIDIA Ampere+)	Limité à 50 % de sparsité (2:4) ou 50 % (4:8)

SparseGPT est la méthode de référence pour le pruning de LLM. Elle permet de pruner des modèles massifs (OPT-175B, BLOOM-176B) en un seul passage, sans réentraînement. Les résultats montrent qu’à 50 % de sparsité non structurée, la perte de qualité est minime sur les modèles de grande taille. Combiné avec de la quantification 4-bit, le pruning 50 % permet de réduire considérablement l’empreinte mémoire.

Le Lottery Ticket Hypothesis La « Lottery Ticket Hypothesis » (Frankle & Carlin, 2019) postule que tout réseau dense contient un sous-réseau sparse (le « billet gagnant ») qui, entraîné isolément, peut atteindre des performances comparables au réseau complet. Cette hypothèse a stimulé des années de recherche sur le pruning et la sparsité, bien que les « billets gagnants » restent difficiles à identifier a priori dans les très grands modèles.

3. Sparsité d’activation

La sparsité d’activation se produit quand les sorties des neurones (après la fonction d’activation) sont majoritairement nulles. C’est un phénomène naturel dans les réseaux utilisant des fonctions d’activation comme ReLU, qui met à zéro toutes les valeurs négatives.

Sparsité d’activation naturelle. Dans un Transformer standard, les couches FFN produisent naturellement un certain degré de sparsité d’activation. Des recherches ont montré que dans les modèles denses, une proportion significative des neurones produit des activations quasi-nulles pour un token donné. Le projet Finedeep a d’ailleurs identifié ce phénomène de « sparse activation in dense LLMs » comme un problème qui gaspille la capacité du modèle.

Sparsité d’activation induite. Des fonctions d’activation comme Squared-ReLU augmentent volontairement la sparsité pour accélérer l’inférence. La méthode Q-Sparse applique une sparsification dynamique aux activations pendant le décodage pour réduire les accès mémoire. Amber Pruner exploite un pattern N:M sur les activations (pas les poids) pendant la phase de prefill, permettant d’accélérer plus de 55 % des calculs linéaires sans réentraînement.

Sparsité contextuelle. La méthode Deja Vu observe que pour un contexte donné, seul un sous-ensemble des neurones est réellement utile. En prédisant à l’avance quels neurones seront activés, on peut éviter le calcul des autres. C’est une forme de calcul conditionnel qui s’apparente au MoE, mais appliquée au niveau des neurones individuels plutôt que de sous-réseaux complets.

Sparse vs. dense : comparaison complète

Critère	Modèle sparse	Modèle dense
Définition	Fraction des paramètres/activations utilisée par entrée	Tous les paramètres activés pour chaque entrée
FLOPs par token	Proportionnel aux paramètres actifs (bien inférieur aux totaux)	Proportionnel aux paramètres totaux
Mémoire GPU	MoE : tous les experts chargés. Pruning : réduite proportionnellement	Proportionnelle aux paramètres totaux
Qualité à budget FLOP égal	Supérieure (plus de capacité pour le même coût)	Référence
Complexité de déploiement	Plus élevée (routage, expert parallelism, load balancing)	Standard
Stabilité d’entraînement	Plus fragile (décisions de routage hard, instabilité MoE)	Stable
Fine-tuning	Hyperparamètres spécifiques, résultats variables	Procédure standard, bien documentée
Accélération hardware	MoE : expert parallelism. N:M : Tensor Cores natifs	GEMM optimisé (cuBLAS), très mature
Tendance 2026	Dominant pour les modèles frontier (>100B)	Dominant pour les modèles petits/moyens (<70B)

La coexistence est le scénario réaliste Les modèles sparse ne remplacent pas les modèles denses. Ils dominent au-delà de ~100 milliards de paramètres, là où l’efficacité computationnelle est critique. En dessous, les modèles denses restent plus simples à entraîner, déployer et fine-tuner. LLaMA, les Ministral de Mistral et Claude d’Anthropic sont tous denses et restent très performants.

Lois de scaling : sparse vs. dense

Les lois de scaling décrivent comment la performance d’un modèle évolue en fonction de sa taille, de ses données et de son budget de calcul. Des travaux récents ont cherché à unifier ces lois pour les modèles denses et sparse.

Le constat clé : à budget de calcul fixe (même nombre de FLOPs d’entraînement), un modèle MoE peut surpasser un modèle dense en performance. Le modèle DeepSeekMoE 16B (2,5B paramètres actifs) atteint des performances comparables à LLaMA 2 7B tout en ne consommant que 40 % du calcul. Le GLaM de Google (1,2T paramètres, 64 experts) surpasse un modèle dense de 175B en zero-shot avec moitié moins de FLOPs d’inférence.

Les nuances : la recherche récente montre que l’avantage du MoE dépend du taux d’activation (ratio paramètres actifs / paramètres totaux) et de la taille du modèle. Les gains de la sparsité diminuent rapidement au-delà de 256 experts. L’optimisation du backbone (architecture interne hors MoE) est au moins aussi importante que le ratio de sparsité lui-même.

Un article de février 2026 propose une loi de scaling généralisée applicable aux modèles denses, prunés et MoE. Il démontre que les modèles MoE peuvent surpasser les modèles denses en efficacité mémoire, contrairement aux suppositions antérieures, validé empiriquement jusqu’à 5 milliards de paramètres.

Support hardware de la sparsité

NVIDIA : accélération native de la sparsité

NVIDIA supporte la sparsité à deux niveaux :

Sparsité N:M sur Tensor Cores (depuis Ampere / A100). Les GPU NVIDIA de génération Ampere et ultérieures accélèrent nativement les matrices à sparsité 2:4 (2 valeurs non-nulles par bloc de 4). Cela offre jusqu’à 2× le throughput des opérations denses, sans perte de précision mesurable sur de nombreuses tâches. BERT s’exécute 50 % plus vite avec la sparsité 2:4 sur A100 par rapport au calcul dense.

Optimisations MoE sur Blackwell (GB200 NVL72). La génération Blackwell accélère les modèles MoE d’un facteur 10× par rapport à Hopper (H200). Le format NVFP4 réduit encore l’empreinte mémoire. Le framework NVIDIA Dynamo orchestre l’expert parallelism en séparant prefill et decode sur des GPU différents. Des providers comme DeepInfra ont réduit le coût par million de tokens de 20 cents (Hopper) à 5 cents (Blackwell + NVFP4).

Frameworks et outils

Pour le MoE : vLLM, SGLang et TensorRT-LLM intègrent des optimisations dédiées. MegaBlocks (Databricks/Stanford) traite les matrices d’experts en sparse pour éviter le padding. DeepSpeed-MoE (Microsoft) et Tutel offrent des kernels GPU optimisés.

Pour le pruning : SparseGPT permet le pruning en un passage. Wanda (Pruning by Weights and Activations) offre une alternative plus simple. DeepSparse (Neural Magic, racheté par Red Hat) accélère les modèles prunés sur CPU, atteignant jusqu’à 7× la vitesse des modèles denses sur certaines architectures.

Pour la sparsité d’activation : Amber Pruner combine sparsité d’activation N:M avec quantification W8A8. PowerInfer (Shanghai Jiao Tong University) exploite la sparsité d’activation pour exécuter des LLM sur GPU grand public en ne chargeant que les neurones fréquemment activés.

Convertir un modèle dense en sparse

Plusieurs approches permettent de transformer un modèle dense existant en modèle sparse, sans tout réentraîner :

Pruning post-entraînement (SparseGPT, Wanda). On supprime des poids dans un modèle déjà entraîné, en un seul passage. SparseGPT atteint 50 % de sparsité non structurée sur OPT-175B avec une dégradation minime. L’avantage : rapide, pas de réentraînement. La limite : les taux de sparsité élevés (>60 %) dégradent significativement la qualité.

Conversion dense-to-MoE (ToMoE). La méthode ToMoE (janvier 2026) convertit un modèle dense en MoE par pruning dynamique. Elle découpe les couches FFN en experts, ajoute un routeur, et optimise conjointement le routage et les experts. Sur LLaMA-2 7B, ToMoE conserve des performances correctes avec seulement 50 % des paramètres actifs, surpassant les méthodes de pruning semi-structuré.

DS-MoE (Dense Training, Sparse Inference). Cette approche entraîne un modèle de manière dense (tous les paramètres actifs) puis active la sparsité uniquement à l’inférence. Les experts inutiles pour un token donné sont désactivés dynamiquement. Résultat : 30-40 % des paramètres sont activés à l’inférence avec des performances comparables au modèle dense, et les modèles plus grands tolèrent mieux la sparsité.

Attention au paradoxe mémoire du MoE Convertir un modèle dense en MoE ne réduit pas la mémoire GPU nécessaire. Au contraire, elle peut l’augmenter si des experts sont ajoutés. Le MoE réduit les FLOPs (le calcul), pas forcément la VRAM. Pour réduire la mémoire, combinez le MoE avec de la quantification ou de la distillation.

Combiner les techniques de sparsité

Les différentes formes de sparsité sont complémentaires et se combinent pour des gains cumulés :

MoE + Quantification. C’est la combinaison la plus courante en production. Un modèle MoE (sparsité structurelle) dont les poids sont quantifiés en 4-bit (NVFP4, GPTQ) réduit à la fois les FLOPs (via le MoE) et la mémoire (via la quantification). DeepInfra utilise cette combinaison sur Blackwell pour atteindre 5 cents / million de tokens.

Pruning + Quantification. SparseGPT montre que combiner 50 % de sparsité avec une quantification 4-bit surpasse souvent une quantification seule à 3-bit en termes de qualité à empreinte mémoire comparable.

MoE + Sparsité d’activation. Amber Pruner démontre que la sparsité d’activation N:M est compatible avec les modèles MoE (testé sur Qwen3-30B-A3B). C’est une double sparsité : structurelle (seuls certains experts sont activés) et computationnelle (dans les experts activés, seules certaines activations sont calculées).

MoE + Speculative Decoding. Le speculative decoding utilise un petit modèle brouillon pour prédire plusieurs tokens, vérifiés ensuite par le grand modèle. Together AI applique cette technique sur des modèles MoE pour maximiser le throughput. Les deux approches sont orthogonales : le MoE réduit le coût par token, le speculative decoding réduit le nombre de passages nécessaires.

Limites et défis des modèles sparse

L’avantage hardware du dense

Les GPU modernes sont optimisés pour les opérations denses (GEMM). Sur un A100, la multiplication de matrices denses (GEMM) atteint 2/3 du pic théorique, tandis que la multiplication sparse (SpMM) plafonne à 1/3 du pic, qui lui-même est 16× inférieur au pic dense. Résultat paradoxal : il faut une réduction de travail très importante via la sparsité pour compenser l’avantage d’efficacité du calcul dense. C’est pourquoi la sparsité non structurée, malgré ses taux élevés sur le papier, peine souvent à se traduire en accélérations réelles.

Overhead des métadonnées

Les matrices sparse nécessitent le stockage d’indices pour repérer les éléments non-nuls. En format CSR (Compressed Sparse Row), cet overhead double environ le coût de stockage des seules valeurs non-nulles. Pour les formats N:M, l’overhead est moindre (masques binaires simples), mais il reste non négligeable.

Spécialisation limitée des experts MoE

Contrairement à l’intuition, les experts MoE ne se spécialisent pas nettement par domaine (un expert pour le code, un pour le français, etc.). Les analyses de Mixtral montrent que la spécialisation émerge plutôt sur des patterns syntaxiques (structure de phrase, position du token). C’est un résultat important : les experts ne sont pas des « spécialistes de domaine » mais des « spécialistes de traitement » dont la logique de sélection est subtile et difficile à interpréter.

L’avenir des modèles sparse

Plusieurs tendances convergent vers une adoption croissante de la sparsité :

Sparsité comme paradigme par défaut. En 2026, quasiment tous les modèles frontier open-source sont MoE. La question n’est plus « faut-il utiliser la sparsité ? » mais « quelle forme de sparsité est optimale pour mon cas d’usage ? ».

Hardware dédié. NVIDIA Blackwell (GB200) est explicitement conçu pour les modèles MoE. La prochaine génération Vera Rubin promet de pousser encore plus loin. Le support natif de la sparsité N:M sur Tensor Cores se généralise. L’écart d’efficacité entre calcul dense et sparse se réduit progressivement.

Combinaison des sparsités. La double voire triple sparsité (MoE + pruning + activation sparsity) est un domaine de recherche actif. L’objectif ultime : un modèle qui n’active que les quelques pourcents de paramètres strictement nécessaires pour chaque token, approchant un calcul conditionnel optimal.

Interprétabilité via la sparsité. OpenAI explore la sparsité comme outil d’interprétabilité (« sparse circuits ») : en identifiant les chemins actifs du réseau pour chaque prédiction, on peut mieux comprendre le raisonnement du modèle. La sparsité devient ainsi non seulement un outil d’efficacité mais aussi de transparence.

Verdict

Le concept de « sparse model » englobe bien plus que le seul MoE. C’est un paradigme complet qui inclut le pruning des poids, la sparsité d’activation et l’architecture MoE, chacun avec ses forces et ses limites. En 2026, la combinaison de ces techniques est devenue le standard pour déployer des modèles performants à moindre coût.

Le message clé : si vous travaillez avec des LLM, vous utilisez déjà des modèles sparse (probablement via une API MoE comme DeepSeek ou Mistral) sans forcément le savoir. Comprendre les mécanismes de sparsité vous permet de mieux évaluer les compromis performance/coût/mémoire et de choisir l’architecture optimale pour votre cas d’usage.

Questions fréquentes sur les modèles sparse

Un modèle sparse est-il toujours un modèle MoE ?

Non. Le MoE est une forme de sparsité structurelle, mais un modèle peut être sparse sans être MoE. Un modèle pruné à 50 % (dont la moitié des poids sont nuls) est sparse sans utiliser de routeur ni d’experts. De même, un modèle exploitant la sparsité d’activation (neurones inactifs via ReLU) est sparse de manière dynamique. En 2026, « sparse model » dans le contexte des LLM fait le plus souvent référence au MoE, mais le terme est plus large.

La sparsité dégrade-t-elle la qualité du modèle ?

Cela dépend de la forme et du taux de sparsité. Pour le MoE, la qualité est généralement préservée voire améliorée (le modèle a plus de capacité totale). Pour le pruning, une sparsité modérée (≤50 %) préserve bien la qualité sur les grands modèles, mais les taux élevés (>70 %) entraînent des dégradations significatives. Les grands modèles tolèrent mieux la sparsité que les petits, un phénomène bien documenté dans la littérature.

Peut-on combiner un modèle sparse avec de la quantification ?

Oui, et c’est même recommandé. SparseGPT montre que la combinaison pruning 50 % + quantification 4-bit offre souvent un meilleur compromis qualité/taille que la quantification seule à 3-bit. Pour les modèles MoE, la quantification 4-bit (GPTQ, AWQ, NVFP4) est quasi standard en production pour réduire l’empreinte mémoire massive des experts.

Quel hardware est nécessaire pour accélérer un modèle sparse ?

Pour la sparsité N:M (2:4) : tout GPU NVIDIA de génération Ampere ou ultérieure (A100, H100, RTX 30xx/40xx) offre une accélération native via les Tensor Cores. Pour le MoE : un système multi-GPU avec interconnexion rapide (NVLink) est idéal. NVIDIA GB200 NVL72 (Blackwell) est le système de référence pour les MoE frontier. Pour le pruning non structuré : DeepSparse (Neural Magic / Red Hat) accélère sur CPU ; sur GPU, les gains dépendent fortement de l’implémentation.

Comment savoir si un modèle est sparse ou dense ?

Cherchez ces indices dans la documentation technique : la mention « MoE » ou « Mixture of Experts », deux chiffres de paramètres (totaux et actifs, ex : « 671B/37B »), la mention du nombre d’experts et du top-K, ou des termes comme « sparse activation », « pruned model ». Si la fiche technique ne mentionne qu’un seul chiffre de paramètres sans indication de sparsité, il s’agit probablement d’un modèle dense. Les modèles LLaMA, Claude et les petits Ministral sont denses ; DeepSeek V3, Mistral Large 3 et Qwen3.5 sont sparse (MoE).