Trillion Parameters (Mille Milliards de Paramètres)
L’expression « trillion parameters » désigne un modèle d’IA contenant mille milliards (1012) de paramètres ou plus. C’est l’échelle au-delà du billion (milliard), atteinte pour la première fois par le Switch Transformer de Google (1,6T paramètres) en 2021. En 2026, les estimations non confirmées attribuent à GPT-4 environ 1,76T paramètres, et DeepSeek V4 cible 1T paramètres. Le trillion est devenu le seuil symbolique de l’IA « frontier », même si les paramètres actifs par token restent bien en dessous grâce aux architectures MoE.
- 1T (1 trillion)
- 1 000 milliards de paramètres = 1012 paramètres = 1 000B
- Convention
- Trillion en anglais = 1012 (mille milliards en français)
- Premier modèle 1T+
- Switch Transformer (Google, 2021) : 1,6T paramètres, architecture MoE
- Modèle propriétaire présumé
- GPT-4 : estimé à ~1,76T paramètres totaux (non confirmé par OpenAI)
- Modèle annoncé
- DeepSeek V4 : ~1T paramètres totaux ciblés (32B actifs)
- Taille mémoire
- ~2 To en FP16, ~500 Go en INT4
- Paramètres actifs typiques
- 32B-50B par token (grâce au MoE)
Que signifie concrètement « trillion parameters » ?
Un modèle à 1 trillion de paramètres contient 1 000 000 000 000 (mille milliards) de valeurs numériques apprises pendant l’entraînement. Si vous écriviez chaque paramètre sur un grain de riz, vous rempliriez environ 10 000 piscines olympiques. C’est un ordre de grandeur comparable au nombre estimé de synapses dans le cerveau humain (~100 trillions), ce qui a alimenté de nombreuses analogies (souvent trompeuses) entre les LLM et le cerveau biologique.
En pratique, un modèle de 1T paramètres en FP16 occupe environ 2 To (2 000 Go) de mémoire. C’est bien au-delà de la capacité d’un seul GPU (le B200, le plus grand GPU datacenter actuel, offre 192 Go). Même un cluster de 8 GPU H200 (141 Go × 8 = 1,13 To) ne suffit pas en FP16. Les modèles à l’échelle du trillion nécessitent des architectures MoE (qui n’activent qu’une fraction des paramètres) et/ou de la quantization agressive (INT4 divise la taille par 4, ramenant 2 To à ~500 Go).
L’histoire du seuil du trillion
Switch Transformer (Google, 2021) : le premier trillion
Le premier modèle à franchir le cap du trillion de paramètres est le Switch Transformer de Google Brain, publié en janvier 2021 par William Fedus, Barret Zoph et Noam Shazeer. Avec 1,6 trillion de paramètres répartis sur 2 048 experts, c’est un modèle MoE qui n’active qu’un seul expert par token (top-1 routing).
L’innovation clé du Switch Transformer était de simplifier le routage MoE (un seul expert au lieu de deux ou plus) et de démontrer qu’on pouvait entraîner un modèle sparse de cette taille de façon stable, y compris en précision bfloat16. Le modèle a obtenu un gain de vitesse d’entraînement de 7× par rapport au T5-XXL pour des ressources de calcul comparables.
Le Switch Transformer a été open-sourcé par Google, ce qui en fait un jalon important dans la recherche sur les MoE. Il a ouvert la voie à tous les modèles MoE massifs qui ont suivi : Mixtral, DeepSeek V3, Mistral Large 3, Llama 4.
WuDao 2.0 (BAAI, 2021) : 1,75T paramètres
Quelques mois après le Switch Transformer, la Beijing Academy of Artificial Intelligence (BAAI) a annoncé WuDao 2.0, un modèle de 1,75 trillion de paramètres utilisant une implémentation MoE appelée FastMoE. Les informations détaillées en anglais sur ce modèle sont restées limitées, mais il illustre la course au trillion de paramètres qui s’est engagée entre les laboratoires américains et chinois dès 2021.
GPT-4 (OpenAI, 2023) : le trillion présumé
OpenAI n’a jamais officiellement confirmé la taille de GPT-4, ce qui en fait le modèle frontier le plus discuté et le moins documenté. Des fuites et analyses indirectes (notamment publiées par plusieurs sources techniques en 2023-2024) suggèrent que GPT-4 utiliserait une architecture MoE avec environ 1,76 trillion de paramètres totaux répartis sur 8 experts, avec seulement une fraction activée par token.
Si ces estimations sont correctes, GPT-4 serait le premier modèle propriétaire à l’échelle du trillion déployé massivement en production (via ChatGPT et l’API OpenAI). C’est un point important : le Switch Transformer était un modèle de recherche jamais déployé à grande échelle. GPT-4 a été utilisé par des centaines de millions de personnes.
DeepSeek V4 (2026) : le trillion chinois accessible
DeepSeek V4, annoncé pour début 2026, cible environ 1 trillion de paramètres totaux avec seulement 32B actifs par token. Si les spécifications rapportées se confirment, DeepSeek V4 serait le premier modèle à l’échelle du trillion publié sous licence open source (Apache 2.0), un contraste frappant avec le secret entourant GPT-4.
L’architecture de DeepSeek V4 intègre trois innovations : Manifold-Constrained Hyper-Connections (mHC) pour la stabilité d’entraînement, Engram pour la mémoire conditionnelle, et DeepSeek Sparse Attention (DSA) pour réduire le coût d’attention sur les longs contextes (1M tokens). Le modèle serait optimisé pour les puces Huawei et Cambricon en plus des GPU NVIDIA, reflétant la volonté chinoise de réduire la dépendance aux technologies américaines.
Trillion de paramètres totaux, dizaines de milliards de paramètres actifs
Le point crucial : aucun modèle à l’échelle du trillion n’active tous ses paramètres pour chaque token. Sans exception, les modèles 1T+ utilisent des architectures MoE (ou apparentées) qui n’activent que 2 à 5 % des paramètres totaux par token.
| Modèle | Paramètres totaux | Paramètres actifs (estimés) | Ratio actifs/totaux |
|---|---|---|---|
| Switch Transformer | 1,6T | ~équivalent T5-XXL | ~1-2 % |
| GPT-4 (estimé) | ~1,76T | ~220B (estimé) | ~12 % |
| DeepSeek V4 (annoncé) | ~1T | ~32B | ~3 % |
Cela signifie qu’un modèle de « 1 trillion de paramètres » a le coût d’inférence d’un modèle dense de 30B à 220B, pas d’un modèle dense d’un trillion. Le trillion représente la capacité de stockage de connaissances du modèle (sa « mémoire »), pas son coût de calcul par requête.
Pourquoi aller au-delà de 1 trillion ?
Capacité de stockage des connaissances
Plus un modèle a de paramètres (même inactifs par token), plus il peut stocker de patterns, de connaissances factuelles et de compétences spécialisées. Avec un trillion de paramètres répartis sur des centaines d’experts, chaque expert peut se spécialiser dans un domaine (code, mathématiques, multilingue, raisonnement logique) sans interférer avec les autres. C’est l’avantage fondamental du MoE à très grande échelle.
Capacités émergentes
Certaines capacités des LLM n’apparaissent qu’au-delà d’une certaine échelle. Le raisonnement complexe, la résolution de problèmes multi-étapes, et la capacité de suivre des instructions subtiles s’améliorent de façon non linéaire avec la taille du modèle. Les chercheurs d’Anthropic ont suggéré que certaines formes de raisonnement complexe nécessitent plus d’un trillion de paramètres.
Multimodalité native
Les modèles multimodaux (texte + images + vidéo + audio) nécessitent intrinsèquement plus de paramètres pour encoder les patterns de chaque modalité. DeepSeek V4 est conçu comme nativement multimodal, ce qui justifie en partie sa taille au-delà du trillion. Les experts MoE peuvent se spécialiser par modalité, ce qui est plus efficace que de forcer un réseau dense à traiter toutes les modalités simultanément.
Les défis techniques de l’échelle trillion
Mémoire et stockage
1T paramètres en FP16 = ~2 To. Même en INT4, c’est ~500 Go. Le chargement des poids nécessite un cluster de GPU avec une mémoire combinée suffisante, et le transfert entre les GPU via NVLink/InfiniBand ajoute de la latence. Les architectures de déploiement comme le GB200 NVL72 de NVIDIA (72 GPU B200, mémoire combinée > 13 To) sont conçues spécifiquement pour ces modèles.
Stabilité d’entraînement
Entraîner un modèle de 1T+ paramètres est un défi d’ingénierie considérable. Les problèmes de stabilité numérique, de load balancing entre experts, et de communication inter-GPU sont amplifiés à cette échelle. DeepSeek V4 a développé mHC (Manifold-Constrained Hyper-Connections) spécifiquement pour contrôler l’amplification des signaux, réduisant les instabilités de 3 000× à 1,6× par rapport aux méthodes non contraintes.
Coût d’entraînement
L’entraînement d’un modèle de 1T paramètres sur des trillions de tokens consomme un compute considérable. GPT-4 aurait coûté plus de 100 millions de dollars en compute d’entraînement selon les estimations. DeepSeek V4 vise un coût radicalement inférieur grâce à ses innovations architecturales et à l’efficacité de son pipeline. La promesse d’un modèle à l’échelle du trillion pour une fraction du coût des modèles occidentaux est l’un des enjeux stratégiques majeurs de la compétition IA entre les États-Unis et la Chine.
Le trillion dans le contexte réglementaire
Un modèle de 1T paramètres entraîné sur des trillions de tokens dépasse largement les seuils réglementaires actuels. Avec la formule C ≈ 6 × N × D, un modèle de 1T entraîné sur 10T tokens consomme environ 6 × 1025 FLOPs, au-dessus du seuil AI Act européen (1025) et proche du seuil de l’Executive Order américain (1026). Les obligations de reporting, d’évaluation des risques et de tests adversariaux s’appliquent donc pleinement à ces modèles.
Au-delà du trillion : quelle est la prochaine étape ?
Certaines projections (Epoch AI, analyses sectorielles) envisagent des modèles de 5 à 10 trillions de paramètres d’ici 2027-2028, rendus possibles par les GPU de prochaine génération (NVIDIA Vera Rubin avec HBM4 à 288 Go par GPU, 13 TB/s de bande passante) et les progrès en MoE et en sparsité.
Mais la course aux paramètres bruts n’est plus le seul axe de progrès. La « densing law » (Xiao et al., 2025) montre que la performance par paramètre double tous les 3,5 mois. Un modèle de 1T paramètres de 2028 sera beaucoup plus performant qu’un modèle de 1T de 2024, non pas grâce à plus de paramètres, mais grâce à de meilleures architectures, de meilleures données et de meilleures techniques d’entraînement.
Le test-time compute (compute alloué au moment de l’inférence, via des modèles de raisonnement comme o3 ou Extended Thinking) ajoute un autre axe : un modèle de 70B qui « réfléchit » pendant 30 secondes peut battre un modèle de 1T qui répond en 2 secondes sur des tâches de raisonnement complexe. La taille en paramètres reste un facteur, mais elle n’est plus le seul levier de performance.
L’économie du trillion de paramètres
L’échelle du trillion a des implications économiques considérables, tant pour l’entraînement que pour l’inférence.
Coût d’entraînement
Avec la formule C ≈ 6 × N × D, un modèle de 1T paramètres entraîné sur 13T tokens (estimation pour GPT-4) consomme environ 7,8 × 1025 FLOPs. Sur un cluster de 10 000 GPU A100 (le type de cluster utilisé par OpenAI pour GPT-4), à un taux d’utilisation de 50 %, cela représente environ 3 à 4 mois d’entraînement et un coût estimé à plus de 100 millions de dollars en compute seul, sans compter les salaires des chercheurs, l’infrastructure réseau et l’énergie.
DeepSeek V4, en ciblant 1T paramètres avec ses innovations architecturales (mHC, Engram, DSA) et en optimisant pour des puces chinoises, vise un coût radicalement inférieur. Si DeepSeek parvient à entraîner un modèle à l’échelle du trillion pour 10 à 20 millions de dollars (comme le suggèrent les analyses sectorielles), cela représenterait une division par 5 à 10 du coût par rapport aux estimations pour GPT-4. C’est l’enjeu géoéconomique central de la course au trillion.
Coût d’inférence
Le coût d’inférence d’un modèle au trillion dépend entièrement de ses paramètres actifs. DeepSeek V4, avec 32B actifs sur 1T total, projette un coût de $0,10-0,30 par million de tokens en input, soit 10 à 50 fois moins cher que GPT-5.4 ($2,50/M input). Si ces projections se confirment, le trillion de paramètres deviendrait accessible aux mêmes tarifs que les modèles mid-range actuels, ce qui redéfinirait complètement la grille tarifaire du marché.
Le point clé : l’économie du trillion n’est pas l’économie de l’exécution de mille milliards de paramètres par token. C’est l’économie de 32B paramètres actifs puisant dans une « mémoire » d’un trillion. La distinction MoE rend le trillion économiquement viable là où un modèle dense d’un trillion serait prohibitif.
Le trillion est-il nécessaire ?
La question pratique pour les entreprises : un modèle à l’échelle du trillion est-il significativement meilleur qu’un modèle de 675B ou 744B paramètres totaux ?
Les modèles open weights actuels les plus performants (GLM-5 à 744B, Mistral Large 3 à 675B, DeepSeek V3.2 à 685B) offrent déjà des performances qui rivalisent avec les modèles propriétaires présumés à l’échelle du trillion sur la majorité des benchmarks. L’écart se mesure en quelques points de pourcentage, principalement sur les tâches de raisonnement les plus complexes et les agents autonomes.
Pour la grande majorité des cas d’usage professionnels, les modèles de 400B à 744B paramètres totaux (avec 17B à 41B actifs) suffisent largement. Le trillion est pertinent pour les laboratoires de recherche frontier, les applications nécessitant le raisonnement le plus avancé possible, et les plateformes servant des centaines de millions d’utilisateurs où chaque fraction de pourcentage de qualité a un impact mesurable sur l’engagement.
Verdict
Le trillion de paramètres est un seuil symbolique important dans l’histoire de l’IA, franchi pour la première fois par le Switch Transformer en 2021 et vraisemblablement atteint par GPT-4 en production en 2023. Mais ce chiffre est profondément trompeur s’il est interprété sans contexte.
Un modèle de « 1 trillion de paramètres » n’active que 2 à 12 % de ses paramètres par token. Son coût d’inférence est comparable à celui d’un modèle dense de 30B à 220B, pas d’un modèle dense d’un trillion. Le trillion représente la capacité de stockage, pas le coût opérationnel.
Pour les praticiens, la question n’est pas « ce modèle a-t-il un trillion de paramètres ? » mais « combien de paramètres sont actifs par requête, quel est le coût d’inférence, et quelle performance offre-t-il sur ma tâche spécifique ? ». Les modèles open weights de 675B-744B paramètres totaux (Mistral Large 3, GLM-5), avec 40B actifs, offrent déjà des performances proches des modèles propriétaires présumés à l’échelle du trillion, à une fraction du coût.
FAQ
Que signifie « 1T parameters » pour un modèle d’IA ?
Cela signifie que le modèle contient 1 trillion (1 000 milliards, 1012) de valeurs numériques apprises pendant l’entraînement. En anglais, « trillion » = 1012. En mémoire FP16, cela représente environ 2 To (2 000 Go). Aucun modèle de cette taille ne fonctionne en mode « dense » (tous paramètres actifs). Tous utilisent des architectures MoE qui n’activent que 2 à 12 % des paramètres par token.
GPT-4 a-t-il vraiment un trillion de paramètres ?
OpenAI n’a jamais confirmé la taille de GPT-4. Les estimations les plus citées (basées sur des fuites et des analyses indirectes) suggèrent environ 1,76 trillion de paramètres totaux répartis sur 8 experts MoE, avec environ 220B actifs par token. Ces chiffres sont plausibles mais non vérifiés. OpenAI a délibérément omis tout détail architectural de son rapport technique GPT-4.
Quel est le premier modèle à avoir atteint un trillion de paramètres ?
Le Switch Transformer de Google Brain, publié en janvier 2021, avec 1,6 trillion de paramètres répartis sur 2 048 experts. C’est un modèle MoE qui a démontré qu’on pouvait entraîner des modèles de cette taille de façon stable avec un routage simplifié (top-1). Il a été open-sourcé par Google. WuDao 2.0 (BAAI, Chine) a atteint 1,75T peu après.
Pourquoi un modèle de 1T paramètres n’est-il pas 1 000× meilleur qu’un modèle de 1B ?
Parce que la relation entre taille et performance suit une loi de puissance (logarithmique), pas une relation linéaire. Passer de 1B à 1T (×1 000) apporte une amélioration significative mais mesurée, de l’ordre de 2 à 3× sur les benchmarks, pas 1 000×. De plus, un modèle de 1T est presque certainement MoE, donc seuls 30-200B paramètres sont actifs par token. La performance effective est plus comparable à un modèle dense de cette taille qu’à un dense d’un trillion.
Un modèle de 1 trillion de paramètres peut-il tourner sur du matériel accessible ?
Pas en FP16 (~2 To de mémoire requise). En quantization INT4 (~500 Go), c’est techniquement faisable sur un cluster de 4 à 8 GPU H200 (141 Go chacun) ou un rack de GPU B200 (192 Go chacun). Mais l’architecture MoE rend la question moins pertinente : si seuls 32B paramètres sont actifs par token (comme DeepSeek V4), le goulot d’étranglement n’est pas la taille totale mais la vitesse à laquelle les experts actifs sont chargés et exécutés. Les optimisations MoE (expert parallelism, offloading) permettent de servir ces modèles sur des clusters raisonnables.