Billion Parameters (Milliards de Paramètres)
L’expression « billion parameters » (milliards de paramètres) désigne l’ordre de grandeur des paramètres des modèles d’IA modernes. Un modèle de « 7B » contient 7 milliards de valeurs numériques apprises. Le « B » est l’abréviation de « billion » en anglais, soit un milliard (109) en français. C’est l’unité standard pour exprimer la taille d’un modèle d’IA, de la même façon qu’on mesure la mémoire en gigaoctets ou la vitesse réseau en gigabits.
- 1B (1 billion)
- 1 milliard de paramètres = 109 paramètres
- Notation courante
- 7B, 13B, 27B, 70B, 405B, 675B
- Taille mémoire (FP16)
- ~2 Go par milliard de paramètres
- Fourchette actuelle (mars 2026)
- De 0,27B (Gemma 3 270M) à 744B (GLM-5) en paramètres totaux
- Échelle supérieure
- Trillion parameters (1T = 1 000B = 1012)
- Piège linguistique
- En anglais, « billion » = milliard (109). En français historique, « billion » = 1012. L’usage IA suit la convention anglaise.
Pourquoi les modèles d’IA se comptent en milliards
Les LLM modernes contiennent des milliards de poids pour une raison simple : le langage humain est extraordinairement complexe. Pour encoder les patterns grammaticaux, les connaissances factuelles, les conventions stylistiques, les structures de raisonnement et les nuances multilingues présents dans des trillions de tokens de texte, il faut des milliards de « boutons de réglage » (les paramètres).
La progression a été rapide. GPT-1 (2018) comptait 117 millions de paramètres. GPT-2 (2019) en avait 1,5 milliard. GPT-3 (2020) a franchi la barre des 175 milliards. Les modèles frontier de 2025-2026 atteignent 400B à 744B paramètres totaux. En moins de 8 ans, la taille a été multipliée par plus de 6 000.
Cette croissance a été alimentée par les scaling laws, qui ont montré une relation prévisible entre le nombre de paramètres et la performance. Mais la course aux milliards bruts s’est transformée : avec les architectures MoE, c’est le nombre de paramètres actifs (typiquement 17B à 41B) qui détermine le coût réel, pas les paramètres totaux.
La confusion billion/milliard
Le terme « billion » a des significations différentes selon les langues, ce qui crée une confusion récurrente :
| Terme | En anglais | En français traditionnel | Convention IA |
|---|---|---|---|
| Million (M) | 106 (1 000 000) | 106 | 106 |
| Billion (B) | 109 (1 000 000 000) | 1012 (mille milliards) | 109 (= milliard) |
| Trillion (T) | 1012 (1 000 000 000 000) | 1018 | 1012 (= mille milliards) |
Dans le domaine de l’IA, la convention anglaise est universelle. Quand on écrit « 70B parameters », cela signifie toujours 70 milliards (70 × 109), jamais 70 × 1012. De même, « 1T parameters » signifie 1 000 milliards (1012). Sur Polydesk, nous utilisons systématiquement la convention anglaise pour la cohérence avec la littérature technique.
Les catégories de taille en milliards de paramètres
L’industrie a développé un vocabulaire implicite pour classer les modèles par leur nombre de paramètres.
| Catégorie | Taille | Exemples (mars 2026) | Usage typique | Matériel minimum |
|---|---|---|---|---|
| Micro | < 1B | Gemma 3 270M, Ministral 3B (quantifié) | Edge, mobile, tâches spécifiques | CPU, téléphone |
| SLM (Small) | 1B – 10B | Gemma 3 4B, Ministral 8B, gpt-oss-20b (3,6B actifs) | Classification, extraction, chatbots simples | 1 GPU 16-24 Go |
| Moyen | 10B – 40B | Gemma 3 27B, Qwen 2.5 32B | Assistants généralistes, code, résumé | 1 GPU 48-80 Go |
| Grand | 40B – 200B | Llama 3.3 70B, gpt-oss-120b (5,1B actifs) | Raisonnement avancé, agents | 2+ GPU 80 Go |
| Frontier | 200B+ | Mistral Large 3 (675B), GLM-5 (744B), Llama 4 Maverick (400B) | Performance maximale | 8+ GPU H100/H200 |
Ce que les milliards de paramètres signifient concrètement
Impact sur la mémoire
La règle simple : en FP16 (16 bits, précision standard), chaque milliard de paramètres occupe environ 2 Go de mémoire GPU. Un modèle de 7B occupe ~14 Go. Un modèle de 70B occupe ~140 Go. Un modèle de 675B occupe ~1,35 To.
La quantization change radicalement cette équation. En INT4 (4 bits), chaque milliard de paramètres occupe seulement ~0,5 Go. Le même modèle de 70B passe de 140 Go à ~35 Go, ce qui le rend accessible sur un ou deux GPU grand public (RTX 4090, 24 Go VRAM).
Impact sur le coût d’entraînement
Le coût d’entraînement est approximativement proportionnel à N × D × 6 (paramètres × tokens × 6 FLOPs). Un modèle de 7B entraîné sur 1T tokens coûte environ $50K-$500K selon le matériel. Un modèle de 70B sur 15T tokens coûte $1-6M. Un modèle de 405B sur 15T tokens coûte $80-400M. Chaque ordre de grandeur supplémentaire en paramètres multiplie le coût de façon plus que linéaire, car il faut aussi plus de données et plus de GPU en parallèle.
Impact sur le coût d’inférence
Le coût d’inférence (coût par requête) est proportionnel au nombre de paramètres actifs. C’est ici que la distinction MoE/dense est cruciale. Un modèle MoE de 675B avec 41B actifs coûte à peu près autant en inférence qu’un modèle dense de 40-50B, pas qu’un dense de 675B. C’est la raison économique fondamentale de l’adoption massive des architectures MoE en 2025-2026.
Impact sur la performance
La performance croît de façon logarithmique avec le nombre de paramètres. Passer de 7B à 70B apporte un gain significatif et mesurable sur les benchmarks. Passer de 70B à 700B apporte un gain plus faible en proportion. Les scaling laws décrivent cette relation : la loss diminue en loi de puissance (L ∝ N-α), avec des rendements décroissants.
Mais le nombre de paramètres n’est qu’un facteur. La qualité des données, l’architecture, et le pipeline de post-training (RLHF, distillation) sont au moins aussi importants. Un modèle de 4B bien distillé (Gemma 3 4B depuis Gemini 2.0) peut rivaliser avec un modèle de 27B de la génération précédente.
L’évolution du nombre de paramètres
La croissance du nombre de paramètres des modèles d’IA a suivi une courbe exponentielle pendant plusieurs années, avant de bifurquer vers les architectures MoE.
2018-2020 : L’ère de l’escalade dense. GPT-1 (117M) → GPT-2 (1,5B) → GPT-3 (175B). Chaque génération multiplie la taille par 10 à 100. La croyance dominante est que « plus gros = meilleur ».
2022 : Le tournant Chinchilla. DeepMind montre qu’un modèle de 70B entraîné sur plus de données bat un modèle de 280B entraîné sur moins. L’attention se déplace de la taille vers l’équilibre taille/données.
2023-2024 : Le sur-entraînement intentionnel. Meta entraîne Llama 3 8B sur 15T tokens (ratio ~1 875 tokens/paramètre, soit 94× Chinchilla). Les petits modèles sur-entraînés deviennent la norme pour le déploiement.
2025-2026 : L’ère MoE. Les paramètres totaux explosent (675B-744B) mais les paramètres actifs se stabilisent autour de 17B-41B. La notion même de « taille du modèle » devient ambiguë. DeepSeek V3.2 (685B total, 37B actifs) offre des performances frontier pour un coût d’inférence comparable à un modèle dense de 40B.
Le rapport qualité/coût par catégorie de taille
En mars 2026, voici les rapports qualité/coût typiques par catégorie :
| Catégorie | Modèle représentatif | Prix API typique (output/1M tokens) | Performance relative | Cas d’usage optimal |
|---|---|---|---|---|
| Budget (< 10B actifs) | Gemma 3 4B, Ministral 8B | Gratuit à ~$0,10 | Bonne pour tâches spécifiques | Classification, extraction, edge |
| Mid-range (10B-40B actifs) | Gemma 3 27B, DeepSeek V3.2 (37B actifs) | ~$0,42 – $1,50 | Très bonne, proche du frontier | Assistants, code, résumé, volume |
| Frontier (40B+ actifs) | Claude Opus 4.6, GPT-5.4 | $15 – $25 | Maximale | Raisonnement complexe, agents, tâches critiques |
L’écart de prix entre le budget et le frontier est de 100 à 250×. L’écart de performance est de l’ordre de 5 à 15 points sur les benchmarks de raisonnement. Pour de nombreuses tâches opérationnelles (classification, extraction, résumé), la catégorie mid-range offre un rapport qualité/prix imbattable. Les équipes les plus matures utilisent un routeur qui dirige chaque requête vers la catégorie appropriée.
Les milliards inconnus : les modèles propriétaires
Un détail important : les principaux modèles propriétaires ne publient pas leur nombre de paramètres. OpenAI n’a jamais confirmé la taille de GPT-4 ni de GPT-5.4. Anthropic ne publie pas la taille de Claude. Google ne détaille pas Gemini.
Des fuites et analyses indirectes suggèrent que GPT-4 utiliserait une architecture MoE avec un nombre total de paramètres supérieur au trillion. Mais ces chiffres ne sont pas confirmés officiellement. Le choix de ne pas publier la taille est stratégique : cela empêche les concurrents de calibrer précisément leur investissement en compute pour égaler les performances.
Cette opacité est un contraste frappant avec les modèles open weights comme Mistral Large 3 (675B/41B confirmés), DeepSeek V3.2 (685B/37B confirmés), ou GLM-5 (744B/40B confirmés), où chaque détail architectural est documenté dans des rapports techniques publics.
Les milliards de paramètres dans la réglementation
Le nombre de paramètres a un rôle indirect dans la réglementation de l’IA. L’AI Act européen et l’Executive Order américain 14110 utilisent les FLOPs d’entraînement (pas le nombre de paramètres directement) comme seuil pour les obligations renforcées. Mais puisque le compute d’entraînement est approximativement proportionnel à N × D × 6 (paramètres × tokens × 6), le nombre de paramètres est un composant direct du calcul du seuil.
En pratique, un modèle de 70B entraîné sur 1,4T tokens consomme environ 5,9 × 1023 FLOPs, bien en dessous du seuil AI Act (1025). Un modèle de 405B entraîné sur 15T tokens atteint environ 3,8 × 1025 FLOPs, au-dessus du seuil. Le nombre de paramètres n’est donc pas directement réglementé, mais il influence fortement le compute total qui, lui, est soumis à des seuils réglementaires.
Pour les organisations qui déploient des modèles, la question réglementaire porte davantage sur le niveau de risque de l’application (haut risque, usage général, etc.) que sur la taille brute du modèle utilisé. Un modèle de 7B déployé dans un système de diagnostic médical automatisé peut être soumis à des obligations plus strictes qu’un modèle frontier utilisé pour de la rédaction marketing.
Milliards de paramètres et coût total de possession
Pour une entreprise qui évalue un modèle d’IA, le nombre de paramètres se traduit en coûts concrets :
Coût d’infrastructure. Chaque milliard de paramètres en FP16 nécessite ~2 Go de VRAM. À $3/h pour un GPU H100 de 80 Go, un modèle de 70B (qui nécessite deux H100) coûte $6/h juste en location GPU. Un modèle de 7B sur un seul RTX 4090 à $0,60/h est 10 fois moins cher. La quantization INT4 divise les besoins VRAM par 4, permettant au modèle de 70B de tenir sur un seul GPU en conditions optimales.
Coût API. Les fournisseurs d’API facturent un prix qui reflète (entre autres) le nombre de paramètres actifs. DeepSeek V3.2 (37B actifs) facture $0,42/M tokens output. Claude Sonnet 4.6 (taille non publiée mais vraisemblablement plus grand) facture $15/M tokens output. L’écart de ~35× reflète la différence de paramètres actifs, l’infrastructure, le support et la marge commerciale.
Coût de fine-tuning. Le fine-tuning complet requiert 4 à 8× la mémoire des paramètres en FP16. Pour un modèle de 7B : ~56-112 Go (faisable sur un A100 80 Go). Pour un 70B : ~560 Go-1,1 To (nécessite 8+ GPU). LoRA réduit ces besoins de 10 à 100×, rendant le fine-tuning de modèles de 70B faisable sur un seul GPU haut de gamme.
Verdict
Le nombre de milliards de paramètres est la mesure la plus citée pour comparer les modèles d’IA. C’est un indicateur utile de la capacité potentielle du modèle et de ses exigences en matériel. Mais c’est un indicateur de moins en moins suffisant pris isolément.
Avec les architectures MoE, il faut distinguer paramètres totaux et paramètres actifs. Avec la distillation et le sur-entraînement, un modèle de 4B peut rivaliser avec un modèle de 27B. Avec la quantization, un modèle de 70B peut tourner sur du matériel grand public.
La bonne approche en 2026 : utilisez le nombre de paramètres comme premier filtre (pour estimer les besoins en matériel), puis évaluez la performance réelle sur votre cas d’usage spécifique. Le modèle le plus performant pour vous n’est pas forcément le plus gros, c’est celui qui offre le meilleur rapport qualité/coût d’inférence pour votre tâche.
FAQ
Que signifie « 7B parameters » ?
Cela signifie que le modèle contient 7 milliards de paramètres (7 × 109 valeurs numériques apprises). Le « B » vient de « billion » en anglais, qui correspond à un milliard en français. En mémoire FP16, cela occupe environ 14 Go. C’est une taille typique pour un modèle qui peut tourner sur un GPU grand public (RTX 4090, 24 Go VRAM).
Pourquoi « billion » en anglais ne signifie-t-il pas la même chose qu’en français ?
C’est une différence historique entre les systèmes d’échelle longue (français, où billion = 1012) et d’échelle courte (anglais, où billion = 109). Dans le domaine de l’IA, la convention anglaise est universellement adoptée. Quand un papier ou un communiqué mentionne « 70B parameters », cela signifie toujours 70 milliards (70 × 109), jamais 70 × 1012.
Combien de milliards de paramètres faut-il pour un chatbot performant ?
Pour un chatbot conversationnel généraliste de bonne qualité, la fourchette 7B-27B paramètres offre un bon rapport qualité/coût. Gemma 3 27B ou Llama 3.3 70B (en INT4) donnent d’excellents résultats pour la plupart des cas d’usage. Pour du raisonnement complexe ou des agents autonomes, les modèles frontier (40B+ paramètres actifs) restent supérieurs. Pour un chatbot de support simple (FAQ, routage), un modèle de 1B-4B fine-tuné peut suffire.
Un modèle de 675B paramètres est-il 10 fois meilleur qu’un modèle de 70B ?
Non. La relation entre taille et performance est logarithmique, pas linéaire. Un modèle de 675B est meilleur qu’un modèle de 70B, mais la différence est mesurée en quelques points de pourcentage sur les benchmarks, pas en facteur 10. Et si le modèle de 675B est MoE (comme Mistral Large 3, avec 41B paramètres actifs), sa performance par requête est comparable à un modèle dense de 50-100B, pas de 675B. L’avantage du MoE est d’avoir une « mémoire » de 675B mais un « coût de réflexion » de 41B.
Les modèles vont-ils continuer à grossir en milliards de paramètres ?
En paramètres totaux, oui (les architectures MoE permettent d’augmenter la capacité sans augmenter proportionnellement le coût d’inférence). En paramètres actifs, la tendance est plus à la stabilisation autour de 17B-41B pour les modèles frontier, et à l’amélioration de l’efficacité par paramètre (distillation, données de meilleure qualité, post-training plus sophistiqué). La « densing law » montre que la performance par paramètre double tous les 3,5 mois. L’avenir est à des modèles plus intelligents par milliard de paramètres, pas nécessairement à des modèles avec plus de milliards.