Model Size (Taille du Modèle)

La taille d’un modèle d’IA (model size) désigne le nombre total de paramètres (ou poids) qu’il contient. C’est la mesure la plus courante pour comparer les modèles entre eux. Un modèle de 7 milliards de paramètres (7B) est « plus petit » qu’un modèle de 70B, qui est lui-même « plus petit » qu’un modèle de 675B. Plus la taille est grande, plus le modèle peut stocker de connaissances et capturer de patterns, mais plus il coûte cher à entraîner et à exécuter.

Unité de mesure: Nombre de paramètres (en millions M, milliards B, ou trillions T)
Fourchette actuelle (mars 2026): De 270M (Gemma 3 270M) à 675B+ (Mistral Large 3) en paramètres totaux
Distinction MoE: Paramètres totaux (stockés en mémoire) vs paramètres actifs (utilisés par token)
Impact principal: Performance, mémoire GPU requise, coût d’inférence, coût d’entraînement
Relation taille-performance: Non linéaire, décrite par les scaling laws
Tendance 2026: « Bigger is not always better » : les petits modèles spécialisés rivalisent avec les grands généralistes

Les catégories de taille en 2026

Il n’existe pas de classification officielle, mais le marché utilise des fourchettes implicites. Voici les catégories de facto avec les modèles représentatifs de chaque segment.

Catégorie	Paramètres	Usage typique	Matériel requis (inférence)	Exemples
Micro	< 1B	Tâches spécifiques, edge, mobile, embarqué	CPU, téléphone, Raspberry Pi	Gemma 3 270M, Ministral 3B (en INT4)
Petit (Small)	1B – 10B	Classification, extraction, chatbots simples, edge	GPU grand public (8-16 Go VRAM)	Gemma 3 4B, Ministral 8B, Phi-3.5, gpt-oss-20b (3,6B actifs)
Moyen (Medium)	10B – 40B	Assistants généralistes, code, raisonnement modéré	GPU pro (24-48 Go VRAM)	Gemma 3 27B, Qwen 2.5 32B, Mistral Small 4 (6B actifs MoE)
Grand (Large)	40B – 200B	Raisonnement avancé, agents, tâches complexes	Multi-GPU ou GPU pro haut de gamme	Llama 3.3 70B, gpt-oss-120b (5,1B actifs MoE), Llama 4 Scout (17B actifs MoE)
Frontier	200B+	Performance maximale, research, tâches critiques	Cluster multi-GPU (8+ GPU H100/H200)	Mistral Large 3 (675B), DeepSeek V3.2 (685B), Llama 4 Maverick (400B), GLM-5 (744B)

Avec les architectures MoE, la taille ne dit pas tout Mistral Large 3 a 675B de paramètres totaux mais seulement 41B actifs par token. Llama 4 Scout a 109B total mais 17B actifs. La taille totale détermine la mémoire nécessaire (stockage de tous les poids). La taille active détermine le coût de calcul par token. Quand vous comparez des modèles, vérifiez toujours s’il s’agit d’un modèle dense (tous les paramètres actifs) ou MoE (fraction des paramètres actifs).

Relation entre taille et performance

Les scaling laws : plus gros = meilleur, mais jusqu’où ?

Les scaling laws (lois de mise à l’échelle), formalisées par les chercheurs d’OpenAI (Kaplan et al., 2020) puis raffinées par l’équipe Chinchilla de DeepMind (Hoffmann et al., 2022), décrivent une relation prévisible entre la taille du modèle, la quantité de données d’entraînement, le compute utilisé et la performance résultante.

La relation est logarithmique : doubler la taille du modèle ne double pas la performance. Les améliorations deviennent de plus en plus coûteuses à obtenir. Passer de 7B à 70B paramètres apporte un gain significatif. Passer de 70B à 700B apporte un gain mesurable mais proportionnellement plus faible. C’est la loi des rendements décroissants appliquée à l’IA.

Petit modèle spécialisé vs grand modèle généraliste

L’un des enseignements majeurs de 2025-2026 : un petit modèle bien fine-tuné peut surpasser un grand modèle généraliste sur une tâche spécifique. Gemma 3 4B (4 milliards de paramètres), entraîné par distillation depuis Gemini 2.0, rivalise avec Gemma 2 27B sur de nombreux benchmarks. Adaptive ML a fine-tuné un Gemma 3 4B pour SK Telecom qui surpasse des modèles propriétaires beaucoup plus grands sur la modération de contenu multilingue.

Cette réalité a des implications économiques directes : si votre cas d’usage est bien défini (classification, extraction d’entités, résumé dans un domaine spécifique), investir dans le fine-tuning d’un petit modèle est souvent plus rentable que de payer pour un modèle frontier via API.

La taille n’est qu’un facteur parmi d’autres

La performance d’un modèle dépend de trois facteurs principaux, pas seulement de sa taille :

Le nombre de paramètres (la « taille » du modèle)
La quantité et la qualité des données d’entraînement (mesurée en tokens)
Le compute total utilisé (mesuré en FLOPs)

Les recherches post-Chinchilla ont montré qu’on peut « sur-entraîner » un petit modèle (lui donner beaucoup plus de données que la proportion « optimale ») pour obtenir des performances proches d’un modèle plus grand, à condition d’accepter un coût d’entraînement plus élevé. C’est la stratégie adoptée par de nombreux éditeurs de SLM (Small Language Models) en 2025-2026.

L’architecture joue aussi un rôle crucial : un modèle MoE de 400B paramètres (17B actifs) et un modèle dense de 70B n’ont pas du tout les mêmes performances malgré un coût d’inférence comparable.

Taille et coût : les chiffres concrets

Coût d’entraînement

Le coût d’entraînement augmente de façon plus que linéaire avec la taille du modèle, car il faut aussi augmenter le volume de données et le nombre de GPU en parallèle.

Catégorie	Paramètres	Coût estimé	Durée estimée	Matériel type
Petit	~1B	$2K – $15K	1-7 jours	8× RTX 4090
Moyen	~7B	$50K – $500K	2-4 semaines	64× A100
Grand	~70B	$1,2M – $6M	3-8 semaines	256× H200
Frontier	175B+	$25M – $120M	2-4 mois	2 000+ H200
Ultra-frontier	405B+	$80M – $400M	4-8 mois	5 000+ B200

L’exception notable : DeepSeek V3 a été entraîné pour environ 5,6 millions de dollars, une fraction du coût des modèles comparables. Cela illustre que le coût d’entraînement dépend autant de l’efficacité du pipeline (architecture MoE, optimisation du code, qualité des données) que de la taille brute du modèle.

Coût d’inférence

Le coût d’inférence (exécuter le modèle pour répondre à une requête) est directement lié au nombre de paramètres actifs. C’est ici que la distinction dense/MoE est cruciale.

Modèle	Paramètres actifs	Prix API (input/output par 1M tokens)
Gemma 3 27B (dense)	27B	Gratuit (Google AI Studio) à ~$0,10/$0,20
gpt-oss-20b (MoE, 3,6B actifs)	3,6B	Auto-hébergement uniquement
DeepSeek V3.2 (MoE, 37B actifs)	37B	~$0,28 / ~$0,42
Mistral Large 3 (MoE, 41B actifs)	41B	~$0,50 / ~$1,50
Claude Sonnet 4.6 (propriétaire)	Inconnu	$3,00 / $15,00
GPT-5.4 (propriétaire)	Inconnu	$2,50 / $15,00
Claude Opus 4.6 (propriétaire)	Inconnu	$5,00 / $25,00

Taille et mémoire : combien de GPU faut-il ?

La mémoire GPU (VRAM) requise dépend du nombre total de paramètres et de la précision numérique. Pour un modèle dense en FP16 (16 bits par paramètre), comptez environ 2 Go par milliard de paramètres. La quantization à 4 bits divise ce chiffre par 4.

Taille modèle	VRAM en FP16	VRAM en INT4	GPU minimum (inférence)
1B	~2 Go	~0,5 Go	CPU ou GPU basique
7B	~14 Go	~3,5 Go	1× RTX 3090/4090 (24 Go)
27B	~54 Go	~14 Go	1× RTX 4090 (INT4) ou 1× A100 80 Go
70B	~140 Go	~35 Go	2× A100 80 Go ou 1× RTX 4090 (INT4, serré)
400B (MoE)	~800 Go	~200 Go	8× H100 80 Go ou 4× H200 141 Go
675B (MoE)	~1,3 To	~340 Go	8× H100/H200 (avec quantization)

Règle rapide pour estimer la VRAM En FP16 : paramètres (en milliards) × 2 = Go de VRAM. En INT4 : paramètres × 0,5 = Go de VRAM. Ajoutez 20-30 % pour le cache KV et l’overhead d’inférence. Ces chiffres sont des approximations pour l’inférence ; l’entraînement nécessite 2 à 4 fois plus de mémoire.

Tendances de taille en 2026

La course aux paramètres bruts est terminée

En 2020-2023, la tendance était « plus gros = meilleur ». GPT-3 (175B) semblait gigantesque, puis GPT-4 a vraisemblablement dépassé le trillion de paramètres. En 2025-2026, la course s’est réorientée : l’accent est mis sur l’efficacité (faire mieux avec moins) plutôt que sur la taille brute.

Les preuves abondent. gpt-oss-120b (5,1B paramètres actifs) rivalise avec o4-mini d’OpenAI. Gemma 3 4B bat Gemma 2 27B. DeepSeek V3.2 offre des performances frontier avec un coût d’entraînement 10 à 100 fois inférieur aux estimations pour GPT-4. Le consensus de l’industrie est clair : la performance est le produit de la taille × la qualité des données × l’efficacité de l’architecture × la qualité du post-training, et non de la taille seule.

Stratification du marché

Le marché s’est structuré en tiers clairement définis :

Tier 1 (frontier) : GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro. Pour le raisonnement complexe, les tâches critiques, les agents autonomes. Coût élevé (> $5/M tokens output).

Tier 2 (open weights performants) : DeepSeek V3.2, Mistral Large 3, GLM-5, Qwen 3.5. Performance proche du frontier, coût 10 à 40 fois inférieur. Auto-hébergement possible.

Tier 3 (budget/volume) : Gemma 3 4B-27B, Ministral 8B-14B, gpt-oss-20b. Pour la classification, l’extraction, le routage, le résumé à haut volume. Coût quasi nul.

Les équipes les plus matures en 2026 utilisent les trois tiers simultanément, avec un routeur qui dirige chaque requête vers le modèle le plus adapté en termes de rapport qualité/coût.

L’essor des modèles edge et mobile

La catégorie « micro » (< 1B paramètres) connaît une croissance rapide, portée par la demande d'IA on-device. Gemma 3 270M tourne sur un téléphone avec moins de 1 % de batterie pour 25 conversations. Ministral 3B fonctionne sur des appareils à mémoire limitée. gpt-oss-20b (3,6B actifs) tourne avec 16 Go de mémoire. Ces modèles ne rivalisent pas avec les frontier pour le raisonnement complexe, mais ils excellent sur des tâches spécifiques après fine-tuning, et ils offrent des avantages majeurs en termes de latence, de confidentialité et de coût.

Comment la taille est-elle mesurée et communiquée ?

La convention est de compter tous les paramètres entraînables du modèle. Cela inclut les poids des connexions entre neurones, les biais, les paramètres de normalisation et les matrices d’embedding. La taille est exprimée en notation courte : 7B = 7 milliards, 70B = 70 milliards, 1T = 1 trillion (1 000 milliards).

Pour les modèles MoE, deux chiffres sont communiqués : les paramètres totaux (tous les experts) et les paramètres actifs (les experts utilisés par token). Mistral Large 3 est souvent décrit comme « 675B/41B » ou « 675B total, 41B active ». Quand un seul chiffre est donné sans précision, méfiance : il peut s’agir des paramètres totaux (impressionnant sur le papier) ou des paramètres actifs (représentatif du coût réel).

Le piège marketing des paramètres totaux Un modèle MoE à « 675B paramètres » semble beaucoup plus gros qu’un modèle dense à « 70B paramètres ». Mais si le MoE n’active que 41B par token, sa performance par requête est plus comparable à un dense de 70-100B qu’à un dense de 675B. Comparez toujours les paramètres actifs quand vous évaluez le rapport qualité/coût pour l’inférence.

Taille et réglementation

La taille d’un modèle a des implications réglementaires directes. Aux États-Unis, l’Executive Order 14110 de l’administration Biden a introduit des obligations de reporting pour les modèles entraînés avec plus de 10²⁶ FLOPs de compute, ce qui correspond approximativement aux modèles frontier de plus de 100B paramètres. En Europe, le AI Act définit des obligations spécifiques pour les « modèles d’IA à usage général » (GPAI), avec des exigences renforcées pour les modèles présentant des « risques systémiques », un seuil initialement fixé à 10²⁵ FLOPs de compute d’entraînement.

La base de données Epoch AI, mise à jour en mars 2026, recense plus de 3 200 modèles d’IA avec leurs caractéristiques (compute, paramètres, taille du dataset, coût). C’est une ressource de référence pour suivre l’évolution des tailles de modèles et du compute d’entraînement au fil du temps.

Pour les entreprises, le point à retenir est que la taille du modèle que vous déployez peut déclencher des obligations de conformité, selon votre juridiction et le niveau de risque de votre application. Un modèle de 7B fine-tuné pour un usage interne a des obligations très différentes d’un modèle frontier déployé dans un produit grand public.

Verdict

La taille d’un modèle reste un indicateur utile de sa capacité potentielle, mais c’est un indicateur de plus en plus trompeur quand il est pris isolément. En 2026, l’efficacité (architectures MoE, distillation, données de haute qualité, post-training sophistiqué) compte autant, sinon plus, que la taille brute.

Pour choisir un modèle, ne partez pas de la taille. Partez de votre cas d’usage, de votre budget d’inférence et de vos contraintes matérielles. Un modèle de 4B bien fine-tuné sur votre domaine peut battre un modèle frontier de 675B sur votre tâche spécifique, pour un coût 100 fois inférieur. La bonne question n’est pas « quel est le plus gros modèle ? » mais « quel est le plus petit modèle qui résout mon problème avec la qualité requise ? ».

FAQ

Comment se mesure la taille d’un modèle d’IA ?

La taille se mesure en nombre de paramètres entraînables. Un paramètre est une valeur numérique apprise pendant l’entraînement (poids, biais, etc.). La convention utilise « B » pour milliards (billion en anglais) et « M » pour millions. Un modèle « 70B » contient 70 milliards de paramètres. Pour les modèles MoE, deux chiffres sont importants : les paramètres totaux (tous les experts) et les paramètres actifs (ceux utilisés pour chaque token).

Un modèle plus gros est-il toujours meilleur ?

Non. La performance dépend de la taille, de la qualité des données, de l’architecture et du pipeline d’entraînement. Un petit modèle bien entraîné (Gemma 3 4B, distillé depuis Gemini 2.0) peut battre un modèle 7 fois plus grand de la génération précédente (Gemma 2 27B). En 2026, la tendance est à l’efficacité : faire mieux avec moins plutôt que d’empiler des paramètres.

Quelle taille de modèle peut tourner sur un PC grand public ?

Avec un GPU RTX 4090 (24 Go VRAM), vous pouvez exécuter un modèle dense de 7B en FP16 ou un modèle de 27B en quantization INT4 via Ollama ou llama.cpp. En quantization plus agressive (INT3-INT4), certains modèles de 70B peuvent tourner sur 24 Go de VRAM avec une qualité légèrement dégradée. Les modèles MoE de type gpt-oss-20b (3,6B actifs) fonctionnent avec seulement 16 Go de mémoire.

Pourquoi les modèles propriétaires ne publient-ils pas leur nombre de paramètres ?

C’est un choix stratégique. OpenAI n’a pas publié la taille de GPT-4 ni de GPT-5.4. Anthropic ne publie pas la taille de Claude. Google ne détaille pas Gemini. La taille du modèle fait partie de la propriété intellectuelle : elle révèle l’investissement en compute, le coût d’inférence réel, et indirectement les choix architecturaux. Publier ces chiffres aiderait les concurrents à calibrer leur propre recherche.

Quelle est la taille optimale pour un cas d’usage professionnel ?

Cela dépend entièrement de votre tâche. Pour de la classification ou de l’extraction de données, un modèle de 1B-7B fine-tuné suffit souvent. Pour un assistant conversationnel généraliste, 7B-27B offre un bon équilibre. Pour du raisonnement complexe, de la génération de code avancée ou des agents autonomes, les modèles frontier (> 40B actifs) restent supérieurs. La bonne approche en 2026 est d’utiliser plusieurs modèles de tailles différentes avec un routeur qui sélectionne le bon modèle pour chaque requête.