Paramètres d’un Modèle IA (Model Parameters)

Les paramètres d’un modèle d’IA sont les valeurs numériques internes que le modèle apprend automatiquement pendant l’entraînement. Ils comprennent principalement les weights (poids), les biases (biais) et les embeddings. Quand on dit qu’un modèle a « 70 milliards de paramètres », cela signifie qu’il contient 70 milliards de ces valeurs numériques. C’est la mesure standard de la taille d’un modèle.

Définition: Valeurs numériques apprises pendant l’entraînement qui déterminent le comportement du modèle
Types principaux: Weights (poids), biases (biais), embeddings, paramètres de normalisation
Unité de comptage: Millions (M), milliards (B), trillions (T)
Fourchette actuelle: De 270M (Gemma 3 270M) à 744B (GLM-5) en paramètres totaux
Appris par: Gradient descent et backpropagation pendant l’entraînement
À ne pas confondre avec: Hyperparamètres (réglés avant l’entraînement, pas appris)
Relation au compute: C ≈ 6 × N × D (N = paramètres, D = tokens, C = FLOPs)

Les trois types de paramètres dans un LLM

Un LLM basé sur l’architecture Transformer contient trois catégories principales de paramètres appris.

1. Embeddings (représentations vectorielles)

Les embeddings sont les paramètres qui convertissent chaque token du vocabulaire en un vecteur numérique de haute dimension. Si le vocabulaire du modèle contient 256 000 tokens et que la dimension du modèle est 4 096, la matrice d’embedding contient 256 000 × 4 096 ≈ 1 milliard de paramètres.

Ces vecteurs capturent la signification de chaque mot en relation avec tous les autres mots, basée sur les patterns observés dans les données d’entraînement. Au début de l’entraînement, ces vecteurs sont aléatoires. À la fin, des mots sémantiquement proches (« roi » et « reine », « Paris » et « France ») ont des vecteurs proches dans l’espace multidimensionnel.

2. Weights et biases (poids et biais)

Les weights (poids) sont les paramètres les plus nombreux. Ils contrôlent la force des connexions entre les neurones dans les couches d’attention et les réseaux feed-forward. Chaque couche d’attention contient des matrices de poids pour les projections Query, Key, Value et Output. Chaque couche feed-forward contient des matrices de poids pour ses transformations.

Les biases (biais) sont des valeurs constantes ajoutées au signal pondéré. Ils permettent aux neurones de s’activer même quand la somme pondérée des entrées est faible. En termes de volume, les biais sont une petite fraction des paramètres totaux (un biais par neurone par couche), mais ils jouent un rôle important dans la flexibilité du modèle.

Ensemble, les weights et biases constituent la grande majorité des paramètres d’un LLM. Chaque neurone dans le modèle contient un biais et des poids pour chaque dimension. Si le modèle a 4 096 dimensions, chaque neurone contient 1 biais + 4 096 poids = 4 097 paramètres.

3. Paramètres de normalisation

Les couches de normalisation (LayerNorm, RMSNorm) contiennent des paramètres de gain (gamma) et de décalage (beta) qui stabilisent les valeurs entre les couches. Ce sont peu de paramètres en proportion du total, mais ils sont critiques pour la stabilité de l’entraînement.

Paramètres vs hyperparamètres

C’est une confusion fréquente. Les deux termes se ressemblent mais sont fondamentalement différents.

Critère	Paramètres	Hyperparamètres
Définis par	L’algorithme d’entraînement (automatiquement)	Les ingénieurs (manuellement, avant l’entraînement)
Appris pendant l’entraînement	Oui	Non
Exemples	Weights, biases, embeddings	Learning rate, batch size, nombre de couches, dimension
Nombre	Milliards à trillions	Dizaines à centaines
Modifiés après l’entraînement	Oui (fine-tuning)	Non (fixés pour cet entraînement)
Stockés dans les fichiers de poids	Oui	Non (dans la configuration)

Quand vous téléchargez un modèle depuis Hugging Face, les fichiers de poids contiennent les paramètres. Le fichier de configuration (config.json) contient les hyperparamètres (nombre de couches, dimension, nombre de têtes d’attention, etc.).

Comment les paramètres sont-ils comptés ?

Le comptage inclut tous les paramètres entraînables du modèle : les matrices d’attention (Q, K, V, O), les couches feed-forward, les embeddings d’entrée, la couche de prédiction de sortie (souvent partagée avec les embeddings), et les paramètres de normalisation.

Pour un Transformer decoder-only typique, le nombre de paramètres peut être approximé par :

N ≈ 12 × L × d²

Où L est le nombre de couches et d la dimension du modèle. Par exemple, un modèle avec 80 couches et une dimension de 8 192 : N ≈ 12 × 80 × 8 192² ≈ 64,4 milliards de paramètres, ce qui correspond approximativement à Llama 3.3 70B (l’écart vient des embeddings et de la couche de sortie non comptés dans cette approximation).

Paramètres totaux vs paramètres actifs (MoE) Pour les modèles Mixture-of-Experts, deux chiffres sont pertinents. Les paramètres totaux (tous les experts, stockés en mémoire) et les paramètres actifs (les experts utilisés par token). Mistral Large 3 a 675B paramètres totaux mais seulement 41B actifs. Les 675B déterminent la mémoire requise. Les 41B déterminent le coût de calcul par requête. Quand un éditeur annonce « 675B paramètres », vérifiez toujours s’il s’agit d’un modèle dense ou MoE.

Relation entre paramètres et performance

Les scaling laws montrent que la performance (mesurée par la loss) s’améliore de façon prévisible quand on augmente le nombre de paramètres, à condition d’augmenter proportionnellement le volume de données. Le papier Chinchilla (DeepMind, 2022) a formalisé le ratio optimal : environ 20 tokens d’entraînement par paramètre pour un entraînement compute-optimal.

Mais plus de paramètres ne signifie pas automatiquement un meilleur modèle. La qualité des données, l’architecture (dense vs MoE), et le pipeline de post-training (RLHF, distillation) comptent au moins autant. Gemma 3 4B, distillé depuis Gemini 2.0, rivalise avec Gemma 2 27B sur de nombreux benchmarks malgré 7 fois moins de paramètres.

La « densing law » (Xiao et al., Nature Machine Intelligence, 2025) montre que la performance par paramètre double environ tous les 3,5 mois dans les modèles open source. Chaque génération fait mieux avec moins de paramètres.

Paramètres et mémoire

Chaque paramètre occupe de l’espace en mémoire. La taille dépend de la précision numérique :

Précision	Octets par paramètre	1B paramètres	70B paramètres	675B paramètres
FP32	4	4 Go	280 Go	2,7 To
FP16 / BF16	2	2 Go	140 Go	1,35 To
FP8	1	1 Go	70 Go	675 Go
INT4	0,5	0,5 Go	35 Go	~340 Go

La quantization (réduction de la précision) est la technique principale pour réduire l’empreinte mémoire. Un modèle de 70B en INT4 (35 Go) peut tenir sur deux GPU RTX 4090 (24 Go chacun), alors qu’en FP16 (140 Go) il nécessite deux GPU A100 80 Go.

Comment les paramètres sont-ils appris ?

Au début de l’entraînement, tous les paramètres sont initialisés avec des valeurs aléatoires. Le modèle ne sait rien et produit des résultats incohérents.

L’entraînement est un processus itératif :

Forward pass : le modèle reçoit des tokens en entrée, les fait passer à travers toutes ses couches (en utilisant les paramètres actuels) et produit une prédiction pour le prochain token
Calcul de la loss : la prédiction est comparée au token réel attendu. L’écart est mesuré par une fonction de perte (cross-entropy loss)
Backpropagation : l’algorithme calcule, pour chaque paramètre, dans quelle mesure il a contribué à l’erreur (le gradient)
Mise à jour : chaque paramètre est ajusté d’un petit montant dans la direction qui réduit l’erreur, selon un algorithme d’optimisation (Adam, SGD, etc.)

Ce cycle se répète des millions de fois. À chaque itération, les paramètres s’ajustent un tout petit peu. Progressivement, le modèle apprend les patterns statistiques du langage : la grammaire, les faits, les conventions stylistiques, les schémas de raisonnement. Après l’entraînement sur des trillions de tokens, les paramètres encodent collectivement une représentation compressée du langage humain.

Personne ne sait exactement ce que fait chaque paramètre individuel. C’est le fonctionnement collectif de milliards de paramètres qui produit le comportement intelligent du modèle. C’est pourquoi l’interprétabilité des LLM est un domaine de recherche actif et crucial.

Modifier les paramètres après l’entraînement

Plusieurs techniques permettent de modifier les paramètres d’un modèle pré-entraîné :

Fine-tuning complet : tous les paramètres sont mis à jour sur un nouveau dataset. Coûteux en mémoire (il faut stocker les gradients pour chaque paramètre) mais offre le maximum de flexibilité.

Fine-tuning efficace en paramètres (PEFT) : seul un sous-ensemble de paramètres est modifié. LoRA est la technique la plus populaire : elle gèle les paramètres originaux et ajoute de petites matrices de rang faible qui sont les seules à être entraînées. Cela réduit la mémoire et le compute nécessaires de 10 à 100 fois.

Quantization : les paramètres sont convertis vers une précision inférieure (FP16 → INT4) pour réduire la taille du modèle et accélérer l’inférence. C’est une modification des paramètres qui échange un peu de qualité contre beaucoup d’efficacité.

Pruning (élagage) : les paramètres dont la valeur est proche de zéro (et qui contribuent peu aux prédictions) sont supprimés. Des recherches montrent que 50 à 70 % des paramètres d’un grand modèle peuvent être élagués avec moins de 1 % de perte de qualité.

Les paramètres en pratique : ce qui compte pour vous

Choisir un modèle par son nombre de paramètres

Le nombre de paramètres est le premier filtre dans le choix d’un modèle. Il détermine directement la mémoire GPU nécessaire et, pour les modèles denses, le coût de calcul par requête. Voici les règles pratiques :

Pour un GPU grand public (RTX 4090, 24 Go VRAM) : vous pouvez exécuter un modèle dense de 7B en FP16 ou un modèle de 13-27B en INT4 via Ollama. Les modèles MoE comme gpt-oss-20b (3,6B actifs, 21B total) fonctionnent également dans cette enveloppe.

Pour un GPU datacenter (A100/H100, 80 Go VRAM) : vous pouvez exécuter un modèle dense de 30-40B en FP16 ou un modèle de 70B en FP8/INT4. C’est le sweet spot pour la plupart des déploiements professionnels.

Pour un cluster multi-GPU (8× H100/H200) : vous accédez aux modèles frontier MoE de 400B-744B paramètres totaux. C’est le territoire de Mistral Large 3, DeepSeek V3.2 et GLM-5.

Paramètres et coût d’inférence

Le coût d’inférence par API est directement corrélé au nombre de paramètres actifs du modèle. DeepSeek V3.2 (37B actifs) est facturé ~$0,28/$0,42 par million de tokens. Claude Sonnet 4.6 (taille non publiée, vraisemblablement plus grand) coûte $3/$15 par million de tokens. Claude Opus 4.6 (encore plus grand) coûte $5/$25. La relation n’est pas strictement linéaire (le coût inclut l’infrastructure, le support, et la marge de l’éditeur), mais le nombre de paramètres actifs en est le principal déterminant technique.

Paramètres et fine-tuning

Le fine-tuning complet d’un modèle nécessite de stocker en mémoire les paramètres du modèle, les gradients, et les états de l’optimiseur. En pratique, cela représente 4 à 8 fois la taille des paramètres en FP16. Un modèle de 7B (14 Go en FP16) nécessite environ 56-112 Go de VRAM pour un fine-tuning complet. LoRA résout ce problème en ne modifiant que 0,1 à 1 % des paramètres, réduisant les besoins mémoire de 10 à 100 fois.

L’évolution du nombre de paramètres

Modèle	Année	Paramètres	Type
GPT-1	2018	117M	Dense
GPT-2	2019	1,5B	Dense
GPT-3	2020	175B	Dense
Chinchilla	2022	70B	Dense
Llama 3.1	2024	405B	Dense
Mistral Large 3	2025	675B total / 41B actifs	MoE
GLM-5	2026	744B total / 40B actifs	MoE
Gemma 3 270M	2025	270M	Dense

Deux tendances coexistent en 2026 : les modèles frontier continuent de croître en paramètres totaux (744B pour GLM-5), mais les paramètres actifs par token restent dans la fourchette 17B-41B grâce aux architectures MoE. En parallèle, les petits modèles ultra-efficaces (Gemma 3 270M, Ministral 3B) démontrent qu’on peut obtenir des résultats utiles avec très peu de paramètres, à condition de les entraîner avec les bonnes données et les bonnes techniques.

Verdict

Les paramètres sont le « savoir » d’un modèle d’IA, stocké sous forme de milliards de valeurs numériques. Comprendre ce qu’ils sont et comment ils fonctionnent est essentiel pour quiconque travaille avec des modèles d’IA, que ce soit pour choisir un modèle, estimer les besoins en matériel, ou décider d’un fine-tuning.

Le nombre de paramètres reste la mesure la plus citée pour comparer les modèles, mais c’est un indicateur de plus en plus trompeur pris isolément. Avec les architectures MoE, la distinction totaux/actifs est cruciale. Avec les progrès en distillation et en données de haute qualité, un modèle de 4B bien entraîné peut battre un modèle de 27B de la génération précédente. Et avec la quantization, un modèle de 70B peut tourner sur du matériel qui aurait été impensable il y a deux ans.

La bonne question n’est plus « combien de paramètres ? » mais « quel niveau de performance ce modèle atteint-il, et à quel coût d’inférence ? ».

FAQ

Quelle est la différence entre paramètres et hyperparamètres ?

Les paramètres (weights, biases, embeddings) sont appris automatiquement par le modèle pendant l’entraînement. Les hyperparamètres (learning rate, batch size, nombre de couches, dimension) sont définis par les ingénieurs avant l’entraînement et ne changent pas pendant celui-ci. Les paramètres se comptent en milliards. Les hyperparamètres se comptent en dizaines. Les deux influencent la performance, mais de façons très différentes.

Pourquoi compte-t-on les paramètres en « milliards » (B) ?

Parce que les LLM modernes en contiennent des milliards. Le « B » vient de « billion » en anglais (= milliard en français). Un modèle « 70B » contient 70 milliards de paramètres. Un modèle « 1T » (trillion) en contient 1 000 milliards. Ces ordres de grandeur sont nécessaires parce que chaque neurone contient des milliers de paramètres (un biais + un poids par dimension), et les LLM ont des millions de neurones organisés en dizaines à centaines de couches.

Plus de paramètres signifie-t-il un meilleur modèle ?

Pas toujours. La performance dépend aussi de la quantité et qualité des données, de l’architecture, et du post-training. Gemma 3 4B (4 milliards de paramètres), distillé depuis Gemini 2.0, rivalise avec Gemma 2 27B sur de nombreux benchmarks. Pour les modèles MoE, les paramètres totaux et actifs sont distincts : Mistral Large 3 a 675B paramètres totaux mais seulement 41B actifs par token. Ce sont les paramètres actifs qui déterminent le coût et la vitesse d’inférence.

Combien de mémoire faut-il pour stocker les paramètres d’un modèle ?

En FP16 (précision standard), comptez 2 Go par milliard de paramètres. Un modèle de 7B occupe ~14 Go, un modèle de 70B ~140 Go. La quantization INT4 divise par 4 : le même modèle de 70B tient en ~35 Go. L’entraînement nécessite 2 à 4 fois plus de mémoire que l’inférence (pour stocker les gradients et les états de l’optimiseur).

Peut-on connaître le rôle de chaque paramètre individuel ?

Non, pas en général. Contrairement à une régression linéaire où chaque coefficient a une interprétation claire, les paramètres d’un LLM fonctionnent collectivement de façon non linéaire et distribuée. Aucun paramètre individuel ne « sait » un fait ou une règle spécifique. C’est le fonctionnement combiné de milliards de paramètres qui produit le comportement intelligent. La recherche en interprétabilité de l’IA vise à comprendre ces mécanismes, mais c’est un domaine encore largement ouvert.