Model Weights (Poids du Modèle)
Les model weights (poids du modèle) sont les valeurs numériques internes d’un modèle d’IA, apprises automatiquement pendant l’entraînement, qui déterminent comment le modèle transforme les entrées en prédictions. Ce sont les « connaissances » du modèle : modifier les poids change le comportement du modèle. Publier les poids (open weights) permet à quiconque d’exécuter le modèle sans dépendre d’une API propriétaire.
- Aussi appelé
- Poids, paramètres du modèle, trained weights, checkpoints
- Nature
- Valeurs numériques (tenseurs de nombres flottants)
- Appris par
- Entraînement sur données (gradient descent, backpropagation)
- Stockage typique
- Fichiers
.pt(PyTorch),.safetensors,.gguf,.bin - Taille fichier
- Quelques Mo (petits modèles) à plusieurs centaines de Go (modèles frontier)
- Exemples de tailles
- Llama 4 Maverick : 400B paramètres (~800 Go en FP16), Mistral Large 3 : 675B (~1,3 To en FP16)
- Plateforme de distribution
- Hugging Face, ModelScope, Ollama, GitHub
- Distinction clé
- Weights = appris pendant l’entraînement ≠ Hyperparamètres = définis avant l’entraînement
Comment fonctionnent les poids d’un modèle
Pour comprendre les model weights, imaginez un réseau de neurones comme un ensemble de boutons de mixage sur une console audio. Chaque bouton contrôle l’influence d’un signal sur le signal suivant. Les poids sont ces boutons : ils déterminent la force et la direction des connexions entre les neurones artificiels.
Initialisation : le modèle ne sait rien
Au départ, les poids sont initialisés de manière aléatoire (ou pseudo-aléatoire). Le modèle est une coquille vide : il reçoit des données en entrée et produit des résultats absurdes en sortie, parce que ses connexions internes n’ont aucune signification.
Entraînement : ajustement itératif
Pendant l’entraînement, le modèle traite des milliards d’exemples (textes, images, code). Pour chaque exemple, il compare sa prédiction à la réponse attendue et calcule une erreur (la « loss »). Un algorithme d’optimisation (typiquement une variante du gradient descent, comme Adam) ajuste ensuite chaque poids dans la direction qui réduit cette erreur. Ce cycle (forward pass → calcul d’erreur → backpropagation → mise à jour des poids) se répète des millions de fois.
À la fin de l’entraînement, les poids encodent les patterns statistiques extraits des données. Un LLM comme Claude ou GPT a appris, via ses poids, les structures grammaticales, les connaissances factuelles, les schémas de raisonnement et les conventions stylistiques présents dans son corpus d’entraînement.
Types de paramètres dans un réseau de neurones
Le terme « model weights » est souvent utilisé de façon interchangeable avec « paramètres », mais techniquement, les paramètres d’un réseau de neurones comprennent :
- Weights (poids) : contrôlent la force des connexions entre neurones. C’est la grande majorité des paramètres.
- Biases (biais) : permettent de décaler la fonction d’activation d’un neurone, comme un offset. Un par neurone par couche.
- Paramètres de normalisation : gain et shift pour les couches de normalisation (LayerNorm, RMSNorm).
- Paramètres d’embedding : les matrices qui convertissent les tokens en vecteurs numériques.
Quand on parle d’un modèle à « 70 milliards de paramètres », cela inclut tous ces types de paramètres, pas seulement les weights au sens strict. Mais dans le langage courant, « weights » et « paramètres » sont synonymes.
Open Weights : l’enjeu central de l’IA ouverte
La publication des poids d’un modèle est ce qui différencie un modèle « open weights » d’un modèle propriétaire. Si les poids sont publics, n’importe qui peut télécharger le modèle et l’exécuter sur sa propre infrastructure. Si les poids sont secrets, le seul moyen d’accéder au modèle est via l’API de l’éditeur.
| Élément publié | Ce que ça permet | Exemples |
|---|---|---|
| Poids du modèle uniquement | Exécuter le modèle, faire de l’inférence, fine-tuner | Llama 4, Gemma 3 |
| Poids + code d’inférence | Idem + comprendre comment le modèle est exécuté | Mistral Large 3, DeepSeek V3.2 |
| Poids + code d’entraînement | Idem + reproduire partiellement l’entraînement | Certains modèles de recherche |
| Poids + code + données d’entraînement | Reproduction complète (vrai open source selon l’OSI) | Rare dans les modèles frontier |
| Rien publié | Accès API uniquement | GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro |
Formats de fichiers pour les poids
Les poids d’un modèle sont stockés dans des fichiers binaires dont le format dépend du framework et de l’usage prévu.
| Format | Extension | Framework | Usage |
|---|---|---|---|
| SafeTensors | .safetensors |
Hugging Face | Standard recommandé, sûr (pas d’exécution de code arbitraire) |
| PyTorch | .pt, .pth, .bin |
PyTorch | Format historique, exécution de code possible à la désérialisation |
| GGUF | .gguf |
llama.cpp, Ollama | Optimisé pour l’inférence CPU/locale, supporte la quantization |
| ONNX | .onnx |
Multi-framework | Interopérabilité entre frameworks |
| TensorFlow | .h5, SavedModel |
TensorFlow/Keras | Écosystème Google/TF |
| NVFP4 | Variantes compressées | NVIDIA | Optimisé pour GPU NVIDIA (Blackwell, H100) |
.pt) utilisent le format pickle de Python, qui permet l’exécution de code arbitraire à l’ouverture du fichier. Un fichier de poids malveillant pourrait exécuter du code sur votre machine. SafeTensors, développé par Hugging Face, est un format purement données qui élimine ce risque. C’est le standard recommandé pour la distribution de poids de modèles.
Taille des fichiers de poids
La taille d’un fichier de poids dépend du nombre de paramètres et de la précision numérique utilisée pour les stocker.
| Précision | Bits par paramètre | Taille pour 70B paramètres | Usage |
|---|---|---|---|
| FP32 (float32) | 32 bits | ~280 Go | Entraînement (précision maximale) |
| FP16 / BF16 | 16 bits | ~140 Go | Entraînement et inférence standard |
| FP8 | 8 bits | ~70 Go | Inférence haute performance (GPU récents) |
| INT4 (quantization 4 bits) | 4 bits | ~35 Go | Inférence locale, edge, matériel limité |
La quantization (réduction de la précision numérique) permet de faire tourner des modèles beaucoup plus gros sur du matériel limité, au prix d’une légère perte de qualité. C’est ce qui permet à un modèle comme gpt-oss-20b (21B paramètres, 3,6B actifs) de tourner sur une machine avec 16 Go de mémoire en quantization MXFP4.
Ce qu’on peut faire avec les poids d’un modèle
Inférence (exécuter le modèle)
La raison principale de télécharger des poids : exécuter le modèle sur votre propre infrastructure. Avec les poids de Mistral Large 3, un serveur avec 8 GPU H100 et le framework vLLM, vous avez un LLM frontier qui tourne chez vous, sans envoyer de données à un tiers. C’est la base de la souveraineté des données en IA.
Fine-tuning
Le fine-tuning consiste à reprendre les poids pré-entraînés et à les ajuster sur un dataset spécialisé. Vous partez d’un modèle généraliste et vous l’adaptez à votre domaine (juridique, médical, finance). Les techniques comme LoRA permettent de fine-tuner efficacement en ne modifiant qu’une petite fraction des poids, réduisant drastiquement le coût en mémoire et en compute.
Distillation
Vous pouvez utiliser un grand modèle (le « teacher ») pour entraîner un modèle plus petit (le « student ») qui reproduit les comportements du teacher. C’est la technique utilisée par Google pour créer Gemma 3 4B (qui rivalise avec Gemma 2 27B) grâce à la distillation depuis Gemini 2.0. Les poids du teacher sont nécessaires pour le processus.
Inspection et recherche
Avoir accès aux poids permet d’analyser le modèle : détecter les biais, étudier les mécanismes d’attention, comprendre comment le modèle prend ses décisions. C’est essentiel pour la recherche en interprétabilité et en sécurité de l’IA.
Fusion de modèles (model merging)
Une technique populaire dans la communauté open source : combiner les poids de plusieurs modèles fine-tunés pour créer un modèle qui hérite des forces de chacun, sans réentraînement. Les techniques comme SLERP, TIES ou DARE permettent de fusionner des poids de façon intelligente. C’est ce qui a produit certains des modèles les plus populaires sur Hugging Face.
Protection et sécurité des poids
Les poids comme propriété intellectuelle
Pour les éditeurs de modèles propriétaires, les poids sont leur actif le plus précieux. Ils représentent des centaines de millions de dollars d’investissement en compute, données et recherche. C’est pourquoi OpenAI, Anthropic et Google gardent les poids de leurs modèles phares (GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro) strictement confidentiels.
Risque de fuite
Une fois les poids publiés ou leakés, il est impossible de révoquer l’accès. Les fichiers peuvent être copiés, partagés sur des réseaux peer-to-peer, et redistribués indéfiniment. C’est un risque que les éditeurs de modèles propriétaires prennent très au sérieux, et une des raisons pour lesquelles certains s’opposent à la publication systématique des poids.
Poids malveillants
Un risque méconnu : des poids modifiés de façon malveillante pourraient introduire des comportements indésirables (backdoors, biais intentionnels, réponses trompeuses) tout en passant les tests de qualité standard. Vérifier l’intégrité des poids (checksums, signatures cryptographiques) est une bonne pratique avant tout déploiement.
Poids et licences : une relation cruciale
La licence sous laquelle les poids sont distribués détermine ce que vous pouvez en faire. Un même modèle peut avoir son code sous une licence et ses poids sous une autre. Par exemple, les poids de DeepSeek V3.2 ont historiquement été sous une licence custom différente du code (sous MIT).
Les licences permissives (Apache 2.0, MIT) vous donnent un contrôle total sur les poids : vous pouvez les fine-tuner, les modifier, les redistribuer sous votre propre licence, et garder vos modifications propriétaires. Les licences custom (Llama License, Gemma Terms) ajoutent des restrictions (branding, propagation downstream, politiques d’usage) qui limitent votre liberté.
Avant de baser votre produit sur un modèle open weights, vérifiez toujours la licence des poids spécifiquement, pas seulement celle du dépôt Git.
Cas particulier : poids dans les architectures MoE
Les architectures Mixture-of-Experts (MoE) compliquent la notion de « taille du modèle ». Mistral Large 3 a 675 milliards de paramètres totaux, mais seulement 41 milliards sont activés pour chaque requête. Les 675B de poids sont tous stockés en mémoire (ou paginés), mais seuls les experts pertinents sont utilisés à chaque étape.
Cela signifie que le fichier de poids est proportionnel aux paramètres totaux (675B), mais le coût d’inférence est proportionnel aux paramètres actifs (41B). C’est la raison pour laquelle les modèles MoE offrent un meilleur rapport qualité/coût que les modèles « denses » de taille comparable.
Poids et réglementation
Le rapport de la NTIA américaine (National Telecommunications and Information Administration) sur les modèles à poids ouverts a analysé les bénéfices et risques de la publication des poids. Les bénéfices incluent l’innovation, la transparence, la souveraineté des données et la recherche en sécurité. Les risques incluent le détournement (suppression des garde-fous par fine-tuning) et l’impossibilité de révoquer l’accès après publication.
En Europe, le AI Act impose des obligations de documentation et de transparence pour les modèles d’IA à usage général. Les modèles à poids ouverts facilitent ces obligations en permettant l’inspection directe du modèle. Les modèles à poids fermés nécessitent des mécanismes alternatifs (model cards, audits tiers) pour satisfaire aux exigences réglementaires.
Verdict
Les model weights sont l’essence même d’un modèle d’IA. Comprendre ce qu’ils sont, comment ils fonctionnent et quelles implications leur publication entraîne est fondamental pour quiconque travaille avec l’IA en 2026.
Pour un développeur ou une entreprise, la disponibilité des poids est le critère déterminant entre un modèle que vous contrôlez et un modèle dont vous dépendez. Avec les poids, vous avez la souveraineté : vous pouvez auto-héberger, fine-tuner, auditer et adapter. Sans les poids, vous êtes locataire d’une API dont les conditions, les prix et la disponibilité peuvent changer à tout moment.
La tendance est à l’ouverture progressive : même OpenAI, longtemps l’archétype du closed-source, a publié des poids sous Apache 2.0 avec gpt-oss. Mais les modèles les plus performants (GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro) restent à poids fermés. Le choix entre poids ouverts et poids fermés est un arbitrage entre contrôle et performance de pointe, et cet arbitrage se resserre chaque mois à mesure que les modèles ouverts progressent.
FAQ
Quelle est la différence entre model weights et model parameters ?
Dans le langage courant de l’IA, les deux termes sont utilisés de façon interchangeable. Techniquement, « paramètres » est le terme plus large qui inclut les weights (poids des connexions entre neurones), les biases (offsets), les paramètres de normalisation et les embeddings. Quand on dit qu’un modèle a « 70 milliards de paramètres », cela inclut tous ces types. Les weights au sens strict (connexions interneuronales) représentent la grande majorité de ce total.
Où peut-on télécharger les poids des modèles d’IA ?
La plateforme principale est Hugging Face (huggingface.co), qui héberge les poids de la quasi-totalité des modèles open weights (Llama, Mistral, DeepSeek, Gemma, Qwen, GLM, etc.). ModelScope est l’équivalent chinois. Ollama propose des poids prépackagés au format GGUF pour l’exécution locale. Certains éditeurs distribuent aussi directement via GitHub ou leurs propres serveurs.
Pourquoi les poids de GPT-5.4 et Claude Opus 4.6 ne sont-ils pas publiés ?
Deux raisons principales. D’abord, l’investissement : entraîner un modèle frontier coûte des centaines de millions de dollars, et publier les poids permettrait aux concurrents de reproduire le résultat sans l’investissement. Ensuite, la sécurité : les éditeurs veulent garder le contrôle sur les usages du modèle (filtres de sécurité, monitoring des abus, mises à jour). Une fois les poids publiés, ce contrôle est perdu définitivement.
Combien d’espace disque faut-il pour stocker les poids d’un LLM ?
Cela dépend du nombre de paramètres et de la précision. En FP16 (16 bits par paramètre), un modèle de 7B paramètres occupe environ 14 Go, un modèle de 70B environ 140 Go, et un modèle de 675B (Mistral Large 3) environ 1,3 To. La quantization réduit ces tailles : en INT4 (4 bits), un modèle de 70B tient en 35 Go environ, ce qui peut fonctionner sur un bon PC de bureau avec un GPU RTX 4090 (24 Go VRAM) en déchargeant une partie en RAM.
Peut-on modifier les poids d’un modèle open weights ?
Oui, c’est précisément l’intérêt de publier les poids. Vous pouvez les fine-tuner sur vos propres données, les quantifier pour réduire leur taille, les fusionner avec ceux d’un autre modèle, ou les adapter par des techniques comme LoRA. La licence détermine ce que vous pouvez faire du résultat : Apache 2.0 et MIT vous donnent une liberté totale, les licences custom (Llama, Gemma) ajoutent des conditions sur la redistribution des poids modifiés.