Chinchilla (Modèle et Scaling Laws)
Chinchilla est un LLM de 70 milliards de paramètres développé par DeepMind (Google) et présenté en mars 2022. Entraîné sur 1,4 trillion de tokens, il a démontré qu’un modèle 4 fois plus petit que Gopher (280B), mais entraîné sur 4 fois plus de données, le surpassait systématiquement. Ce résultat a donné naissance aux « Chinchilla scaling laws », qui prescrivent un ratio d’environ 20 tokens par paramètre pour un entraînement compute-optimal.
- Développeur
- DeepMind (Google)
- Papier
- « Training Compute-Optimal Large Language Models » (Hoffmann et al., mars 2022, NeurIPS 2022)
- Paramètres
- 70 milliards (70B)
- Tokens d’entraînement
- 1,4 trillion (1,4T)
- Ratio tokens/paramètre
- ~20 (le ratio « Chinchilla-optimal »)
- Modèle de référence
- Gopher (280B paramètres, 300B tokens, même budget compute)
- Score MMLU
- 67,5 % (7 points au-dessus de Gopher)
- Architecture
- Transformer dense, decoder-only
- Accès public
- Non (modèle de recherche interne DeepMind)
- Héritage
- A influencé Llama, Mistral, et toute l’approche moderne d’entraînement des LLM
Le contexte : pourquoi Chinchilla était nécessaire
Avant Chinchilla, l’industrie de l’IA suivait une logique simple : plus gros = mieux. Les scaling laws de Kaplan (OpenAI, 2020) suggéraient de privilégier la taille du modèle sur la quantité de données. Le résultat : GPT-3 (175B paramètres) n’avait été entraîné que sur 300B tokens, soit un ratio de ~1,7 tokens par paramètre. Gopher de DeepMind (280B) utilisait un ratio similaire.
La course aux paramètres battait son plein. Megatron-Turing NLG (530B, NVIDIA/Microsoft), Jurassic-1 (178B, AI21 Labs), et d’autres empilaient les paramètres sur des volumes de données comparables. L’hypothèse implicite : les données disponibles avaient été suffisamment exploitées, et la prochaine amélioration viendrait d’un modèle encore plus gros.
Chinchilla a renversé cette hypothèse.
L’expérience Chinchilla
Méthodologie rigoureuse
L’équipe de DeepMind, dirigée par Jordan Hoffmann, a utilisé trois approches indépendantes pour estimer le ratio optimal entre taille du modèle et données d’entraînement :
- Approche 1 : entraînement de plus de 400 modèles de 70M à 16B paramètres sur des volumes de données variables (5B à 500B tokens), pour chaque niveau de budget compute fixe
- Approche 2 : analyse des courbes isoFLOPs (courbes de performance à budget de calcul constant) pour trouver le point optimal taille/données
- Approche 3 : ajustement paramétrique d’une fonction de loss en puissance de N (paramètres) et D (tokens)
Le fait que les trois approches convergent vers la même conclusion donne une confiance élevée dans le résultat. C’est une rigueur méthodologique rarement vue dans les publications sur les LLM.
La conclusion centrale
Pour un budget de compute fixe, la performance optimale est atteinte quand la taille du modèle et le nombre de tokens d’entraînement croissent proportionnellement. Le ratio optimal trouvé est d’environ 20 tokens par paramètre. Cela signifie que la plupart des grands modèles existants étaient massivement « sous-entraînés » en données.
| Modèle | Paramètres | Tokens | Ratio tokens/param | Budget compute | MMLU |
|---|---|---|---|---|---|
| GPT-3 | 175B | 300B | ~1,7 | Réf. | ~43 % |
| Gopher | 280B | 300B | ~1,1 | C | ~60 % |
| Jurassic-1 | 178B | 300B | ~1,7 | Réf. | N/A |
| Megatron-Turing NLG | 530B | ~270B | ~0,5 | Réf. | N/A |
| Chinchilla | 70B | 1,4T | ~20 | = Gopher (C) | 67,5 % |
Chinchilla, 4 fois plus petit que Gopher mais entraîné sur 4 fois plus de données, le surpasse sur la quasi-totalité des benchmarks, avec le même budget de calcul. Le score MMLU de 67,5 % représentait une amélioration de 7 points par rapport à Gopher, un écart considérable à ce niveau.
Implications pratiques immédiates
Chinchilla étant 4 fois plus petit que Gopher, il est aussi :
- 4 fois moins cher en inférence (coût par requête)
- 4 fois plus rapide en génération de tokens
- 4 fois plus facile à déployer (moins de GPU nécessaires)
- Plus simple à fine-tuner (moins de mémoire, entraînement plus rapide)
Le message est double : non seulement un modèle plus petit mais mieux nourri en données est plus performant, mais il est aussi beaucoup plus économique à utiliser en production.
Les « Chinchilla Scaling Laws »
Le papier a formalisé la relation entre compute (C), paramètres (N) et tokens (D) sous la forme :
C ≈ 6 × N × D (en FLOPs)
Et la loss (L) comme fonction de N et D :
L = A/Nα + B/Dβ + L0
Où A, B, α, β et L0 sont des constantes ajustées empiriquement. Cette formulation montre que la loss dépend à la fois de la taille du modèle et du volume de données, avec des rendements décroissants sur les deux axes.
L’optimisation de cette formule pour un budget C fixe donne le résultat central : N et D doivent croître proportionnellement (Nopt ∝ C0,5, Dopt ∝ C0,5).
L’héritage de Chinchilla : ce qui a changé
Influence directe sur Llama
Meta a explicitement reconnu l’influence de Chinchilla dans le développement de Llama. La gamme Llama 1 (2023) a été conçue selon les principes de Chinchilla, mais en allant plus loin : le modèle Llama 1 7B a été entraîné sur 1T tokens (ratio ~142 tokens/paramètre), soit 7 fois le ratio Chinchilla-optimal.
Pourquoi dépasser Chinchilla ? Parce que Chinchilla optimise le compute d’entraînement, pas le coût total. Pour un modèle déployé à grande échelle (des millions de requêtes par jour), le coût d’inférence cumulé dépasse rapidement le coût d’entraînement. Il est alors plus rentable de « sur-entraîner » un petit modèle sur plus de données, même si l’entraînement n’est pas compute-optimal au sens de Chinchilla.
Cette logique s’est amplifiée : Llama 3 8B a été entraîné sur 15T tokens (ratio ~1 875 tokens/paramètre), soit ~94 fois le ratio Chinchilla. Mark Zuckerberg a lui-même noté que même à ce niveau, le modèle continuait d’apprendre : la courbe de loss n’avait pas encore atteint son asymptote.
Le « Chinchilla Trap »
Ce terme, devenu courant dans la communauté, décrit le piège de suivre aveuglément Chinchilla : on obtient un modèle compute-optimal à l’entraînement mais trop gros pour une inférence économique en production. Un modèle de 70B « Chinchilla-optimal » coûte bien plus cher à servir qu’un modèle de 8B « sur-entraîné » qui offre des performances proches.
La solution, formalisée par Sardana et al. (MosaicML, 2023), consiste à intégrer le coût d’inférence dans l’équation d’optimisation. Le ratio optimal de tokens/paramètre augmente alors considérablement, jusqu’à 10 000 dans certaines expériences.
Influence sur toute l’industrie
Chinchilla a provoqué un changement de paradigme :
- Avant Chinchilla : la course est aux paramètres. On empile les milliards. Les données sont traitées comme un intrant secondaire.
- Après Chinchilla : les données deviennent la ressource critique. La qualité et la quantité des données d’entraînement sont reconnues comme au moins aussi importantes que la taille du modèle.
Cela a aussi stimulé la recherche sur la curation des données, les données synthétiques, et les techniques d’entraînement multi-époques (réutiliser les mêmes données plusieurs fois, ce que Chinchilla ne couvrait pas car il supposait un entraînement sur une seule époque).
Les limites du cadre Chinchilla
Hypothèse d’une seule époque
Les expériences Chinchilla supposent que chaque token n’est vu qu’une fois pendant l’entraînement. Or, pour les langues rares ou les domaines spécialisés, les données disponibles sont limitées. L’entraînement multi-époques (voir le même token plusieurs fois) est devenu courant, et les dynamiques de scaling sont différentes dans ce régime.
Calibré sur des modèles denses uniquement
Chinchilla a été développé avec des architectures Transformer denses. Les architectures MoE, qui dominent les modèles frontier de 2025-2026, découplent paramètres totaux et paramètres actifs. Appliquer directement le ratio Chinchilla aux paramètres totaux d’un MoE n’a pas de sens. Des corrections sont nécessaires, et les scaling laws spécifiques aux MoE sont encore un domaine de recherche actif.
Qualité vs quantité des données
Chinchilla traite les tokens d’entraînement comme une commodité interchangeable. Or, la qualité des données varie énormément. Un token de code propre, un token de texte scientifique révisé par des pairs, et un token de commentaire de forum n’ont pas la même valeur informative. Les recherches post-Chinchilla (notamment autour de Phi et des « textbook-quality data ») ont montré que la qualité des données peut compenser la quantité, ce que le cadre Chinchilla ne capture pas.
La loss n’est pas l’utilité
Les scaling laws de Chinchilla optimisent la cross-entropy loss (la capacité du modèle à prédire le prochain token). Mais un bon score de loss ne garantit pas un modèle utile. Le post-training (RLHF, DPO, instruction tuning) transforme un modèle « statistiquement bon » en un modèle « pratiquement utile ». Cette étape est hors du périmètre de Chinchilla.
Le modèle Chinchilla lui-même
Chinchilla n’a jamais été rendu public. C’est un modèle de recherche interne de DeepMind, utilisé pour valider les scaling laws mais jamais mis à disposition de la communauté. Son architecture est un Transformer dense decoder-only, identique à celle de Gopher (mêmes hyperparamètres de base, même setup d’entraînement), à l’exception de la taille réduite (70B vs 280B) et du volume de données augmenté (1,4T vs 300B tokens). L’entraînement a été réalisé sur le dataset MassiveText de DeepMind.
Le modèle Chinchilla est aujourd’hui obsolète en termes de performances brutes (les modèles de 2026 le surpassent largement). Mais son héritage conceptuel reste vivant : chaque fois qu’un laboratoire décide du ratio taille/données pour un nouveau modèle, il se positionne par rapport à Chinchilla.
Que signifie « Chinchilla-optimal » en 2026 ?
Le terme « Chinchilla-optimal » reste utilisé dans l’industrie, mais avec un sens évolué. Il désigne maintenant le point d’entraînement qui minimise le compute de training pour un niveau de performance donné, tout en reconnaissant que ce point n’est presque jamais le choix optimal en pratique, parce que le coût d’inférence domine.
Le ratio réel des modèles en production est 10 à 100 fois au-dessus du ratio Chinchilla (voir le tableau dans notre page scaling laws). « Chinchilla-optimal » est devenu un point de référence théorique, pas une cible pratique.
Chinchilla face aux approches modernes
Pour mesurer à quel point l’industrie a évolué depuis Chinchilla, il suffit de comparer les ratios tokens/paramètre des modèles qui comptent en 2026 :
| Modèle | Paramètres | Tokens entraînement (estimés) | Ratio tokens/param | Rapport à Chinchilla (20:1) |
|---|---|---|---|---|
| Chinchilla (2022) | 70B | 1,4T | ~20 | 1× |
| Llama 3 8B (2024) | 8B | 15T | ~1 875 | ~94× |
| Llama 3.1 405B (2024) | 405B | 15T+ | ~37 | ~1,9× |
| Qwen 3 235B (2025) | 235B (MoE) | 36T | ~153 | ~7,7× |
| Mistral Large 3 (2025) | 675B (MoE) | N/A (non publié) | N/A | N/A |
| Gemma 3 27B (2025) | 27B | N/A (distillation depuis Gemini 2.0) | N/A | N/A |
Le pattern est clair : plus un modèle est petit, plus il est « sur-entraîné » par rapport à Chinchilla. Le Llama 3 8B, à 94 fois le ratio Chinchilla, est l’exemple le plus extrême. Mais même le Llama 3.1 405B, le plus gros modèle dense de Meta, dépasse le ratio Chinchilla de presque 2 fois.
La distillation ajoute une dimension supplémentaire. Gemma 3 27B ne suit pas du tout le cadre Chinchilla : il est entraîné par distillation depuis Gemini 2.0, un modèle beaucoup plus grand. Le « savoir » du grand modèle est compressé dans le petit, une approche qui contourne entièrement la question du ratio tokens/paramètre.
Ces évolutions ne contredisent pas Chinchilla. Elles montrent que Chinchilla résolvait le bon problème (comment allouer un budget de compute d’entraînement) mais pas le problème complet (comment minimiser le coût total de possession d’un modèle d’IA sur toute sa durée de vie).
Verdict
Chinchilla est l’un des papiers les plus influents de l’histoire des LLM. Il a démontré, avec une rigueur méthodologique exemplaire, que la course aux paramètres bruts était sous-optimale. Un modèle 4 fois plus petit, entraîné sur 4 fois plus de données, bat des modèles beaucoup plus gros pour le même coût.
Son héritage dépasse le modèle lui-même (qui n’a jamais été rendu public). Il a changé la façon dont l’industrie pense l’entraînement des LLM : les données sont devenues la ressource critique, pas les paramètres. Et paradoxalement, les praticiens ont aussi appris à dépasser Chinchilla : le « sur-entraînement » intentionnel de petits modèles (Llama 3, Phi, Gemma) produit des modèles inférieurs en loss brute mais supérieurs en utilité pratique et en coût de déploiement. Chinchilla a posé la bonne question (comment équilibrer taille et données ?), même si la réponse optimale est devenue plus nuancée que le simple ratio de 20:1.
FAQ
Qu’est-ce que le ratio « Chinchilla-optimal » de 20 tokens par paramètre ?
C’est le ratio données/taille qui minimise le coût de compute d’entraînement pour un niveau de performance donné. Pour un modèle de 70B paramètres, cela signifie ~1,4T tokens d’entraînement. Pour un modèle de 1B, ~20B tokens. En pratique, les modèles modernes (Llama 3, Gemma 3) utilisent des ratios 10 à 100 fois plus élevés, car l’optimisation du coût d’inférence (pas seulement d’entraînement) favorise les modèles plus petits entraînés plus longtemps.
Pourquoi Chinchilla a-t-il battu des modèles 4 fois plus gros ?
Parce que ces modèles (Gopher 280B, GPT-3 175B) étaient massivement sous-entraînés en données. Avec un ratio de ~1 token/paramètre, leurs paramètres supplémentaires étaient sous-utilisés, comme une usine trop grande pour son approvisionnement en matières premières. Chinchilla, avec le même budget compute, alloue plus de ressources aux données et moins aux paramètres, ce qui utilise chaque paramètre plus efficacement.
Le modèle Chinchilla est-il disponible publiquement ?
Non. Chinchilla est un modèle de recherche interne de DeepMind, jamais rendu public. Seuls les résultats et la méthodologie ont été publiés. Son influence vient du papier et des scaling laws, pas du modèle lui-même. Les modèles qui ont concrétisé les enseignements de Chinchilla pour le public sont Llama (Meta), Mistral, et d’autres modèles open weights entraînés avec des ratios données/taille élevés.
Pourquoi les modèles récents « sur-entraînent » au-delà de Chinchilla ?
Parce que Chinchilla optimise le compute d’entraînement, pas le coût total (entraînement + inférence). Pour un service qui sert des millions de requêtes, le coût d’inférence domine. Un modèle de 8B paramètres entraîné sur 15T tokens (Llama 3 8B, ratio ~1 875) coûte plus cher à entraîner qu’un Chinchilla-optimal 8B sur 160B tokens, mais il est massivement moins cher à déployer. Sur la durée de vie du modèle, le sur-entraînement est très rentable.
Les scaling laws de Chinchilla sont-elles encore valides en 2026 ?
Oui, comme cadre théorique de base. La relation de puissance entre taille, données et performance est toujours observée. Mais le ratio de 20 tokens/paramètre n’est plus la cible pratique. Les évolutions post-Chinchilla (inference-aware scaling, architectures MoE, données synthétiques, distillation, test-time compute) ont considérablement enrichi le tableau. Chinchilla reste le point de départ conceptuel, mais l’industrie l’a dépassé dans la pratique.