Scaling Laws (Lois de Mise à l’Échelle)
Les scaling laws sont des relations mathématiques empiriques (lois de puissance) qui décrivent comment la performance d’un modèle d’IA (mesurée par la loss, la perte sur les données de test) évolue de façon prévisible en fonction de trois variables : le nombre de paramètres du modèle (N), la quantité de données d’entraînement (D, en tokens) et le compute total utilisé (C, en FLOPs). Ce sont ces lois qui ont guidé la course aux modèles toujours plus grands, avant que l’industrie ne les dépasse.
- Aussi appelé
- Lois d’échelle, neural scaling laws
- Papers fondateurs
- Kaplan et al. (OpenAI, 2020), Hoffmann et al. « Chinchilla » (DeepMind, 2022)
- Variables
- N (paramètres), D (tokens d’entraînement), C (compute en FLOPs)
- Relation fondamentale
- C ≈ 6 × N × D (coût en FLOPs pour entraîner N paramètres sur D tokens)
- Conclusion Kaplan
- Priorité à la taille du modèle (~1,7 tokens/paramètre)
- Conclusion Chinchilla
- Taille et données doivent croître proportionnellement (~20 tokens/paramètre)
- Statut en 2026
- Dépassées par la pratique (sur-entraînement intentionnel, MoE, inference-aware scaling)
Pourquoi les scaling laws comptent
Les scaling laws sont la raison pour laquelle l’industrie de l’IA a investi des dizaines de milliards de dollars dans des clusters de GPU toujours plus grands. Elles établissent une prédiction rassurante : si vous doublez le compute, vous obtiendrez une amélioration prévisible et mesurable de la performance. Cette prévisibilité a permis aux laboratoires de justifier des investissements colossaux en infrastructure avant même d’entraîner le modèle.
Sam Altman d’OpenAI a résumé cette croyance en déclarant que l’AGI pourrait être atteinte « en quelques milliers de jours », essentiellement en continuant à augmenter l’échelle. Cette confiance repose directement sur les scaling laws.
Mais les scaling laws ont aussi leurs limites, et comprendre ces limites est au moins aussi important que comprendre les lois elles-mêmes.
Les scaling laws de Kaplan (OpenAI, 2020)
En janvier 2020, Jared Kaplan et ses collègues d’OpenAI publient « Scaling Laws for Neural Language Models », le papier fondateur. Leurs principales conclusions :
La performance suit des lois de puissance. La loss (perte sur les données de test, mesurée en cross-entropy) diminue de façon régulière et prévisible quand on augmente la taille du modèle, le volume de données ou le compute. Sur un graphique log-log, la relation est linéaire.
La taille du modèle est le facteur dominant. Pour un budget de compute fixe, Kaplan conclut qu’il vaut mieux augmenter la taille du modèle plutôt que la quantité de données. Le ratio optimal trouvé est d’environ 1,7 tokens par paramètre. GPT-3 (175B paramètres entraînés sur 300B tokens) a vraisemblablement suivi cette prescription.
Les rendements sont décroissants. La relation est logarithmique : doubler la taille du modèle n’améliore pas la performance de moitié. Les gains deviennent de plus en plus coûteux à obtenir.
Les scaling laws de Chinchilla (DeepMind, 2022)
En mars 2022, Jordan Hoffmann et ses collègues de DeepMind publient « Training Compute-Optimal Large Language Models », le papier Chinchilla. Il renverse les conclusions de Kaplan.
Méthodologie
DeepMind a entraîné plus de 400 modèles de 70M à 16B paramètres sur 5B à 500B tokens, en faisant varier systématiquement les combinaisons taille/données pour un budget de compute fixe. Pour chaque budget, ils tracent des courbes « isoFLOPs » qui révèlent le point optimal.
Conclusion centrale
Pour un entraînement optimal en compute, la taille du modèle et le nombre de tokens d’entraînement doivent croître proportionnellement. Le ratio optimal est d’environ 20 tokens par paramètre (contre 1,7 chez Kaplan). Cela signifie que la plupart des grands modèles existants étaient « sous-entraînés » : trop gros pour la quantité de données utilisée.
Validation : le modèle Chinchilla
Pour valider cette théorie, DeepMind a entraîné Chinchilla : 70B paramètres sur 1,4T tokens (ratio de 20 tokens/paramètre), avec le même budget compute que Gopher (280B paramètres, 300B tokens). Résultat : Chinchilla surpasse systématiquement Gopher, GPT-3 (175B), Jurassic-1 (178B) et Megatron-Turing NLG (530B) sur un large éventail de benchmarks, malgré sa taille 4 fois inférieure à Gopher.
Le message est limpide : un modèle plus petit mais mieux nourri en données bat un modèle plus gros mais sous-alimenté.
| Aspect | Scaling Laws de Kaplan (2020) | Scaling Laws de Chinchilla (2022) |
|---|---|---|
| Ratio tokens/paramètre optimal | ~1,7 | ~20 |
| Facteur dominant | Taille du modèle | Taille et données en proportion égale |
| Explication de l’écart | N/A | Comptage des embeddings, hyperparamètres, taille des modèles testés |
| Implication pratique | Entraîner des modèles très grands sur peu de données | Équilibrer taille et données |
| Modèle emblématique | GPT-3 (175B, 300B tokens) | Chinchilla (70B, 1,4T tokens) |
| Optimisation pour | Compute d’entraînement | Compute d’entraînement |
Au-delà de Chinchilla : les évolutions de 2023-2026
Le « Chinchilla Trap »
Suivre strictement les ratios Chinchilla produit un problème pratique : le modèle résultant est trop gros pour être déployé efficacement à grande échelle. Un modèle de 70B « Chinchilla-optimal » coûte cher en inférence. Or, pour un service comme ChatGPT ou Claude qui reçoit des millions de requêtes par jour, le coût d’inférence cumulé dépasse rapidement le coût d’entraînement.
La solution, popularisée par Meta avec Llama, est le « sur-entraînement » intentionnel : entraîner un modèle beaucoup plus petit que le ratio Chinchilla-optimal sur beaucoup plus de données.
| Modèle | Paramètres | Tokens d’entraînement | Ratio tokens/paramètre | Chinchilla-optimal ? |
|---|---|---|---|---|
| GPT-3 | 175B | 300B | ~1,7 | Très sous-entraîné |
| Chinchilla | 70B | 1,4T | ~20 | Oui (par définition) |
| Llama 1 7B | 7B | 1T | ~142 | Massivement sur-entraîné |
| Llama 3 8B | 8B | 15T | ~1 875 | Extrêmement sur-entraîné |
Llama 3 8B, avec un ratio de 1 875 tokens/paramètre (soit ~94 fois le ratio Chinchilla), est spectaculairement « sur-entraîné ». Et pourtant, il offre des performances remarkables pour sa taille, à un coût d’inférence minuscule. La leçon : Chinchilla optimise le compute d’entraînement, pas le coût total de possession (entraînement + inférence).
Inference-Aware Scaling (Sardana et al., 2023)
L’étude de Sardana et al. (MosaicML) a formalisé ce que Meta pratiquait : quand on intègre le coût d’inférence dans l’équation d’optimisation, le ratio optimal de tokens/paramètre augmente considérablement. Plus vous anticipez un volume d’inférence élevé, plus il est rentable d’entraîner un petit modèle sur plus de données, même si l’entraînement lui-même n’est pas « compute-optimal » au sens de Chinchilla.
Ces travaux ont mené des ratios tokens/paramètre allant jusqu’à 10 000 dans les expériences, avec une loss qui continue de diminuer bien au-delà du point Chinchilla-optimal.
Test-Time Compute Scaling
La tendance la plus récente (2025-2026) est le « scaling à l’inférence » : au lieu d’augmenter la taille du modèle, on augmente le compute alloué au moment de la réponse. Les modèles de raisonnement comme o3 d’OpenAI ou le mode Extended Thinking de Claude passent plus de temps à « réfléchir » sur les problèmes complexes, en utilisant plus de tokens de raisonnement avant de produire la réponse finale.
C’est un nouvel axe de scaling qui n’était pas couvert par les lois originales de Kaplan et Chinchilla, toutes deux focalisées sur le pre-training.
MoE et scaling
Les architectures Mixture-of-Experts ajoutent une dimension supplémentaire : les paramètres totaux et les paramètres actifs ne sont plus proportionnels. Un modèle MoE peut avoir une capacité de 675B paramètres avec un coût d’inférence de 41B paramètres actifs. Les scaling laws classiques, calibrées sur des modèles denses, ne s’appliquent pas directement aux MoE sans correction.
Les limites des scaling laws
Le mur des données (data wall)
Les scaling laws supposent un accès illimité à des données de haute qualité. Or, les estimations suggèrent que le stock de texte humain de qualité accessible sur Internet est en voie d’épuisement pour les modèles frontier. De plus, une part croissante du texte publié en ligne est généré par des LLM eux-mêmes, ce qui pose des questions de qualité et de contamination des données d’entraînement.
Les réponses à ce problème incluent les données synthétiques (générées par des modèles existants), la transcription massive de vidéos et podcasts, et l’utilisation de données propriétaires non publiques.
Rendements décroissants
Les scaling laws sont des lois de puissance (power laws) : la performance s’améliore de façon logarithmique. Pour obtenir la première unité d’amélioration, il faut 1 unité de compute. Pour la suivante, 10. Puis 100. Puis 1 000. Comme le note Yann LeCun, ce pattern s’applique à tous les domaines à « longue traîne » où la diversité des entrées croît avec la taille du dataset.
Il existe aussi une limite théorique : l’entropie intrinsèque du langage naturel constitue un plancher de loss que même un modèle infiniment grand ne peut franchir.
La loss n’est pas l’utilité
Les scaling laws mesurent la cross-entropy loss, une métrique technique de prédiction du prochain token. Mais la loss et l’utilité perçue par un utilisateur ne sont pas la même chose. Un modèle peut avoir une loss légèrement supérieure mais être perçu comme plus utile grâce à un meilleur alignement, un meilleur suivi d’instructions, ou une meilleure capacité à refuser les requêtes hors limites. Le post-training (RLHF, DPO) transforme un modèle « mathématiquement bon » en un modèle « pratiquement utile », et cette étape n’est pas couverte par les scaling laws.
Impact sur l’industrie
Les scaling laws ont structuré l’industrie de l’IA pendant cinq ans. Elles ont :
- Justifié les investissements de dizaines de milliards dans les clusters GPU (NVIDIA a bénéficié directement de cette croyance)
- Guidé le dimensionnement des modèles frontier (GPT-3, GPT-4, Gemini)
- Motivé la stratégie de Llama (sur-entraînement de petits modèles pour l’inférence)
- Inspiré la recherche sur les SLM (Small Language Models) qui surpassent leur poids grâce au sur-entraînement et à la distillation
En 2026, le consensus de l’industrie est plus nuancé : les scaling laws restent valides comme cadre prédictif, mais elles ne capturent qu’une partie de l’équation. L’architecture (MoE vs dense), la qualité des données (pas seulement la quantité), le pipeline de post-training (RLHF, distillation), et le compute d’inférence (test-time scaling) sont des facteurs au moins aussi importants que la taille brute.
Applications pratiques des scaling laws
Les scaling laws ne sont pas qu’un sujet de recherche académique. Elles ont des applications concrètes pour les praticiens.
Prédiction de performance. En entraînant une série de petits modèles « pilotes » avec différentes combinaisons taille/données, vous pouvez ajuster une courbe de scaling et prédire la performance d’un modèle plus grand avant de l’entraîner. Des frameworks comme Sloth permettent de prédire les performances sur des benchmarks spécifiques (pas seulement la loss brute) à partir de « compétences latentes » identifiées sur de petits modèles. C’est ce que font tous les grands laboratoires avant de lancer un entraînement frontier qui coûte des millions de dollars.
Dimensionnement budgétaire. Si vous savez quel niveau de performance vous visez et que vous avez une estimation de vos scaling law parameters (spécifiques à votre pipeline : qualité des données, architecture, hyperparamètres), vous pouvez calculer le budget compute nécessaire. La relation C ≈ 6 × N × D donne une estimation de premier ordre des FLOPs requis pour entraîner N paramètres sur D tokens.
Choix de taille de modèle. Pour un cas d’usage en production avec un volume d’inférence connu, les scaling laws « inference-aware » vous aident à trouver le sweet spot : le modèle le plus petit qui atteint la qualité requise, minimisant ainsi le coût total (entraînement + inférence à grande échelle). C’est le calcul que Meta a fait pour dimensionner les modèles Llama.
Verdict
Les scaling laws sont l’un des résultats empiriques les plus importants de l’IA moderne. Elles ont démontré que la performance des LLM est prévisible et qu’elle s’améliore systématiquement avec l’échelle. C’est cette prévisibilité qui a permis l’investissement massif dans l’infrastructure IA.
Mais elles ne sont pas des lois universelles inviolables. Les praticiens de 2026 les traitent comme un point de départ, pas comme une recette. Le ratio Chinchilla de 20 tokens/paramètre est « compute-optimal » pour l’entraînement, mais le ratio réel des modèles en production est 10 à 100 fois plus élevé, parce que l’optimisation du coût d’inférence domine. L’architecture MoE, la distillation, le test-time compute scaling et la qualité des données sont devenus des leviers d’amélioration au moins aussi puissants que l’augmentation brute de la taille.
Si vous retenez une seule chose : les scaling laws prédisent que « plus d’échelle = meilleur résultat » sur des axes multiples. Mais la question pratique est toujours « quel type d’échelle, sur quel axe, pour quel budget et quel cas d’usage ? ».
FAQ
Que disent les scaling laws en termes simples ?
Les scaling laws disent que la qualité d’un modèle d’IA s’améliore de façon prévisible quand on augmente sa taille (nombre de paramètres), la quantité de données d’entraînement (nombre de tokens) et la puissance de calcul utilisée (FLOPs). La relation suit une loi de puissance : les améliorations sont régulières mais de plus en plus coûteuses. En doublant le compute, on obtient une amélioration mesurable mais non proportionnelle de la performance.
Quelle est la différence entre les scaling laws de Kaplan et celles de Chinchilla ?
Kaplan (OpenAI, 2020) conclut que, pour un budget de compute fixe, il vaut mieux augmenter la taille du modèle que la quantité de données (ratio d’environ 1,7 tokens/paramètre). Chinchilla (DeepMind, 2022) corrige cette conclusion et montre que la taille et les données doivent croître proportionnellement (ratio d’environ 20 tokens/paramètre). La différence s’explique par des biais méthodologiques chez Kaplan (non-comptage des embeddings, modèles trop petits, hyperparamètres non optimisés).
Pourquoi les modèles récents comme Llama 3 sont-ils « sur-entraînés » par rapport à Chinchilla ?
Parce que Chinchilla optimise le coût d’entraînement, pas le coût total (entraînement + inférence). Un petit modèle entraîné sur beaucoup plus de données que le ratio Chinchilla coûte plus cher à entraîner, mais beaucoup moins cher à exécuter en production. Pour un service qui reçoit des millions de requêtes par jour, le coût d’inférence domine largement. Llama 3 8B, avec un ratio de ~1 875 tokens/paramètre, est 94 fois au-dessus du ratio Chinchilla, mais c’est un choix économiquement rationnel.
Les scaling laws sont-elles encore valides en 2026 ?
Oui, comme cadre prédictif de base : augmenter la taille, les données et le compute améliore toujours la performance, de façon prévisible. Mais elles ne capturent pas la totalité du tableau. L’architecture (MoE vs dense), la qualité des données, le post-training (RLHF, distillation), et le test-time compute scaling sont devenus des facteurs au moins aussi importants. Les scaling laws restent un outil de planification, mais les praticiens ne les suivent plus aveuglément.
Le « mur des données » va-t-il bloquer les scaling laws ?
C’est un risque réel. Les modèles frontier consomment des trillions de tokens, et le stock de texte humain de qualité disponible sur Internet approche de ses limites. Les réponses incluent les données synthétiques (générées par des LLM existants), la transcription de contenus audio/vidéo, l’utilisation de données propriétaires non publiques, et des techniques d’entraînement plus efficientes qui extraient plus de valeur de chaque token. Le mur des données ne bloque pas les scaling laws, mais il force l’innovation sur la qualité et la diversité des données plutôt que sur la simple quantité.