Pre-entrainement : comment les LLM apprennent le langage

Definition rapide Le pre-entrainement est la phase initiale d’entrainement d’un LLM durant laquelle le modele apprend les structures du langage, les faits, le raisonnement et les capacites generales en traitant des milliards (voire des trillions) de tokens issus de textes divers. C’est la fondation sur laquelle repose toute l’intelligence du modele.

Categorie: Phase d’entrainement IA
Objectif: Prediction du prochain token (next token prediction)
Donnees: 1 a 15 trillions de tokens (web, livres, code)
Cout: 10 a 500+ millions de dollars
Duree: Semaines a mois sur des milliers de GPU
Suite: Fine-tuning, RLHF, Alignment

Qu’est-ce que le pre-entrainement ?

Le pre-entrainement est la premiere et la plus couteuse etape de creation d’un LLM. Pendant cette phase, un reseau de neurones de type transformer est expose a une quantite massive de texte et apprend a predire le prochain mot (token) dans une sequence.

Le principe est elegant dans sa simplicite. Donnez au modele le debut d’une phrase : « La capitale de la France est ». Le modele doit predire le prochain token : « Paris ». S’il se trompe, ses poids sont ajustes pour mieux predire la prochaine fois. Repetez cette operation des trillions de fois sur des corpus gigantesques, et le modele apprend non seulement le vocabulaire et la grammaire, mais aussi les faits, le raisonnement logique, la capacite a suivre des instructions et meme une forme de « bon sens ».

Le resultat du pre-entrainement est un modele de base (base model ou foundation model). Ce modele est capable mais pas encore utilisable directement : il complete du texte sans forcement repondre a des questions ni suivre des instructions. Les phases suivantes (fine-tuning sur des instructions, RLHF) le transforment en assistant conversationnel.

Les donnees de pre-entrainement

Sources de donnees

Les donnees de pre-entrainement proviennent de sources variees pour couvrir la diversite du langage humain :

Web crawls. Common Crawl et d’autres crawls du web constituent la majorite des donnees. Ils sont filtres, dedupliques et nettoyes pour retirer le spam, le contenu toxique et les doublons.

Livres et publications academiques. Les corpus de livres numeriques et d’articles scientifiques apportent du contenu structure et de haute qualite.

Code source. GitHub et d’autres depots de code fournissent des milliards de lignes de code dans des dizaines de langages de programmation. C’est ce qui donne aux LLM leurs capacites de programmation.

Donnees curees. Wikipedia, StackOverflow, des forums techniques et d’autres sources selectionnees pour leur qualite sont surrepresentees dans le mix d’entrainement.

Volume de donnees

Modele	Tokens de pre-entrainement	Date limite connaissances
GPT-3 (2020)	300 milliards	~2019
LLaMA 1 (2023)	1,4 trillion	~2022
LLaMA 3 (2024)	15 trillions	~2023
GPT-4 (2023)	~13 trillions (estime)	~2023
Claude 3.5 (2024)	Non divulgue	Avril 2024
Gemini 2.0 (2025)	Non divulgue	~2025

Le processus technique

L’objectif d’entrainement : next token prediction

L’objectif du pre-entrainement est remarquablement simple : predire le prochain token dans une sequence. C’est ce qu’on appelle la modelisation causale du langage (Causal Language Modeling, CLM).

Pour chaque position dans le texte, le modele voit tous les tokens precedents et doit predire le suivant. La perte (loss) mesure l’ecart entre la prediction du modele et le token reel. L’optimiseur ajuste les poids du modele pour minimiser cette perte sur l’ensemble du corpus.

Ce qui est fascinant, c’est que cet objectif apparemment simple fait emerger des capacites complexes : comprehension semantique, raisonnement, suivi d’instructions, traduction, programmation. La prediction du prochain token, a l’echelle de trillions de tokens, est suffisamment riche pour capturer la structure profonde du langage et de la connaissance.

Architecture et hyperparametres

Les LLM modernes utilisent l’architecture transformer decoder-only (pas d’encodeur). Les decisions cles incluent le nombre de couches (profondeur), la dimension des embeddings (largeur), le nombre de tetes d’attention, et la taille du vocabulaire.

Les hyperparametres d’entrainement (learning rate, batch size, warmup, decay schedule) sont soigneusement calibres. Des choix sous-optimaux peuvent faire echouer un entrainement coutant des millions de dollars. Les « scaling laws » (lois de mise a l’echelle de Chinchilla et Kaplan) guident ces decisions en predisant les performances optimales pour un budget de calcul donne.

Le cout du pre-entrainement

Le pre-entrainement est l’une des operations de calcul les plus couteuses au monde :

Modele (estime)	GPU utilisees	Cout estime
LLaMA 3 70B	~6 000 H100	~20 millions $
LLaMA 3 405B	~16 000 H100	~100 millions $
GPT-4	~25 000 A100	~100+ millions $
Gemini Ultra	Des milliers de TPUv5	~200+ millions $

Ces couts ne representent que le calcul GPU. Ils excluent l’acquisition et le nettoyage des donnees, les salaires des chercheurs, l’infrastructure reseau et de stockage, et l’electricite. Le cout total de developpement d’un LLM de pointe depasse souvent le demi-milliard de dollars.

Le pipeline complet d’entrainement d’un LLM

Le pre-entrainement n’est que la premiere etape. Le pipeline complet comprend :

1. Pre-entrainement. Le modele apprend le langage sur des trillions de tokens. Il en ressort un modele de base capable de completer du texte mais pas de suivre des instructions.

2. Supervised Fine-Tuning (SFT). Le modele est entraine sur des dizaines de milliers d’exemples de conversations instruction/reponse. Il apprend a suivre des instructions, repondre a des questions et refuser les requetes inappropriees.

3. RLHF / DPO. Le RLHF (ou DPO) affine le comportement du modele en utilisant les preferences humaines. Des evaluateurs humains comparent des paires de reponses, et le modele apprend a generer les reponses preferees.

4. Safety training. Des couches supplementaires d’entrainement ciblent la securite : refus des contenus dangereux, reduction des biais, respect des consignes ethiques.

5. Evaluation et deploiement. Le modele est evalue sur des benchmarks standardises et des evaluations humaines avant d’etre deploie en production.

Les defis du pre-entrainement

Le mur des donnees. Les modeles actuels ont deja consomme la quasi-totalite du texte de haute qualite disponible sur Internet. Trouver de nouvelles sources de donnees pour les prochaines generations de modeles est un defi majeur. Les donnees synthetiques (generees par d’autres IA) sont une piste exploree mais controversee.

La stabilite de l’entrainement. Un entrainement de plusieurs semaines sur des milliers de GPU est fragile. Des « loss spikes » (explosions de la perte) peuvent interrompre l’entrainement et necesiter un rollback couteux. La surveillance continue et les checkpoints frequents sont essentiels.

L’impact environnemental. Le pre-entrainement d’un grand LLM consomme autant d’electricite qu’une petite ville pendant plusieurs mois. La question de la durabilite energetique de l’IA est un enjeu croissant.

FAQ

Combien de temps dure le pre-entrainement d’un LLM ?

De quelques semaines a plusieurs mois selon la taille du modele et l’infrastructure. LLaMA 3 405B a necessite environ 4 mois sur 16 000 GPU H100. Un modele 7B peut etre pre-entraine en 1 a 2 semaines sur un cluster de quelques centaines de GPU. Les modeles de pointe comme GPT-4 ou Gemini necessitent generalement 3 a 6 mois d’entrainement continu.

Peut-on pre-entrainer son propre LLM ?

Techniquement oui, mais le cout est prohibitif pour la plupart des organisations. Pre-entrainer un modele 7B de qualite coute au minimum 100 000 a 500 000 $ en compute. Pour un modele competitif avec GPT-4 ou Claude, comptez des dizaines de millions. C’est pourquoi la majorite des entreprises partent de modeles pre-entraines existants et les adaptent via le fine-tuning.

Quelle est la difference entre pre-entrainement et fine-tuning ?

Le pre-entrainement apprend au modele « comment fonctionne le langage » sur des trillions de tokens generaux. Le fine-tuning adapte ce modele a une tache specifique sur quelques centaines a quelques milliers d’exemples cibles. Le pre-entrainement cree un generaliste ; le fine-tuning cree un specialiste. Le pre-entrainement coute des millions ; le fine-tuning coute des dizaines de dollars.

Pourquoi les connaissances du modele ont-elles une date limite ?

Le modele ne « sait » que ce qui etait dans ses donnees de pre-entrainement. Si les donnees s’arretent en avril 2024, le modele ne connait rien de ce qui s’est passe apres. C’est pourquoi le RAG (injection d’informations actualisees) est essentiel pour les applications qui necessitent des connaissances a jour. Les fournisseurs mettent periodiquement a jour leurs modeles avec des donnees plus recentes.

Le pre-entrainement sur des donnees synthetiques fonctionne-t-il ?

C’est un sujet de recherche actif. Les donnees synthetiques (generees par un LLM existant) peuvent completer les donnees humaines, surtout pour le code et les mathematiques. Mais un entrainement exclusif sur des donnees synthetiques risque le « model collapse » : une degradation progressive de la qualite quand un modele s’entraine sur les sorties d’un autre modele. Le consensus actuel est que les donnees synthetiques sont un complement utile mais ne peuvent pas remplacer les donnees humaines.