GPT-2 : Le Modèle qui a Lancé l’Ère de la Génération de Texte

Définition rapide GPT-2 (Generative Pre-trained Transformer 2) est un modèle de langage autorégressif développé par OpenAI et publié en 2019. Avec 1,5 milliard de paramètres, il a démontré pour la première fois qu’un modèle de langage pouvait générer du texte cohérent et convaincant sur de longs passages, ouvrant la voie aux LLM modernes.

Contexte historique

GPT-2 s’inscrit dans la lignée des modèles GPT (Generative Pre-trained Transformer). Le premier GPT (GPT-1, 2018) avait montré que le pré-entraînement non supervisé suivi d’un fine-tuning supervisé pouvait donner de bons résultats sur des tâches NLP variées. GPT-2 a poussé cette idée beaucoup plus loin : un modèle 10 fois plus gros, entraîné sur un corpus 10 fois plus large, capable de réaliser des tâches sans aucun fine-tuning (zero-shot).

La publication de GPT-2 a été accompagnée d’une controverse médiatique : OpenAI a initialement refusé de publier le modèle complet (1,5B paramètres), invoquant des risques de désinformation. Seules les versions plus petites ont été publiées en premier, le modèle complet étant finalement libéré quelques mois plus tard. Cette décision a lancé un débat sur la publication responsable en IA qui reste d’actualité.

Architecture

GPT-2 utilise une architecture Transformer decoder-only, ce qui signifie qu’il ne contient que la partie décodeur du Transformer original. Chaque token ne peut « voir » que les tokens qui le précèdent (attention causale), ce qui fait de GPT-2 un modèle autorégressif : il génère du texte mot par mot, de gauche à droite.

Variante	Paramètres	Couches	Dimension	Têtes	Contexte
GPT-2 Small	117M	12	768	12	1024 tokens
GPT-2 Medium	345M	24	1024	16	1024 tokens
GPT-2 Large	762M	36	1280	20	1024 tokens
GPT-2 XL	1,5B	48	1600	25	1024 tokens

Le tokenizer de GPT-2 utilise le Byte Pair Encoding (BPE) avec un vocabulaire d’environ 50 257 tokens. Ce tokenizer est devenu la base de ceux utilisés dans GPT-3, GPT-3.5 et les premières versions de GPT-4.

Données d’entraînement : WebText

GPT-2 a été entraîné sur WebText, un corpus de 40 Go de texte collecté à partir de liens partagés sur Reddit ayant reçu au moins 3 upvotes. L’idée était d’utiliser la curation sociale comme filtre de qualité : les contenus validés par la communauté Reddit sont généralement plus informatifs et mieux écrits que le web moyen.

WebText contenait environ 8 millions de documents et excluait Wikipedia (pour garder cette source comme benchmark). La communauté open source a ensuite recréé un corpus similaire, OpenWebText, disponible en téléchargement libre.

Capacités démontrées

GPT-2 a surpris par sa capacité à réaliser des tâches variées sans aucun entraînement spécifique (zero-shot) :

Génération de texte. Production de paragraphes cohérents, maintien du thème et du style sur plusieurs centaines de mots. La qualité a été jugée suffisante pour tromper des lecteurs humains dans certaines évaluations.

Résumé (zero-shot). En ajoutant « TL;DR: » à la fin d’un article, GPT-2 produisait des résumés raisonnables sans avoir été entraîné explicitement à cette tâche.

Traduction (zero-shot). Des capacités basiques de traduction émergeaient naturellement, bien qu’inférieures aux systèmes spécialisés.

Question answering. GPT-2 pouvait répondre à des questions factuelles en se basant sur les connaissances absorbées pendant le pré-entraînement, avec une précision modeste mais non triviale.

Héritage technique

GPT-2 a établi plusieurs principes qui sont devenus les fondations de tous les LLM actuels :

L’architecture decoder-only comme standard. Alors que BERT utilisait l’encodeur et T5 l’architecture complète encoder-decoder, GPT-2 a montré que le décodeur seul suffisait pour la génération. En 2026, GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro et la quasi-totalité des LLM majeurs utilisent des architectures decoder-only.

Le scaling comme stratégie. GPT-2 a montré que simplement augmenter la taille du modèle et des données d’entraînement améliorait les performances sur toutes les tâches. Cette observation a conduit aux « lois de scaling » formalisées plus tard par Kaplan et al.

Les capacités émergentes. Des capacités non explicitement entraînées (traduction, résumé, Q&A) émergeaient naturellement avec l’échelle. Ce phénomène est devenu central dans la recherche sur les LLM.

Le zero-shot comme paradigme. GPT-2 a initié l’idée qu’un modèle suffisamment grand pouvait résoudre des tâches sans exemples d’entraînement spécifiques, une idée poussée à son paroxysme par GPT-3.

GPT-2 en 2026

GPT-2 reste disponible en open source sur Hugging Face et continue d’être utilisé dans plusieurs contextes :

Enseignement. Avec 117M à 1,5B paramètres, GPT-2 est suffisamment petit pour être étudié, modifié et exécuté sur un laptop. C’est le modèle de référence pour apprendre l’architecture des LLM.

Recherche. De nombreux papiers utilisent GPT-2 comme modèle de base pour tester des techniques de compression, distillation, interprétabilité ou alignement, grâce à sa taille gérable.

Fine-tuning spécialisé. GPT-2 fine-tuné sur des corpus spécifiques (génération de code, dialogue, poésie) reste pertinent pour des applications de niche où un modèle petit et rapide est préféré.

Exécution locale. GPT-2 tourne sur un CPU standard, ce qui le rend adapté aux applications offline, embarquées ou sensibles en termes de confidentialité.

Verdict Polydesk GPT-2 est un jalon historique : le premier modèle à démontrer que la génération de texte de qualité était possible à grande échelle. En 2026, il est complètement dépassé en termes de performances brutes par les LLM modernes, mais sa taille modeste et sa disponibilité open source en font un outil d’apprentissage et de recherche irremplaçable. Pour la production, regardez vers GPT-4o, Claude ou Gemini.

Questions fréquentes sur GPT-2

GPT-2 est-il open source ?

Oui. Après une publication initiale partielle (seules les petites versions étaient disponibles), OpenAI a finalement publié le modèle complet (1,5B paramètres) en novembre 2019. Les poids, le code et le tokenizer sont disponibles sur Hugging Face et GitHub sous licence MIT. C’est l’un des derniers modèles GPT publiés en open source par OpenAI.

Combien de paramètres a GPT-2 ?

GPT-2 existe en quatre tailles : Small (117M), Medium (345M), Large (762M) et XL (1,5B paramètres). La version « GPT-2 » sans précision désigne généralement la version XL à 1,5B paramètres. Toutes les versions ont une fenêtre de contexte de 1024 tokens.

Quelle est la différence entre GPT-2 et GPT-3 ?

GPT-3 est environ 100 fois plus gros (175B vs 1,5B paramètres), entraîné sur beaucoup plus de données, et possède une fenêtre de contexte plus grande (2048 vs 1024 tokens). Surtout, GPT-3 a introduit le few-shot learning : la capacité de résoudre des tâches à partir de quelques exemples fournis dans le prompt, sans fine-tuning. GPT-3 n’est pas open source.

Peut-on faire tourner GPT-2 sur un PC ?

Oui. GPT-2 Small (117M) tourne facilement sur un CPU standard. GPT-2 XL (1,5B) nécessite environ 6 Go de RAM et peut tourner sur un CPU (lentement) ou un GPU modeste. C’est l’un des rares modèles de la famille GPT qui est accessible sans infrastructure cloud.

Pourquoi OpenAI a-t-il retardé la publication de GPT-2 ?

OpenAI a invoqué le risque que le modèle soit utilisé pour générer de la désinformation à grande échelle. Cette décision, controversée, a lancé un débat sur la publication responsable en IA. Les critiques ont noté que le modèle n’était pas suffisamment puissant pour représenter une menace sérieuse, et que la rétention de publication freinait la recherche ouverte. OpenAI a finalement publié le modèle complet quelques mois plus tard.