BERT (Bidirectional Encoder Representations from Transformers)

Définition rapide BERT est un modèle de langage pré-entraîné développé par Google AI en 2018. Son innovation majeure : la bidirectionnalité. Contrairement aux modèles précédents qui lisaient le texte de gauche à droite (ou de droite à gauche), BERT analyse simultanément le contexte des deux côtés de chaque mot, ce qui lui permet de comprendre le sens d’un mot en fonction de l’ensemble de la phrase.

Origine et impact historique

BERT a été présenté par Jacob Devlin et ses collègues de Google AI dans le papier « BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding » en octobre 2018. L’impact a été immédiat et massif : BERT a battu les records sur 11 benchmarks NLP d’un coup, et Google l’a intégré dans son moteur de recherche dès 2019 pour mieux comprendre les requêtes des utilisateurs.

BERT a inauguré l’ère du « pré-entraînement puis fine-tuning » (pre-training + fine-tuning) qui est devenue le paradigme dominant en NLP. Avant BERT, chaque tâche NLP nécessitait une architecture spécifique entraînée from scratch. Après BERT, un seul modèle pré-entraîné pouvait être adapté à quasiment n’importe quelle tâche en ajoutant une simple couche de classification.

Architecture de BERT

Transformer Encoder

BERT utilise exclusivement la partie encodeur de l’architecture Transformer (introduite par Vaswani et al. en 2017). Il ne génère pas de texte (contrairement à GPT-2 qui utilise le décodeur) : il produit des représentations contextuelles pour chaque token de l’entrée.

Deux tailles de modèle ont été proposées initialement :

Variante	Couches	Têtes d’attention	Dimension cachée	Paramètres
BERT-Base	12	12	768	110M
BERT-Large	24	16	1024	340M

Tokenisation WordPiece

BERT utilise un tokenizer WordPiece avec un vocabulaire d’environ 30 000 sous-mots. Les mots fréquents sont conservés entiers, tandis que les mots rares sont décomposés en sous-unités. Par exemple, « embedding » pourrait devenir [« em », « ##bed », « ##ding »]. Le token spécial [CLS] est ajouté en début de séquence, et [SEP] sépare les segments.

Attention bidirectionnelle

La clé de BERT est son mécanisme d’auto-attention bidirectionnelle. Pour chaque token, le modèle peut « regarder » tous les autres tokens de la séquence, à gauche comme à droite. C’est ce qui le distingue des modèles autorégressifs (type GPT) qui ne peuvent regarder que les tokens précédents.

Cette bidirectionnalité permet de résoudre des ambiguïtés contextuelles. Dans « Je vais à la banque retirer de l’argent » et « Je m’assois sur la banque du parc », BERT produit des vecteurs différents pour le mot « banque » grâce au contexte environnant.

Tâches de pré-entraînement

BERT est pré-entraîné sur deux tâches non supervisées simultanées :

Masked Language Modeling (MLM)

15% des tokens de l’entrée sont masqués aléatoirement (remplacés par [MASK]), et le modèle doit prédire les tokens originaux. Parmi ces 15%, 80% sont remplacés par [MASK], 10% par un token aléatoire, et 10% sont laissés inchangés. Cette stratégie empêche le modèle de se fier uniquement au token [MASK] comme signal.

Next Sentence Prediction (NSP)

Le modèle reçoit deux phrases et doit prédire si la seconde suit effectivement la première dans le corpus original. 50% des paires sont des séquences consécutives réelles, 50% sont des paires aléatoires. Cette tâche aide le modèle à comprendre les relations entre phrases, utile pour le question answering et l’inférence textuelle.

Le pré-entraînement original a été réalisé sur le BooksCorpus (800M mots) et l’English Wikipedia (2 500M mots), pendant environ 4 jours sur 16 TPU v3.

Fine-tuning sur des tâches spécifiques

Une fois pré-entraîné, BERT s’adapte à des tâches spécifiques par fine-tuning. Le processus est simple : ajouter une couche de sortie adaptée à la tâche, puis entraîner le modèle complet sur des données annotées pendant quelques époques.

Tâche	Entrée	Sortie	Couche ajoutée
Classification de texte	Une phrase	Catégorie	Linéaire sur [CLS]
NER (entités nommées)	Une phrase	Label par token	Linéaire par token
Question Answering	Question + contexte	Span de réponse	Début/fin du span
Similarité de phrases	Deux phrases	Score de similarité	Régression sur [CLS]
Inférence textuelle (NLI)	Prémisse + hypothèse	Entailment/contradiction	Classification sur [CLS]

Principales variantes de BERT

Le succès de BERT a généré une prolifération de variantes, chacune optimisant un aspect différent :

RoBERTa (Facebook/Meta, 2019). Entraîné plus longtemps, sur plus de données, sans la tâche NSP. Surpasse BERT sur la majorité des benchmarks.

DistilBERT (Hugging Face, 2019). Version distillée de BERT : 40% plus petit, 60% plus rapide, conserve 97% des performances. Idéal pour la production à faible latence.

ALBERT (Google, 2019). Réduit les paramètres par factorisation et partage de poids entre couches. Jusqu’à 18x moins de paramètres que BERT-Large.

CamemBERT (Inria/Facebook, 2019). BERT entraîné spécifiquement sur un corpus français (138 Go de texte). C’est le modèle BERT de référence pour le français.

mBERT (Google, 2018). BERT multilingue entraîné sur les Wikipédias de 104 langues. Performances inférieures aux modèles monolingues, mais utile pour le transfert cross-lingue.

ELECTRA (Google, 2020). Remplace le MLM par un discriminateur qui détecte les tokens remplacés. Entraînement plus efficace pour les mêmes performances.

Limites de BERT

Contexte limité à 512 tokens. BERT ne peut traiter que des séquences de 512 tokens maximum. Pour les documents longs, il faut découper et agréger, ce qui perd l’information globale. Les LLM modernes comme Claude (1M tokens) ou GPT-4 (128K tokens) ont résolu ce problème.

Pas de génération de texte. BERT est un encodeur pur : il comprend le texte mais ne peut pas en générer. Pour la génération, les modèles décodeurs (GPT-2, GPT-3) ou encoder-decoder (T5) sont nécessaires.

Coût de fine-tuning. Bien que plus léger que les LLM actuels, BERT-Large nécessite tout de même un GPU pour le fine-tuning. Les approches zero-shot et few-shot des LLM modernes éliminent souvent le besoin de fine-tuning.

Performances dépassées sur les benchmarks. En 2026, BERT est largement surpassé par les modèles plus récents sur les benchmarks NLU. Cependant, son ratio performance/coût reste excellent pour de nombreuses applications en production.

BERT en 2026 : encore pertinent ?

BERT reste massivement déployé en production. Sa taille modeste (110M paramètres pour BERT-Base) le rend exécutable sur des GPU modestes ou même des CPU, avec une latence de quelques millisecondes par inférence. Pour des tâches de classification, NER, ou extraction d’information où la latence et le coût sont critiques, BERT et ses variantes restent le choix optimal.

Les Sentence Transformers utilisent BERT comme backbone pour produire des embeddings de phrases, ce qui étend son utilité à la recherche sémantique et au RAG.

Google continue d’utiliser des variantes de BERT dans son moteur de recherche pour comprendre les requêtes et le contenu des pages web.

Verdict Polydesk BERT est le modèle fondateur du NLP moderne. En 2026, il n’est plus state-of-the-art sur les benchmarks, mais son écosystème (Hugging Face, variantes spécialisées, outils de fine-tuning) et son ratio performance/coût en font toujours un choix de production solide. Pour les nouveaux projets, évaluez d’abord si un LLM en zero-shot suffit ; si la latence ou le coût exigent un modèle dédié, BERT ou RoBERTa restent des valeurs sûres.

Questions fréquentes sur BERT

Que signifie BERT ?

BERT signifie Bidirectional Encoder Representations from Transformers. « Bidirectional » indique que le modèle lit le texte dans les deux sens simultanément. « Encoder » précise qu’il utilise la partie encodeur de l’architecture Transformer. « Representations » signifie qu’il produit des représentations vectorielles contextuelles des mots.

BERT peut-il générer du texte comme ChatGPT ?

Non. BERT est un modèle encodeur conçu pour comprendre le texte, pas pour en générer. Il excelle dans la classification, l’extraction d’information et le question answering extractif. Pour la génération de texte, il faut des modèles décodeurs (GPT) ou encoder-decoder (T5). ChatGPT utilise une architecture décodeur fondamentalement différente.

Quelle est la différence entre BERT et GPT ?

BERT est un encodeur bidirectionnel : il voit tout le contexte d’un coup et produit des représentations de mots. GPT est un décodeur autorégressif : il génère du texte mot par mot, ne voyant que le contexte précédent. BERT excelle en compréhension (classification, NER), GPT excelle en génération (chat, rédaction). Les deux utilisent l’architecture Transformer, mais des parties différentes.

Comment utiliser BERT pour le français ?

Le modèle de référence pour le français est CamemBERT, développé par l’Inria et Facebook AI. Il est pré-entraîné sur un corpus français de 138 Go et disponible sur Hugging Face. FlauBERT est une autre option. Ces modèles se fine-tunent de la même manière que BERT anglais, avec les mêmes outils (Hugging Face Transformers, PyTorch).

BERT est-il encore utilisé en production en 2026 ?

Oui, massivement. BERT et ses variantes (RoBERTa, DistilBERT, CamemBERT) sont déployés dans des milliers d’applications en production : classification de tickets support, détection de spam, extraction d’entités, analyse de sentiment. Leur faible latence (quelques ms), leur coût d’inférence modeste et leur facilité de fine-tuning les rendent difficiles à remplacer, même face aux LLM plus récents.