Word2Vec

Definition Word2Vec est un modele d’apprentissage de representations vectorielles de mots (word embeddings) developpe par Tomas Mikolov et al. chez Google en 2013. Il apprend a representer chaque mot comme un vecteur dense dans un espace continu, ou les mots semantiquement proches ont des vecteurs proches. C’est le modele qui a lance la revolution des embeddings en NLP.

Propriete	Detail
Categorie	Modele de word embeddings
Createurs	Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean (Google, 2013)
Architectures	CBOW (Continuous Bag of Words) et Skip-gram
Apprentissage	Auto-supervise sur corpus non annote
Dimensions typiques	100, 200 ou 300 dimensions
Heritage	Fondement de tous les embeddings modernes, y compris ceux des LLMs

Contexte historique

Avant Word2Vec, la representation standard du texte en NLP etait le bag-of-words ou les representations creuses (sparse) comme TF-IDF. Chaque mot etait un index dans un vocabulaire, sans notion de similarite entre mots. Les premieres tentatives de representations denses (Bengio et al., 2003, avec les neural language models) existaient mais etaient couteuses a entrainer.

L’innovation de Word2Vec est d’avoir propose des architectures suffisamment simples et efficaces pour entrainer des embeddings sur des corpus de milliards de mots en quelques heures sur un seul CPU. Les papiers de Mikolov et al. (2013) ont eu un impact transformateur sur le domaine, demontrant que des vecteurs de mots appris capturaient des relations semantiques et syntaxiques riches, y compris des analogies arithmetiques.

La celebre equation vec(« roi ») – vec(« homme ») + vec(« femme ») ≈ vec(« reine ») a frappe l’imagination de la communaute de recherche et a catalyse une explosion de travaux sur les representations vectorielles. Word2Vec est devenu l’un des papiers les plus cites de l’histoire du machine learning.

Architecture CBOW (Continuous Bag of Words)

L’architecture CBOW predit le mot central a partir de son contexte. Pour une fenetre de contexte de taille w, le modele recoit les w mots avant et w mots apres la position cible, et doit predire le mot a cette position. Par exemple, avec w = 2 et la phrase « Le chat noir dort paisiblement », pour predire « noir », le modele recoit [« Le », « chat », « dort », « paisiblement »] comme contexte.

L’architecture est un reseau a deux couches. La couche d’entree projette chaque mot du contexte dans l’espace d’embedding via une matrice partagee W (de taille V x d, ou V est la taille du vocabulaire et d la dimension d’embedding). Les embeddings du contexte sont moyennes pour obtenir un vecteur de contexte unique. La couche de sortie projette ce vecteur de contexte vers l’espace du vocabulaire via une seconde matrice W’ (de taille d x V), et un softmax produit une distribution de probabilite sur tous les mots.

L’objectif d’entrainement est de maximiser la probabilite du mot correct etant donne le contexte. CBOW est rapide a entrainer car chaque exemple d’entrainement est un seul forward + backward pass. Il est plus performant que Skip-gram sur les mots frequents car il moyenne les informations de plusieurs mots de contexte.

Architecture Skip-gram

L’architecture Skip-gram inverse le probleme : elle predit les mots de contexte a partir du mot central. Pour chaque mot de la sequence, le modele doit predire chacun des mots dans une fenetre de contexte autour de lui. Pour le mot « noir » dans « Le chat noir dort paisiblement » avec w = 2, le modele doit predire « Le », « chat », « dort » et « paisiblement » separement.

L’architecture est similaire a CBOW mais inversee : le mot d’entree est projete dans l’espace d’embedding, puis projete vers l’espace du vocabulaire pour predire chaque mot de contexte independamment. Skip-gram produit un exemple d’entrainement par paire (mot central, mot de contexte), ce qui en fait un plus grand nombre d’exemples par phrase que CBOW.

Skip-gram est generalement meilleur que CBOW pour les mots rares et les petits corpus, car chaque mot rare genere plusieurs paires d’entrainement. C’est la variante la plus souvent citee et utilisee de Word2Vec. Les embeddings pre-entraines de Google distribues publiquement (Google News vectors, 3M de mots en 300 dimensions) utilisent Skip-gram.

Techniques d’entrainement efficaces

Negative Sampling

Le calcul du softmax sur un vocabulaire de centaines de milliers de mots est extremement couteux. Le Negative Sampling (NEG), propose dans le meme papier, remplace le softmax complet par un objectif binaire : pour chaque paire positive (mot, contexte reel), on echantillonne k paires negatives (mot, contexte aleatoire) et on entraine un classifieur binaire a distinguer les paires positives des negatives.

Typiquement, k = 5 a 20 mots negatifs par exemple positif suffisent. Cela reduit le cout par exemple d’entrainement de O(V) (taille du vocabulaire) a O(k), une reduction de plusieurs ordres de grandeur. L’echantillonnage des negatifs suit une distribution proportionnelle a la frequence des mots elevee a la puissance 3/4, ce qui surrepresente legerement les mots rares.

Hierarchical Softmax

Alternative au negative sampling, le hierarchical softmax organise le vocabulaire en un arbre binaire (arbre de Huffman) ou les mots frequents sont proches de la racine. La prediction se fait par un chemin dans l’arbre, reduisant la complexite de O(V) a O(log V). Cette technique est moins utilisee que le negative sampling en pratique.

Subsampling des mots frequents

Les mots tres frequents (« le », « de », « the », « a ») apportent peu d’information semantique mais dominent les paires d’entrainement. Word2Vec applique un subsampling qui supprime aleatoirement les occurrences de mots frequents avec une probabilite proportionnelle a leur frequence. Cela accelere l’entrainement et ameliore la qualite des embeddings des mots rares.

Proprietes des embeddings Word2Vec

Analogies vectorielles

La propriete la plus celebre de Word2Vec est la capacite a resoudre des analogies par arithmetique vectorielle. vec(« Paris ») – vec(« France ») + vec(« Italie ») ≈ vec(« Rome »). vec(« marche ») – vec(« marcher ») + vec(« nager ») ≈ vec(« nage »). Ces analogies fonctionnent parce que les relations semantiques sont encodees comme des directions relativement constantes dans l’espace d’embedding.

En pratique, on resout ces analogies en cherchant le mot dont l’embedding est le plus proche (par similarite cosinus) du vecteur calcule. La precision varie selon le type de relation (geographique, morphologique, semantique) et la taille du corpus d’entrainement. Sur le benchmark standard d’analogies, Word2Vec atteint environ 60 a 75% de precision.

Clustering semantique

Les embeddings Word2Vec regroupent naturellement les mots par champ semantique. Visualises en 2D via t-SNE, on observe des clusters pour les pays, les capitales, les animaux, les verbes d’action, les adjectifs de couleur, etc. Cette structure est emergente : elle n’est pas supervisee mais resulte des regularites contextuelles du corpus.

Relations syntaxiques

Au-dela des relations semantiques, Word2Vec capture aussi des relations syntaxiques : les pluriels, les conjugaisons, les comparatifs/superlatifs. La direction « singulier vers pluriel » est relativement constante : vec(« chats ») – vec(« chat ») ≈ vec(« chiens ») – vec(« chien »).

Comparaison avec GloVe et FastText

Critere	Word2Vec	GloVe	FastText
Methode	Fenetre de contexte locale	Matrice de co-occurrence globale	N-grammes de caracteres
Mots inconnus (OOV)	Non geres	Non geres	Geres (somme des n-grammes)
Statistiques	Locales (fenetre)	Globales (corpus entier)	Locales + sous-mots
Morphologie	Non capturee	Non capturee	Bien capturee
Entrainement	Rapide	Rapide (factorisation)	Modere
Qualite sur mots rares	Faible	Faible	Bonne

Heritage dans les modeles modernes

Bien que Word2Vec ne soit plus utilise directement en production en 2026, son heritage est omnipresent dans les architectures modernes. La couche d’embedding de tout Transformer est conceptuellement identique a une matrice Word2Vec : elle associe chaque token ID a un vecteur dense appris. La difference est que les couches de self-attention transforment ensuite ces embeddings statiques en representations contextuelles.

Les objectifs d’entrainement des LLMs sont des generalisations de l’objectif de Word2Vec. Le Skip-gram predit les mots de contexte a partir du mot central ; un LLM autoregressif predit le mot suivant a partir de tout le contexte precedent. L’objectif de masked language modeling de BERT est proche de CBOW : predire un mot masque a partir de son contexte bidirectionnel.

Les modeles d’embedding pour la recherche semantique (Sentence Transformers, text-embedding-3 d’OpenAI) utilisent des techniques de contrastive learning qui sont des descendants directs du negative sampling de Word2Vec, appliques a des phrases entieres plutot qu’a des mots individuels.

L’idee que des representations vectorielles distribuees capturent la semantique de maniere utilisable par des operations algebriques est le fondement conceptuel de tout le NLP moderne, des bases de donnees vectorielles au RAG en passant par les LLMs.

Utilisation pratique en 2026

Word2Vec reste utilise dans des contextes specifiques. Pour l’enseignement, c’est l’outil ideal pour comprendre les embeddings : simple a entrainer (gensim en Python), rapide a experimenter, et les analogies vectorielles sont un excellent outil pedagogique. Pour les systemes a faibles ressources, ou un Transformer serait trop couteux, des embeddings Word2Vec pre-entraines offrent des representations utilisables pour la classification, le clustering ou la recherche a un cout minimal.

Pour les domaines specialises, entrainer un Word2Vec sur un corpus de domaine (medical, juridique, scientifique) produit des embeddings qui capturent les specificites du vocabulaire technique. C’est plus rapide et moins couteux que de fine-tuner un LLM, et suffisant pour des taches comme la recherche par similarite ou la categorisation de documents.

En Python avec gensim, entrainer un Word2Vec se fait en quelques lignes : model = Word2Vec(sentences, vector_size=300, window=5, min_count=5, workers=4). Les modeles pre-entraines (Google News, Wikipedia) sont telechargeables et utilisables immediatement pour calculer des similarites et resoudre des analogies.

Astuce Polydesk Pour debuter en NLP, implementez Word2Vec avec gensim sur un corpus francais (Wikimedia dumps). Experimentez avec les analogies, visualisez les embeddings avec t-SNE, et comparez avec un modele Sentence Transformer moderne. Cette progression illustre parfaitement l’evolution du NLP des embeddings statiques aux representations contextuelles.

Limites de Word2Vec

Word2Vec a des limitations fondamentales qui expliquent pourquoi il a ete depasse. Un seul vecteur par mot, quel que soit le contexte, est sa limite principale : « banque » a le meme embedding dans « banque financiere » et « banque de riviere ». Les mots inconnus ne peuvent pas etre representes (contrairement a FastText). Les embeddings ne capturent que le contexte local (fenetre de quelques mots), pas les dependances longue distance. Et les embeddings sont fixes apres entrainement : ils ne s’adaptent pas a un nouveau contexte ou domaine sans re-entrainement.

Ces limitations ont motive le developpement d’ELMo (embeddings contextuels via LSTM), puis de BERT et des Transformers, qui produisent des embeddings differents pour chaque occurrence d’un mot selon son contexte. Neanmoins, Word2Vec reste un jalon historique essentiel dont les concepts fondamentaux perdurent dans toute l’IA moderne.

Questions frequentes

Que fait Word2Vec exactement ?

Word2Vec transforme chaque mot d’un vocabulaire en un vecteur numerique dense (typiquement 300 dimensions) de sorte que les mots qui apparaissent dans des contextes similaires aient des vecteurs proches. Il apprend ces representations de maniere auto-supervisee a partir d’un corpus de texte, sans aucune annotation manuelle.

Quelle est la difference entre CBOW et Skip-gram ?

CBOW predit le mot central a partir de ses mots de contexte (contexte -> mot). Skip-gram fait l’inverse : il predit les mots de contexte a partir du mot central (mot -> contexte). Skip-gram est generalement meilleur pour les mots rares et les petits corpus, CBOW est plus rapide et meilleur sur les mots frequents.

Word2Vec est-il encore pertinent en 2026 ?

Comme outil de production, Word2Vec a ete remplace par les embeddings contextuels des Transformers. Mais ses concepts sont omnipresents : la couche d’embedding de tout LLM est un descendant de Word2Vec. Il reste incontournable pour l’enseignement du NLP et utile pour des taches simples a faibles ressources.

Comment fonctionne l’analogie « roi – homme + femme = reine » ?

Les relations semantiques sont encodees comme des directions dans l’espace vectoriel. La direction « masculin vers feminin » est relativement constante : vec(« roi ») – vec(« homme ») ≈ vec(« reine ») – vec(« femme »). Soustraire « homme » et ajouter « femme » applique cette transformation de genre au concept de « roi », produisant un vecteur proche de « reine ».

Qu’est-ce que le negative sampling dans Word2Vec ?

Le negative sampling remplace le couteux softmax sur tout le vocabulaire par un objectif binaire. Pour chaque paire reelle (mot, contexte), on echantillonne k mots aleatoires comme « faux contextes » et on entraine le modele a distinguer les vrais des faux. Cela reduit la complexite de O(V) a O(k), ou k vaut typiquement 5 a 20.