Word Embedding (Plongement de Mots)

Definition Un word embedding (plongement de mots) est une representation d’un mot sous forme de vecteur numerique dense dans un espace continu de dimension fixe. Les mots semantiquement proches ont des vecteurs proches dans cet espace. C’est le mecanisme fondamental qui permet aux reseaux de neurones de traiter du texte.

Propriete	Detail
Categorie	Representation de texte (NLP)
Principe	Chaque mot/token est associe a un vecteur dense appris
Methodes historiques	Word2Vec, GloVe, FastText
Methodes modernes	Couche d’embedding des Transformers, Sentence Transformers
Dimensions typiques	100-300 (statiques), 768-12288 (contextuels/LLMs)
Applications	Recherche semantique, RAG, clustering, classification

Pourquoi les embeddings sont necessaires

Les ordinateurs ne comprennent pas les mots. Pour qu’un reseau de neurones traite du texte, chaque token doit etre converti en un vecteur numerique. L’approche la plus naive, le one-hot encoding, represente chaque mot comme un vecteur ou tous les elements sont 0 sauf un. Pour un vocabulaire de 100 000 mots, chaque mot serait un vecteur de 100 000 dimensions avec un seul « 1 ». C’est catastrophiquement inefficace et ne capture aucune relation semantique entre les mots.

Les word embeddings resolvent ce probleme en representant chaque mot comme un vecteur dense de quelques centaines (ou milliers) de dimensions, ou les valeurs sont des nombres reels appris pendant l’entrainement. Deux mots semantiquement proches (« roi » et « reine », « chien » et « chat ») ont des vecteurs proches dans cet espace, tandis que des mots sans rapport (« roi » et « voiture ») ont des vecteurs eloignes.

La decouverte fondatrice de Word2Vec (Mikolov et al., 2013) est que ces vecteurs capturent des relations semantiques sous forme d’operations arithmetiques : vec(« roi ») – vec(« homme ») + vec(« femme ») est approximativement vec(« reine »). Cette propriete, appelee analogie vectorielle, demontre que les embeddings capturent des structures semantiques profondes.

Embeddings statiques (Word2Vec, GloVe, FastText)

Word2Vec

Word2Vec (Mikolov et al., Google, 2013) est le modele fondateur qui a popularise les word embeddings. Il propose deux architectures : CBOW (Continuous Bag of Words), qui predit un mot a partir de son contexte, et Skip-gram, qui predit le contexte a partir d’un mot. Word2Vec s’entraine sur des corpus non annotes via un objectif autosupervise et produit des vecteurs de 100 a 300 dimensions.

GloVe

GloVe (Global Vectors, Pennington et al., Stanford, 2014) combine les avantages des methodes de co-occurrence matricielle et de Word2Vec. Il construit une matrice de co-occurrence globale, puis factorise cette matrice pour obtenir des vecteurs denses. GloVe capture mieux les statistiques globales du corpus que Word2Vec.

FastText

FastText (Bojanowski et al., Facebook/Meta, 2017) ameliore Word2Vec en representant chaque mot comme la somme de ses n-grammes de caracteres. Le mot « bonjour » est represente par les n-grammes « bon », « onj », « njo », « jou », « our » (plus le mot entier). Cela permet de calculer des embeddings pour des mots inconnus (out-of-vocabulary) en sommant les n-grammes connus, et ameliore la representation des langues morphologiquement riches.

Les embeddings statiques ont une limitation majeure : chaque mot a un seul vecteur, quel que soit le contexte. Le mot « banque » a le meme embedding dans « la banque de la riviere » et « la banque financiere ». Les embeddings contextuels des Transformers resolvent ce probleme.

Embeddings contextuels

Avec l’avenement de BERT (2018) et des Transformers, les embeddings sont devenus contextuels : le vecteur d’un mot depend de son contexte dans la phrase. Le mot « banque » a un embedding different dans « la banque de la riviere » et « la banque financiere ». Chaque couche du Transformer produit une representation differente du meme token, chaque couche capturant un niveau d’abstraction different.

Dans un LLM comme GPT-4 ou Claude, la couche d’embedding initiale convertit chaque token ID en un vecteur statique (lookup dans la matrice d’embedding), puis les couches successives de self-attention et de feedforward transforment ces vecteurs en representations de plus en plus contextualisees. La sortie de la derniere couche est un embedding hautement contextuel qui capture le sens du token dans son contexte complet.

Les dimensions sont bien plus elevees que les embeddings statiques : 768 pour BERT-base, 4096 pour Llama 3 8B, 8192 pour GPT-4. Ces dimensions plus elevees permettent de capturer des nuances semantiques plus fines et des relations contextuelles plus complexes.

Role de l’embedding dans un LLM

Dans un LLM, la matrice d’embedding (aussi appelee token embedding table) est le premier composant du modele. Elle transforme chaque token ID (un entier) en un vecteur de dimension d_model. Pour un modele avec un vocabulaire de 128K tokens et une dimension de 4096, cette matrice contient 128 000 x 4 096 = 524 millions de parametres, soit une portion significative du modele.

L’embedding initial est ensuite additionne au positional encoding pour injecter l’information de position. Le vecteur resultant passe a travers les couches de self-attention et feedforward du Transformer. La couche finale du modele projette la representation vers l’espace du vocabulaire (via la « unembedding » ou « LM head »), produisant des logits pour chaque token possible.

Dans de nombreux LLMs, les poids de la matrice d’embedding d’entree et de la matrice de sortie (LM head) sont partages (weight tying). Cela reduit le nombre de parametres et cree une coherence entre l’espace d’entree et l’espace de sortie.

Embeddings pour la recherche semantique et le RAG

L’une des applications les plus importantes des embeddings en 2026 est la recherche semantique, qui est le fondement des systemes de RAG (Retrieval-Augmented Generation). Des modeles specialises comme les Sentence Transformers produisent des embeddings de phrases ou de paragraphes entiers, optimises pour que les textes semantiquement similaires aient des embeddings proches.

Le processus est le suivant : on encode les documents d’une base de connaissances en embeddings, stockes dans une base de donnees vectorielle. Quand un utilisateur pose une question, la question est encodee en embedding, et les documents les plus similaires (par similarite cosinus ou produit scalaire) sont recuperes. Ces documents sont ensuite passes au LLM comme contexte pour generer une reponse informee.

Les modeles d’embedding specialises pour la recherche (text-embedding-3 d’OpenAI, Cohere Embed, BGE, E5, GTE) sont entraines avec des objectifs de contrastive learning pour que les paires de textes semantiquement liees aient des embeddings proches et les paires non liees des embeddings eloignes.

Proprietes mathematiques

Les embeddings vivent dans un espace vectoriel ou les operations standard ont un sens semantique. La similarite cosinus entre deux vecteurs mesure leur proximite semantique (valeur entre -1 et 1, ou 1 signifie identique). La distance euclidienne mesure l’ecart absolu. Le produit scalaire combine similarite directionnelle et magnitude.

Les analogies vectorielles (vec(« Paris ») – vec(« France ») + vec(« Allemagne ») ≈ vec(« Berlin »)) fonctionnent car les embeddings encodent les relations semantiques comme des directions dans l’espace. La direction « capitale de » est relativement constante pour differents pays, ce qui permet ces calculs.

Le clustering des embeddings revele des groupes semantiques : les noms d’animaux se regroupent, les verbes d’action se regroupent, les termes techniques d’un domaine se regroupent. Des techniques comme t-SNE et UMAP permettent de visualiser ces clusters en 2D.

Astuce Polydesk Pour integrer la recherche semantique dans vos projets, utilisez les Sentence Transformers (pip install sentence-transformers) avec un modele comme « all-MiniLM-L6-v2 » (rapide) ou « bge-large-en-v1.5 » (plus precis). Combinez avec une base vectorielle comme ChromaDB ou Pinecone pour construire un systeme de RAG complet.

Questions frequentes

Quelle est la difference entre un embedding statique et contextuel ?

Un embedding statique (Word2Vec, GloVe) assigne un vecteur fixe a chaque mot, quel que soit le contexte. Un embedding contextuel (BERT, GPT) produit un vecteur different pour le meme mot selon le contexte : « banque » dans « banque financiere » et « banque de riviere » a deux vecteurs differents.

A quoi servent les embeddings dans un LLM ?

Les embeddings sont la couche d’entree du LLM : ils convertissent chaque token (un entier) en un vecteur dense que le Transformer peut traiter. C’est la premiere transformation du texte en nombres. Les couches suivantes transforment ces embeddings initiaux en representations de plus en plus riches et contextuelles.

Comment les embeddings sont-ils utilises dans le RAG ?

Dans un systeme de RAG, les documents sont convertis en embeddings et stockes dans une base vectorielle. La question de l’utilisateur est aussi convertie en embedding, puis les documents les plus similaires sont recuperes par similarite cosinus et fournis au LLM comme contexte pour generer une reponse precise.

Word2Vec est-il encore utilise en 2026 ?

Word2Vec est rarement utilise directement en production en 2026, remplace par les embeddings contextuels des Transformers. Cependant, il reste fondamental pour l’enseignement du NLP et ses concepts (similarite vectorielle, analogies) sont la base de toutes les techniques modernes d’embeddings.

Combien de dimensions ont les embeddings modernes ?

Les embeddings statiques (Word2Vec, GloVe) ont 100 a 300 dimensions. Les LLMs utilisent 768 (BERT-base) a 12 288 (GPT-4) dimensions. Les modeles d’embedding pour la recherche semantique utilisent 384 a 1536 dimensions, selon le compromis precision/performance souhaite.