METEOR

METEOR (Metric for Evaluation of Translation with Explicit ORdering) est une métrique d’évaluation de texte généré qui améliore BLEU en intégrant la reconnaissance des synonymes, le stemming (réduction à la racine), et une pénalité d’ordre des mots, pour une meilleure corrélation avec le jugement humain.

Introduite par Satanjeev Banerjee et Alon Lavie à la Carnegie Mellon University en 2005, METEOR a été conçue pour résoudre les limites les plus criantes de BLEU : l’incapacité à reconnaître les synonymes, l’ignorance des variations morphologiques, et l’absence de pénalité pour le désordre des mots. En intégrant des ressources linguistiques comme WordNet (base de données de synonymes) et des stemmers, METEOR produit des scores qui corrèlent mieux avec les évaluations humaines, surtout au niveau de la phrase individuelle.

Nom complet: Metric for Evaluation of Translation with Explicit ORdering
Type: Métrique d’évaluation automatique avec matching sémantique
Auteurs: Satanjeev Banerjee, Alon Lavie (CMU, 2005)
Innovation: Synonymes (WordNet), stemming, pénalité de fragmentation
Plage: 0 à 1. Plus haut = meilleur.
Langues supportées: Anglais (complet), français, allemand, espagnol, tchèque, arabe (paraphrases + paramètres ajustés)
Usage: Traduction, résumé, image captioning, évaluation de génération de texte
Verdict: Meilleure corrélation humaine que BLEU grâce aux synonymes et au stemming, mais supplanté par BERTScore et COMET pour la traduction.

Le problème que METEOR résout

BLEU compare des chaînes de caractères exactes. Si la référence dit « chat » et le candidat dit « félin », BLEU ne voit aucune correspondance. Si la référence dit « annoncé » et le candidat dit « annonce », même problème. Et si le candidat contient les bons mots mais dans le mauvais ordre, les bigrammes et trigrammes de BLEU le pénalisent, mais les unigrammes non.

METEOR adresse ces trois failles :

Synonymes : « chat » et « félin » sont reconnus comme équivalents grâce à WordNet.

Stemming : « annoncé », « annonce », « annoncer », « annonçant » sont réduits à la même racine et matchent.

Ordre des mots : une pénalité de fragmentation réduit le score quand les mots matchés sont dispersés dans le candidat au lieu de former des blocs continus.

Comment METEOR fonctionne

Le calcul de METEOR se déroule en trois phases distinctes.

Phase 1 : Alignement des unigrammes

METEOR cherche à aligner chaque mot du candidat avec un mot de la référence, en essayant trois modules de matching dans l’ordre suivant :

Module 1 : Correspondance exacte. Le mot du candidat est identique au mot de la référence (après normalisation de la casse). « Chat » matche « chat ».

Module 2 : Correspondance par stemming. Les mots sont réduits à leur racine (via le Porter Stemmer pour l’anglais, Snowball pour d’autres langues). « Running » et « runs » deviennent tous deux « run » et matchent.

Module 3 : Correspondance par synonymie. Les mots sont des synonymes dans WordNet. « Happy » et « joyful » matchent car WordNet les relie comme synonymes.

L’ordre est important : les matchs exacts sont prioritaires sur le stemming, qui est prioritaire sur les synonymes. Chaque mot ne peut être aligné qu’une seule fois. Si plusieurs alignements sont possibles, METEOR choisit celui qui minimise le nombre de « croisements » (mots alignés dans un ordre différent).

Phase 2 : Score basé sur la précision et le rappel

À partir de l’alignement, METEOR calcule la précision (P) et le rappel (R) :

P = (mots alignés dans le candidat) / (total mots du candidat)
R = (mots alignés dans la référence) / (total mots de la référence)

Les deux sont combinés via une moyenne harmonique pondérée, avec un poids plus élevé sur le rappel (par défaut, le rappel compte 9 fois plus que la précision) :

F_mean = (10 · P · R) / (R + 9 · P)

Ce poids reflète le fait que couvrir les informations de la référence (rappel) est plus important que d’éviter les mots superflus (précision), une philosophie partagée avec ROUGE.

Phase 3 : Pénalité de fragmentation

METEOR pénalise les alignements « fragmentés » où les mots matchés sont dispersés dans des blocs séparés, au lieu de former des séquences continues. L’idée : un bon candidat devrait préserver l’ordre des mots de la référence.

Penalty = γ · (chunks / matched_unigrams)^β

Où « chunks » est le nombre de blocs continus de mots alignés, et γ (par défaut 0.5) et β (par défaut 3) sont des paramètres. Si tous les mots alignés forment un seul bloc continu (ordre parfait), la pénalité est minimale. Si chaque mot aligné est dans un bloc séparé (ordre complètement différent), la pénalité est maximale.

Le score final est :

METEOR = F_mean · (1 - Penalty)

Exemple de calcul

Référence : "The cat sat on the mat"
Candidat  : "The feline sat on a mat"

# Phase 1 : Alignement
# "The" → "The"     (exact)
# "feline" → "cat"  (synonyme via WordNet)
# "sat" → "sat"     (exact)
# "on" → "on"       (exact)
# "a" → aucun match
# "mat" → "mat"     (exact)

# Mots alignés : 5 sur 6 (candidat), 5 sur 6 (référence)

# Phase 2 : Précision et Rappel
P = 5/6 = 0.833
R = 5/6 = 0.833
F_mean = (10 · 0.833 · 0.833) / (0.833 + 9 · 0.833) = 0.833

# Phase 3 : Pénalité de fragmentation
# Alignements dans l'ordre : The-The, feline-cat, sat-sat, on-on, mat-mat
# 1 seul "chunk" continu (les alignements sont dans le même ordre)
# Penalty = 0.5 · (1/5)^3 = 0.5 · 0.008 = 0.004

# Score final
METEOR = 0.833 · (1 - 0.004) = 0.830

Notez que BLEU aurait pénalisé « feline » au lieu de « cat » (aucun match exact), et le bigramme « feline sat » n’existe pas dans la référence. METEOR reconnaît le synonyme et produit un score bien plus juste.

METEOR vs BLEU vs ROUGE

Aspect	METEOR	BLEU	ROUGE
Matching	Exact + stemming + synonymes + paraphrases	Exact uniquement	Exact (+ stemming optionnel)
Focus	Rappel pondéré (9:1 vs précision)	Précision	Rappel
Ordre des mots	Pénalité de fragmentation explicite	Via n-grammes d’ordre > 1	Via ROUGE-L (LCS)
Granularité	Bon au niveau phrase ET corpus	Fiable surtout au niveau corpus	Fiable surtout au niveau corpus
Corrélation humaine	Élevée (supérieure à BLEU)	Modérée	Modérée à élevée
Ressources requises	WordNet (anglais), stemmers, tables de paraphrases	Aucune	Aucune (stemmer optionnel)
Vitesse	Rapide (~500 phrases/sec)	Très rapide	Très rapide

Implémentation en Python

Avec NLTK

import nltk
from nltk.translate.meteor_score import meteor_score

# Télécharger les ressources nécessaires (une seule fois)
nltk.download('wordnet')
nltk.download('punkt_tab')

reference = "The cat sat on the mat".split()
candidate = "The feline sat on a mat".split()

# METEOR score (une seule référence)
score = meteor_score([reference], candidate)
print(f"METEOR : {score:.4f}")

# Avec plusieurs références
ref1 = "The cat sat on the mat".split()
ref2 = "A cat was sitting on the mat".split()
score = meteor_score([ref1, ref2], candidate)
print(f"METEOR (multi-ref) : {score:.4f}")

Avec Hugging Face Evaluate

import evaluate

meteor = evaluate.load("meteor")

results = meteor.compute(
    predictions=["The feline sat on a mat"],
    references=["The cat sat on the mat"]
)
print(f"METEOR : {results['meteor']:.4f}")

Forces et limites

Forces

Meilleure corrélation avec le jugement humain que BLEU. Grâce aux synonymes, au stemming et à la pénalité de fragmentation, METEOR capture mieux les nuances de qualité. C’est vrai au niveau de la phrase individuelle (où BLEU est très bruité) et au niveau du corpus.

Reconnaissance des variations linguistiques. « Running », « runs », « ran » sont tous reconnus comme le même concept. « Happy » et « joyful » aussi. Cela réduit considérablement les faux négatifs par rapport à BLEU.

Pénalité de fragmentation. Un candidat avec les bons mots dans le mauvais ordre est pénalisé, ce que les métriques basées uniquement sur les unigrammes ne font pas.

Équilibre précision-rappel configurable. Le poids relatif de la précision et du rappel peut être ajusté selon la tâche.

Limites

Dépendance aux ressources linguistiques. WordNet est riche pour l’anglais, mais beaucoup moins pour le français ou d’autres langues. Sans WordNet, METEOR perd son avantage principal (les synonymes). Le stemming est aussi moins performant pour les langues à morphologie complexe.

Complexité de calcul supérieure à BLEU. L’alignement, le stemming et la recherche de synonymes ajoutent du temps de calcul. C’est négligeable sur un petit corpus, mais peut compter pour des évaluations à très grande échelle.

Paramètres à ajuster par tâche et par langue. Les poids de précision/rappel et les coefficients de la pénalité de fragmentation doivent être calibrés. Les paramètres par défaut sont optimisés pour la traduction anglaise, pas pour le résumé en français.

Supplanté par les métriques apprises. BERTScore (basé sur les embeddings contextuels) et COMET (modèle entraîné sur des évaluations humaines) corrèlent encore mieux avec le jugement humain, sans dépendre de ressources linguistiques manuelles. METEOR reste un bon compromis entre les métriques purement lexicales (BLEU) et les métriques neuronales (BERTScore).

La place de METEOR aujourd’hui

METEOR occupe une position intermédiaire dans l’écosystème des métriques NLP. Elle est plus sophistiquée que BLEU et ROUGE (grâce aux synonymes et au stemming), mais moins puissante que les métriques neuronales modernes (BERTScore, COMET, MetricX). En pratique, METEOR est de moins en moins utilisée comme métrique principale dans les papiers de recherche récents, où COMET et BERTScore dominent pour la traduction. Elle reste pertinente comme composante d’une suite d’évaluation multi-métrique, surtout quand des ressources WordNet de qualité sont disponibles.

Pour les praticiens, la recommandation est de rapporter BLEU (pour la comparabilité historique) + COMET ou BERTScore (pour la corrélation humaine). METEOR est un bonus utile, pas une nécessité.

Questions fréquentes sur METEOR

Pourquoi METEOR corrèle-t-il mieux avec le jugement humain que BLEU ?

Trois raisons. (1) Les synonymes : quand un traducteur humain utilise « heureux » au lieu de « content », un évaluateur humain considère les deux comme corrects, et METEOR aussi (via WordNet). BLEU les traite comme deux mots différents. (2) Le stemming : les variations grammaticales (« marche »/ »marché »/ »marchant ») sont reconnues. (3) La pénalité de fragmentation : un texte avec les bons mots dans le mauvais ordre est dégradé, ce qui correspond au jugement humain. Ces trois améliorations réduisent les faux négatifs et les faux positifs par rapport à BLEU.

METEOR fonctionne-t-il bien pour le français ?

Partiellement. Le stemming fonctionne via le stemmer Snowball (qui supporte le français). Les synonymes sont la partie la plus faible : WordNet en français (Open Multilingual Wordnet) est beaucoup moins riche qu’en anglais. Les paraphrases sont disponibles pour le français dans la version officielle de METEOR (CMU). En pratique, METEOR pour le français est meilleur que BLEU (grâce au stemming et aux paraphrases limitées), mais BERTScore avec un modèle multilingue (CamemBERT, multilingual BERT) sera souvent plus fiable.

Quelle est la différence entre METEOR et BERTScore ?

METEOR utilise des règles linguistiques explicites (synonymes dans WordNet, stemming, paraphrases) pour aligner les mots. BERTScore utilise les embeddings contextuels d’un modèle BERT pour calculer la similarité sémantique entre les mots. BERTScore est plus flexible (il capture la similarité sémantique même sans dictionnaire de synonymes), indépendant de la langue (il utilise un modèle pré-entraîné), et corrèle généralement mieux avec le jugement humain. METEOR est plus rapide, plus interprétable (on voit quel type de match a été trouvé), et ne nécessite pas de GPU.

Comment METEOR gère-t-il les paraphrases ?

Au-delà des synonymes mot à mot (WordNet), METEOR peut matcher des expressions multi-mots via des tables de paraphrases. Par exemple, « take a break » et « have a rest » peuvent être reconnus comme équivalents si la table de paraphrases les contient. Ces tables sont construites à partir de corpus parallèles (traductions bilingues pivotées). La couverture est bonne pour l’anglais, limitée pour les autres langues. La version CMU de METEOR inclut des tables de paraphrases pour l’anglais, le français, l’allemand, l’espagnol, le tchèque et l’arabe.

Faut-il encore utiliser METEOR en 2026 ?

METEOR reste utile comme composante d’une suite d’évaluation multi-métrique, surtout pour les tâches en anglais où WordNet est riche. Pour la traduction, COMET est désormais la métrique apprise de référence, avec une meilleure corrélation humaine. Pour le résumé, ROUGE + BERTScore est le standard. METEOR est pertinente si vous avez besoin d’une métrique rapide, interprétable et qui reconnaît les synonymes sans GPU. Pour les papiers de recherche, elle est de moins en moins rapportée comme métrique principale.