Relevance (Pertinence) en Intelligence Artificielle

La relevance (pertinence) est un critère d’évaluation qui mesure à quel point la réponse générée par un modèle d’IA adresse effectivement la question posée, en sélectionnant les informations importantes et en évitant le contenu redondant ou hors sujet.

Catégorie: Métrique d’évaluation NLP / LLM / RAG
Type: Qualité de contenu (adéquation question-réponse)
Mesure: Pertinence par rapport à la requête, absence de redondance, complétude
Échelle G-Eval: 1 à 5 (summarization) ; 0 à 1 (RAGAS, DeepEval)
Métriques liées: Fluency, Coherence, Informativeness
Outils: G-Eval, DeepEval, RAGAS, Braintrust, Opik
Verdict: Critère discriminant majeur entre LLM : contrairement à la fluency, la relevance différencie encore nettement les modèles

Définition complète de la relevance

En évaluation des modèles de langage, la relevance répond à une question fondamentale : « La réponse du modèle traite-t-elle effectivement ce qu’on lui a demandé ? » C’est un critère centré sur l’adéquation entre l’intention de l’utilisateur et le contenu produit.

La relevance se distingue des autres dimensions d’évaluation par son objet : elle ne juge ni la forme du texte (fluency), ni sa structure logique (coherence), ni sa fidélité aux sources (consistency/faithfulness). Elle évalue strictement si le contenu est pertinent par rapport à la requête.

Concrètement, un texte « relevant » présente ces caractéristiques :

Caractéristique	Réponse pertinente	Réponse non pertinente
Adéquation	Répond directement à la question posée	Parle d’un sujet voisin mais pas de la question
Complétude	Couvre les aspects importants du sujet	Omet des informations essentielles
Concision	Pas de contenu superflu ni de remplissage	Noie l’information utile dans du bavardage
Focalisation	Reste centré sur le périmètre de la requête	Dérive vers des sujets connexes non demandés
Granularité	Niveau de détail adapté à la question	Trop vague ou trop détaillé par rapport au besoin

Relevance ≠ Exactitude factuelle Une réponse peut être parfaitement pertinente (elle traite bien le sujet demandé) tout en contenant des erreurs factuelles. Inversement, une réponse 100 % exacte sur le plan factuel peut être non pertinente si elle ne répond pas à la question. La relevance et la factualité sont des axes orthogonaux d’évaluation.

Les deux types de relevance en IA

Le terme « relevance » recouvre en réalité deux concepts distincts dans l’écosystème d’évaluation IA, selon que l’on évalue la réponse finale ou les documents récupérés par un système RAG.

Answer Relevancy (pertinence de la réponse)

L’Answer Relevancy évalue si la réponse générée par le LLM est pertinente par rapport à la question de l’utilisateur. C’est la métrique que vous utilisez pour évaluer la qualité du générateur dans un pipeline RAG, ou la qualité globale d’un chatbot.

Deux implémentations dominent :

RAGAS (Retrieval Augmented Generation Assessment) utilise une approche par « reverse engineering » de la question. Le principe : si la réponse est pertinente, un LLM devrait pouvoir reconstituer la question d’origine à partir de la réponse seule. RAGAS génère N questions artificielles à partir de la réponse, puis calcule la similarité cosinus moyenne entre les embeddings de ces questions générées et l’embedding de la question originale :

Answer Relevancy = (1/N) × Σ cos(E_gi, E_o)

Où E_gi est l’embedding de la i-ème question générée et E_o est l’embedding de la question originale. Le score varie en pratique entre 0 et 1 (bien que la similarité cosinus puisse théoriquement descendre à -1).

DeepEval adopte une approche différente, basée sur le comptage d’énoncés pertinents. Le LLM juge extrait d’abord tous les « statements » (affirmations) contenus dans la réponse, puis classe chacun comme pertinent ou non par rapport à la question :

Answer Relevancy = Nombre d'énoncés pertinents / Nombre total d'énoncés

Cette approche est plus interprétable que celle de RAGAS : vous pouvez inspecter quels énoncés ont été jugés non pertinents et comprendre pourquoi le score est ce qu’il est.

Contextual Relevancy (pertinence du contexte récupéré)

La Contextual Relevancy évalue si les documents ou chunks récupérés par le retriever d’un pipeline RAG sont pertinents pour produire la réponse attendue. C’est une métrique du retriever, pas du générateur.

Elle se décline en plusieurs métriques complémentaires :

Métrique	Ce qu’elle mesure	Quand l’utiliser
Contextual Relevancy	Les chunks récupérés sont-ils pertinents pour la question ?	Optimiser le chunk size et le top-K
Contextual Precision	Les chunks les plus pertinents sont-ils en tête de classement ?	Optimiser le modèle d’embedding et le ranking
Contextual Recall	Tous les éléments nécessaires sont-ils récupérés ?	Éviter les réponses incomplètes

L’ensemble forme ce qu’on appelle le « RAG Triad » avec l’Answer Relevancy et la Faithfulness (fidélité). Si un pipeline RAG obtient des scores élevés sur ces trois métriques, vous pouvez être raisonnablement confiant dans sa qualité globale.

Diagnostic rapide avec le RAG Triad Un score de Contextual Relevancy bas indique que votre retriever ramène trop de bruit. Augmentez la taille des chunks ou réduisez le top-K. Un score d’Answer Relevancy bas avec un Contextual Relevancy correct pointe vers un problème de prompt template dans votre générateur. Un score de Faithfulness bas signale des hallucinations : le LLM invente au lieu de s’appuyer sur le contexte.

La relevance dans G-Eval

Dans le framework G-Eval (présenté à EMNLP 2023), la relevance est l’une des quatre dimensions d’évaluation pour le résumé de texte, aux côtés de la cohérence, de la consistency et de la fluency.

La définition originale du papier est précise : la relevance évalue la sélection du contenu important du document source. Le résumé doit inclure uniquement les informations importantes du document source. Les annotateurs sont instruits de pénaliser les résumés contenant des redondances ou des informations excessives.

En pratique, le prompt G-Eval pour la relevance suit ce schéma :

Evaluation Criteria:
Relevance (1-5) - selection of important content from the source.
The summary should include only important information from the
source document. Annotators were instructed to penalize summaries
which contained redundancies and excess information.

Evaluation Steps:
1. Read the summary and the source document carefully.
2. Compare the summary to the source document and identify the
   main points of the article.
3. Assess how well the summary covers the main points of the
   article, and how much irrelevant or redundant information
   it contains.
4. Assign a relevance score from 1 to 5.

Sur le benchmark SummEval, G-Eval avec GPT-4 surpasse toutes les métriques traditionnelles (BERTScore, BARTScore, GPTScore) en corrélation avec les jugements humains. L’implémentation de référence de Microsoft dans PromptFlow est disponible en open source et a été validée par méta-évaluation.

La subjectivité de la relevance La relevance est la dimension d’évaluation la plus subjective. Ce qui est « important » dans un document dépend du contexte et de l’audience. Deux experts peuvent légitimement avoir des avis différents sur ce qu’un résumé devrait inclure. C’est pour cette raison que la relevance est plus difficile à évaluer automatiquement que la consistency (fidélité factuelle), qui est plus objective.

Comment mesurer la relevance en pratique

1. LLM-as-a-Judge (recommandé)

L’approche LLM-as-a-Judge est la méthode la plus adaptée pour évaluer la relevance à grande échelle. Voici une implémentation concrète avec DeepEval :

Answer Relevancy pour un pipeline RAG :

from deepeval.metrics import AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase
from deepeval import evaluate

# Définir la métrique
answer_relevancy = AnswerRelevancyMetric(
    threshold=0.7,
    model="gpt-4.1",
    include_reason=True
)

# Créer le cas de test
test_case = LLMTestCase(
    input="Quels sont les tarifs de Claude Pro ?",
    actual_output="Claude est développé par Anthropic. "
                  "L'abonnement Claude Pro coûte 20 $/mois "
                  "et donne accès à Opus 4.6 et Sonnet 4.6. "
                  "Anthropic a été fondée en 2021.",
    retrieval_context=[
        "Claude Pro : 20 $/mois, accès à tous les modèles, "
        "limites d'utilisation étendues."
    ]
)

evaluate(test_cases=[test_case], metrics=[answer_relevancy])
print(f"Score : {answer_relevancy.score}")
print(f"Raison : {answer_relevancy.reason}")
# Score attendu : moyen (la phrase sur la fondation d'Anthropic
# est non pertinente par rapport à la question sur les tarifs)

Relevance personnalisée avec G-Eval :

from deepeval.metrics import GEval
from deepeval.test_case import LLMTestCase, LLMTestCaseParams

relevance_metric = GEval(
    name="Relevance",
    criteria="Évalue si la réponse traite directement et "
             "complètement la question posée, sans contenu "
             "redondant ni hors sujet. Pénalise les réponses "
             "qui dérivent ou qui omettent des aspects importants.",
    evaluation_params=[
        LLMTestCaseParams.INPUT,
        LLMTestCaseParams.ACTUAL_OUTPUT
    ],
    threshold=0.7
)

Avec RAGAS :

from ragas.metrics.collections import AnswerRelevancy
from ragas.llms import llm_factory
from ragas.embeddings.base import embedding_factory
from openai import AsyncOpenAI

client = AsyncOpenAI()
llm = llm_factory("gpt-4o-mini", client=client)
embeddings = embedding_factory(
    "openai", model="text-embedding-3-small", client=client
)

scorer = AnswerRelevancy(llm=llm, embeddings=embeddings)

result = await scorer.ascore(
    user_input="Quels sont les avantages du RAG ?",
    response="Le RAG combine la récupération de documents "
             "avec la génération pour réduire les hallucinations "
             "et fournir des réponses ancrées dans des données "
             "vérifiables.",
)
print(f"Score : {result.value}")

2. Métriques traditionnelles (limites connues)

Les métriques à base de n-grammes (BLEU, ROUGE, METEOR) ne mesurent pas directement la relevance. Elles évaluent le chevauchement lexical avec une référence, ce qui est un proxy faible de la pertinence :

Métrique	Pertinence comme proxy	Limite principale
ROUGE	ROUGE-recall mesure si les termes importants de la référence apparaissent	Ignore les reformulations ; un résumé différent mais tout aussi pertinent sera pénalisé
BLEU	La précision des n-grammes reflète partiellement la sélection du contenu	Conçu pour la traduction, pas pour évaluer la sélection de contenu
BERTScore	La similarité sémantique via embeddings capte mieux la pertinence	Ne distingue pas pertinence et simple similarité thématique
QuestEval	Génère des questions à partir du source et vérifie si la réponse y répond	Complexe à mettre en place, sensible à la qualité du générateur de questions

En résumé : les métriques n-grammes ont montré des corrélations faibles avec les jugements humains sur la relevance. Les approches par LLM-as-a-Judge sont recommandées pour toute évaluation sérieuse.

3. Évaluation humaine

L’évaluation humaine reste la référence absolue, surtout pour la relevance qui implique un jugement subjectif sur ce qui est « important ». Le protocole standard utilise une échelle Likert de 1 à 5 :

Score	Définition	Exemple (résumé d’un article sur le climat)
1	Totalement hors sujet	Parle de l’économie chinoise sans lien avec le climat
2	Tangentiellement lié, manque les points clés	Mentionne le climat mais ne couvre aucun point principal de l’article
3	Partiellement pertinent, certains points clés couverts	Couvre le réchauffement mais omet les recommandations politiques
4	Majoritairement pertinent, points essentiels présents	Couvre les faits majeurs avec quelques détails superflus
5	Parfaitement pertinent, contenu important et concis	Tous les points clés couverts, rien de superflu

La difficulté principale de l’évaluation humaine de la relevance est l’accord inter-annotateurs. Comme la notion de « contenu important » est subjective, les scores varient davantage entre annotateurs que pour la fluency ou la consistency. Prévoyez au moins 3 annotateurs par échantillon et mesurez le kappa de Cohen pour quantifier l’accord.

La relevance selon le cas d’usage

Pipelines RAG

C’est le domaine où la relevance est la plus critique. Un pipeline RAG a deux points de défaillance : le retriever peut récupérer des documents non pertinents (Contextual Relevancy basse), et le générateur peut produire une réponse qui ne traite pas la question malgré un contexte correct (Answer Relevancy basse).

Les frameworks RAGAS et DeepEval proposent des métriques spécialisées pour chaque composant. La pratique recommandée est d’évaluer les deux séparément pour identifier lequel nécessite une optimisation. Si la Contextual Relevancy est basse, travaillez sur votre modèle d’embedding, la taille des chunks ou la valeur de top-K. Si l’Answer Relevancy est basse avec un contexte correct, itérez sur votre prompt template.

Résumé de texte

En summarization, la relevance évalue la capacité du modèle à extraire les informations les plus importantes du document source. Un résumé peut être factuel (haute consistency) et bien écrit (haute fluency) tout en passant à côté des points essentiels (basse relevance).

Le framework G-Eval évalue la relevance en summarization sur une échelle de 1 à 5, avec une instruction explicite de pénaliser les résumés contenant des redondances ou du contenu excessif. L’implémentation de Microsoft dans PromptFlow est la référence open source pour cette tâche.

Chatbots et Question-Answering

Pour les chatbots et systèmes de question-answering, la relevance est souvent le critère numéro un côté utilisateur. Un chatbot de support client qui répond à côté de la question, même de manière fluide et factuelle, échoue à sa mission. Les métriques d’Answer Relevancy de DeepEval et RAGAS sont directement applicables à ce cas d’usage.

Recherche IA et moteurs de réponse

Les moteurs de recherche IA comme Perplexity ou le mode recherche de ChatGPT doivent maximiser la relevance de leurs réponses par rapport aux requêtes. Ici, la relevance se rapproche du concept classique de pertinence en recherche d’information (precision@K, nDCG), mais appliquée aux réponses génératives plutôt qu’aux listes de liens.

E-commerce et éducation

En e-commerce, la relevance se mesure par la capacité du modèle à générer des descriptions de produits ou des réponses de support qui correspondent précisément au besoin du client. En éducation, elle évalue si les explications générées répondent au niveau de compréhension de l’apprenant et à sa question spécifique.

Relevance comparée aux autres dimensions

Comprendre comment la relevance interagit avec les autres critères d’évaluation est essentiel pour diagnostiquer les problèmes d’un système IA :

Scénario	Fluency	Coherence	Relevance	Consistency	Diagnostic
Réponse parfaite	Haute	Haute	Haute	Haute	Tout va bien
Beau texte, hors sujet	Haute	Haute	Basse	N/A	Problème de prompt ou de retriever
Pertinent mais faux	Haute	Haute	Haute	Basse	Hallucination : le LLM invente au lieu d’utiliser le contexte
Pertinent mais illisible	Basse	Basse	Haute	Haute	Modèle trop petit ou langue peu couverte
Tout est mauvais	Basse	Basse	Basse	Basse	Modèle inadapté à la tâche, revoir l’architecture

La combinaison relevance haute + consistency basse est le cas le plus dangereux : la réponse semble pertinente et convaincante, mais elle contient des informations fausses. C’est le scénario typique d’une hallucination persuasive.

Bonnes pratiques pour évaluer la relevance

1. Séparez Answer Relevancy et Contextual Relevancy. Si vous opérez un pipeline RAG, évaluez toujours les deux indépendamment. Une basse Answer Relevancy avec une haute Contextual Relevancy pointe vers un problème de générateur (prompt template). L’inverse indique un problème de retriever (embedding, chunk size, top-K).

2. Utilisez le RAG Triad comme baseline. Answer Relevancy + Faithfulness + Contextual Relevancy forment le trio minimal pour évaluer un pipeline RAG. Si les trois métriques sont hautes, votre pipeline fonctionne correctement. Ajoutez ensuite des métriques custom (G-Eval) pour des critères spécifiques à votre domaine.

3. Préférez DeepEval à RAGAS pour la debuggabilité. L’implémentation DeepEval de l’Answer Relevancy fournit un raisonnement détaillé du LLM juge, ce qui vous permet de comprendre pourquoi un score est bas. RAGAS utilise une approche par similarité cosinus qui est plus rapide mais moins interprétable.

4. Intégrez l’évaluation dans votre CI/CD. DeepEval s’intègre nativement avec pytest. Vous pouvez configurer un workflow GitHub Actions qui exécute vos tests de relevance à chaque push ou pull request, avec un seuil de score minimum :

# .github/workflows/rag-tests.yml
name: RAG Testing
on: [push, pull_request]
jobs:
  test:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: Install dependencies
        run: pip install deepeval
      - name: Run relevance tests
        run: deepeval test run tests/test_relevance.py
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}

5. Surveillez le drift de relevance en production. La relevance peut se dégrader au fil du temps si votre base de connaissances n’est pas mise à jour, si les requêtes utilisateurs évoluent, ou si le modèle est mis à jour. Mettez en place un monitoring continu sur un échantillon de requêtes de production.

6. Attention aux biais du LLM juge. Les LLM évaluateurs présentent des biais documentés : biais de position (préférence pour le premier ou dernier élément), biais de verbosité (préférence pour les réponses longues), et biais d’auto-préférence (préférence pour le texte généré par des LLM). Pour la relevance spécifiquement, le biais de verbosité est le plus problématique : une réponse longue et détaillée peut recevoir un score de relevance élevé même si elle contient du remplissage.

Anti-pattern fréquent Ne vous fiez pas au score de relevance seul pour valider un pipeline RAG. Un score d’Answer Relevancy élevé ne garantit pas que la réponse est factuelle. Combinez toujours avec la Faithfulness pour détecter les hallucinations pertinentes (le pire type d’erreur).

L’évolution de la relevance comme critère d’évaluation

Contrairement à la fluency, qui est largement « résolue » pour les LLM de pointe, la relevance reste un critère activement discriminant. La recherche empirique basée sur des centaines de milliers d’annotations humaines confirme que l’informativeness et la pertinence sont les véritables différenciateurs entre modèles actuels.

Plusieurs tendances façonnent l’évolution de cette métrique :

Vers des évaluations plus granulaires. Les frameworks récents ne se contentent plus d’un score global de relevance. Ils décomposent le jugement en sous-critères : complétude, concision, adéquation du niveau de détail, absence de dérive thématique. G-Eval permet cette granularité via des critères custom.

Agent-as-a-Judge. Présentés à ICML 2025, les systèmes Agent-as-a-Judge utilisent des architectures multi-agents pour évaluer les sorties de LLM. Ils atteignent environ 90 % d’accord avec les experts humains (contre environ 70 % pour G-Eval simple), mais au prix d’une complexité et d’un coût accrus.

Évaluation multi-tours. Pour les chatbots conversationnels, la relevance doit être évaluée non seulement au niveau de chaque réponse, mais aussi dans le contexte de la conversation entière. DeepEval propose des équivalents multi-tours de chaque métrique RAG, avec une approche par fenêtre glissante pour détecter les problèmes de dérive contextuelle entre tours.

Évaluation multimodale. Avec l’essor des modèles multimodaux, la relevance s’étend à l’image, l’audio et la vidéo. Un modèle de vision-language doit produire des descriptions d’images pertinentes par rapport à la question posée, ce qui nécessite des métriques adaptées.

Verdict

La relevance est le critère d’évaluation le plus important pour les applications IA en production. Si votre modèle ne répond pas à la question posée, rien d’autre n’a d’importance : ni la fluency du texte, ni la cohérence de la structure, ni même l’exactitude factuelle.

Pour les pipelines RAG, le RAG Triad (Answer Relevancy + Faithfulness + Contextual Relevancy) est le minimum vital. Pour les chatbots et assistants, l’Answer Relevancy seule, évaluée par LLM-as-a-Judge, est un bon point de départ. Dans tous les cas, combinez avec d’autres métriques (factualité, cohérence) et intégrez l’évaluation dans votre pipeline CI/CD pour un monitoring continu.

Notre recommandation : commencez avec DeepEval pour sa debuggabilité et son intégration CI/CD native. Complétez avec des évaluations humaines sur un échantillon représentatif pour calibrer vos seuils.

Questions fréquentes sur la relevance en IA

Quelle est la différence entre Answer Relevancy et Contextual Relevancy ?

L’Answer Relevancy évalue si la réponse finale du LLM est pertinente par rapport à la question de l’utilisateur. La Contextual Relevancy évalue si les documents récupérés par le retriever sont pertinents pour produire cette réponse. Dans un pipeline RAG, vous devez mesurer les deux séparément : la première diagnostique le générateur (prompt, LLM), la seconde diagnostique le retriever (embedding, chunk size, top-K). Un pipeline peut avoir un excellent retriever (haute Contextual Relevancy) mais un mauvais prompt template qui fait dériver la réponse (basse Answer Relevancy).

Comment RAGAS calcule-t-il le score d’Answer Relevancy ?

RAGAS utilise une technique de « reverse engineering » : il demande à un LLM de générer N questions (par défaut 3) à partir de la réponse seule, puis calcule la similarité cosinus moyenne entre les embeddings de ces questions générées et l’embedding de la question originale. L’idée est que si la réponse est vraiment pertinente, un LLM devrait pouvoir reconstituer la question d’origine. Le score varie en pratique entre 0 et 1, avec des valeurs proches de 1 indiquant une haute pertinence.

Pourquoi la relevance est-elle plus importante que la fluency pour évaluer les LLM actuels ?

Les LLM modernes (GPT-5.4, Claude Opus 4.6, Gemini) produisent quasi systématiquement un texte fluide. La fluency ne discrimine donc plus entre modèles de pointe. En revanche, la capacité à fournir une réponse réellement pertinente, complète et ciblée reste un défi actif. Les études empiriques à grande échelle confirment que la pertinence et l’informativeness sont les véritables différenciateurs de qualité entre les modèles actuels.

Comment intégrer l’évaluation de relevance dans un pipeline CI/CD ?

DeepEval s’intègre nativement avec pytest. Vous créez un fichier de tests contenant vos cas de test (question, réponse attendue, contexte de récupération), vous définissez vos métriques avec des seuils minimums, puis vous ajoutez une étape deepeval test run dans votre workflow GitHub Actions ou GitLab CI. Chaque push déclenche automatiquement les tests, et le build échoue si un score passe sous le seuil. C’est la pratique recommandée pour éviter les régressions de qualité en production.

Quel outil choisir pour évaluer la relevance : RAGAS ou DeepEval ?

Les deux sont valides, mais avec des profils différents. RAGAS est pionnier et largement cité dans la recherche ; son approche par similarité cosinus est rapide et peu coûteuse. DeepEval utilise un LLM-as-a-Judge qui fournit un raisonnement détaillé, ce qui rend le debugging beaucoup plus facile. DeepEval offre aussi une intégration CI/CD native et gère mieux les cas limites (pas de scores NaN grâce au confinement JSON). Pour un premier déploiement, DeepEval est plus pratique. Pour de la recherche ou des évaluations à très grande échelle où le coût compte, RAGAS peut être préférable.