Faithfulness (Fidélité)

La faithfulness (fidélité) en IA mesure le degré auquel la réponse d’un LLM est factuellement cohérente avec les informations présentes dans le contexte qui lui a été fourni (documents récupérés, sources, prompt système). Une réponse faithful ne contient aucune affirmation qui contredit ou extrapole au-delà de ses sources.

Catégorie: Métrique d’évaluation des pipelines RAG et de résumé
Aussi appelé: Fidélité, factual consistency, groundedness, context-faithfulness
Distinction clé: Faithfulness ≠ Factualité. La faithfulness vérifie la cohérence avec les sources fournies, pas la vérité dans l’absolu
Formule: Score = affirmations supportées par le contexte / total des affirmations
Outils de mesure: RAGAS, DeepEval, FaithJudge, HHEM, MiniCheck, AlignScore, SummaC
Benchmarks: FaithBench (2025), FACTS Grounding, RAGTruth, FaithEval
Verdict: La métrique RAG la plus critique. Si votre pipeline RAG n’est pas faithful, il est pire qu’inutile : il fabrique des réponses avec l’apparence de la fiabilité

Faithfulness vs factualité : la distinction essentielle

Cette distinction est la plus importante à comprendre dans l’évaluation des LLM.

Factualité : la réponse est-elle vraie dans le monde réel ? Vérifiée contre l’ensemble des connaissances humaines. C’est un problème ouvert et fondamentalement difficile.

Faithfulness : la réponse est-elle fidèle aux sources fournies au modèle ? Vérifiée uniquement contre le contexte de retrieval. C’est un problème de comparaison textuelle, plus tractable.

Pourquoi cette distinction compte en pratique :

Scénario	Faithful ?	Factuel ?	Problème
Le modèle résume correctement un document qui contient une erreur	Oui	Non	Source fausse, résumé fidèle mais incorrect
Le modèle ajoute un fait vrai absent du document source	Non	Oui	Fait vrai mais non supporté par la source
Le modèle invente un fait non présent dans la source	Non	Non	Hallucination classique
Le modèle résume fidèlement un document factuel	Oui	Oui	Aucun (cas idéal)

Dans un pipeline RAG, la faithfulness est la métrique prioritaire pour le générateur. Si le modèle est faithful aux documents récupérés, la qualité de la réponse dépend essentiellement de la qualité du retriever (a-t-il récupéré les bons documents ?). Si le modèle n’est pas faithful, même de bons documents ne protègent pas contre les erreurs.

Pourquoi la faithfulness est plus facile à mesurer que la factualité Pour évaluer la factualité, il faut accéder à toute la connaissance du monde. Pour évaluer la faithfulness, il suffit de comparer la réponse au contexte fourni. C’est un problème de NLI (Natural Language Inference) : chaque affirmation de la réponse est-elle impliquée (entailed), contredite (contradicted) ou neutre par rapport au contexte ? Cette formulation permet une évaluation automatique plus fiable.

Comment la faithfulness est calculée

La formule standard, utilisée par RAGAS et DeepEval :

Faithfulness Score = Nombre d'affirmations supportées par le contexte
                    ÷ Nombre total d'affirmations dans la réponse

Le processus en deux étapes :

Étape 1 : Extraction des affirmations. Un LLM (ou un modèle NLI) identifie toutes les affirmations factuelles contenues dans la réponse. Par exemple, « Le Super Bowl a eu lieu le 15 janvier 1967 au Los Angeles Memorial Coliseum » contient deux affirmations (date et lieu).

Étape 2 : Vérification par rapport au contexte. Chaque affirmation est évaluée : peut-elle être inférée du contexte de retrieval fourni ? Une affirmation est considérée comme « truthful » (supportée) si elle ne contredit aucun fait présenté dans le contexte. Les affirmations non mentionnées dans le contexte mais non contradictoires sont traitées différemment selon les implémentations.

# Implémentation avec RAGAS
from ragas.metrics import Faithfulness
from ragas.dataset_schema import SingleTurnSample

sample = SingleTurnSample(
    user_input="Quand a eu lieu le premier Super Bowl ?",
    response="Le premier Super Bowl a eu lieu le 15 janvier 1967.",
    retrieved_contexts=[
        "The First AFL-NFL World Championship Game was an American "
        "football game played on January 15, 1967, at the Los Angeles "
        "Memorial Coliseum in Los Angeles."
    ]
)

scorer = Faithfulness(llm=evaluator_llm)
score = await scorer.single_turn_ascore(sample)
print(f"Faithfulness: {score}")  # → proche de 1.0

Outils et méthodes de mesure

LLM-as-Judge (approche dominante)

L’utilisation d’un LLM comme juge de la faithfulness est l’approche la plus corrélée avec le jugement humain, selon la review IEEE (2025) des métriques de faithfulness. Le LLM évalue si chaque affirmation est supportée par le contexte. Les frameworks RAGAS et DeepEval utilisent cette approche par défaut.

DeepEval implémente un LLM-as-Judge auto-explicatif : le métrique produit non seulement un score mais aussi une explication de pourquoi une affirmation est ou n’est pas supportée. C’est précieux pour le debugging des pipelines RAG.

HHEM (Hughes Hallucination Evaluation Model)

HHEM (Vectara) est un modèle de classification (basé sur T5) entraîné spécifiquement pour détecter les hallucinations dans les textes générés par LLM. Il est gratuit, petit et open-source, ce qui le rend très efficace en production. HHEM peut être utilisé comme alternative au LLM-as-Judge pour l’étape de vérification, réduisant les coûts d’évaluation. Le leaderboard HHEM de Vectara suit les taux d’hallucination de plus de 160 LLM différents depuis 2023.

FaithJudge

FaithJudge (EMNLP 2025 Industry Track) est un framework LLM-as-Judge qui utilise un pool d’exemples d’hallucinations annotés par des humains pour améliorer l’évaluation automatique. Avec o3-mini-high comme juge, FaithJudge atteint 84 % de balanced accuracy et 82,1 % de F1-macro sur FaithBench, surpassant significativement les méthodes de détection d’hallucination existantes.

Méthodes NLI (Natural Language Inference)

Les approches plus anciennes utilisent des modèles NLI pour évaluer l’implication (entailment) entre le contexte et chaque affirmation. SummaC agrège les scores d’implication au niveau des phrases. AlignScore étend cette approche au niveau des chunks. MiniCheck-7B (Bespoke Labs) est un modèle compact optimisé pour cette tâche.

FaithBench : le benchmark de référence

FaithBench (Bao et al., 2025) est le benchmark de référence pour évaluer la faithfulness des LLM en résumé. Il contient des annotations humaines d’hallucinations dans des résumés générés par 10 LLM modernes issus de 8 familles de modèles différentes. FaithBench distingue quatre niveaux :

Niveau	Description	Impact
Consistent	Le résumé est entièrement fidèle au document source	Aucun problème
Benign	Hallucination bénigne (formatage, paraphrase légère)	Faible impact
Questionable	Hallucination ambiguë, interprétation discutable	Impact modéré
Unwanted	Hallucination claire : fait inventé ou contredit	Impact sévère

L’annotation humaine montre un accord inter-annotateurs imparfait sur les niveaux Benign et Questionable, ce qui illustre la difficulté inhérente de l’évaluation de la faithfulness : même les humains ne sont pas toujours d’accord sur ce qui constitue une hallucination.

Faithfulness dans les pipelines RAG

Dans l’architecture RAG, la faithfulness est la métrique clé du générateur. Elle répond à la question : « Étant donné les documents récupérés, le LLM a-t-il généré une réponse fidèle à ces documents ? »

Les cinq métriques RAG standard (RAGAS framework) :

Métrique	Évalue	Composant
Faithfulness	Le générateur produit-il du contenu fidèle au contexte ?	Générateur
Answer Relevancy	La réponse est-elle pertinente par rapport à la question ?	Générateur
Contextual Precision	Les documents pertinents sont-ils bien classés ?	Retriever
Contextual Recall	Tous les documents pertinents ont-ils été récupérés ?	Retriever
Contextual Relevancy	Les documents récupérés sont-ils globalement pertinents ?	Retriever

La faithfulness est la seule métrique qui détecte directement les hallucinations du générateur. Les métriques de contexte évaluent le retriever. L’answer relevancy évalue la pertinence. Seule la faithfulness vérifie que le modèle ne fabrique pas de contenu. C’est pourquoi c’est la métrique la plus critique pour la fiabilité d’un pipeline RAG en production.

Améliorer la faithfulness

Grounding : plus le contexte fourni au modèle est riche et pertinent, plus il a de matière pour être faithful. Un retriever performant est le premier levier.

Prompting structuré : instruire le modèle de se baser uniquement sur les sources fournies et de ne rien ajouter d’autre. « Réponds uniquement en utilisant les informations des documents ci-dessous. Si l’information n’est pas dans les documents, dis-le. »

RAG avec self-critique : Self-RAG ajoute une étape de réflexion où le modèle évalue la pertinence des sources récupérées et sa propre faithfulness avant de finaliser la réponse.

Frameworks de prompting : les approches RAG et les frameworks de prompting structuré sont les deux méthodes les plus associées à une faithfulness supérieure, selon la review IEEE (2025).

Limiter la température : une température basse (0.0-0.3) réduit la créativité du modèle et augmente sa propension à rester fidèle aux sources. Pour les tâches de résumé ou de Q&A factuel, une température basse est recommandée.

Limites

Faithfulness ne garantit pas la factualité : un modèle parfaitement faithful à une source fausse produira une réponse fausse. La qualité des documents récupérés est le facteur limitant.

Métriques imparfaites : même FaithJudge, le meilleur détecteur automatique, n’atteint que 84 % de balanced accuracy. Les hallucinations subtiles (paraphrases déformantes, extrapolations légères) restent difficiles à détecter automatiquement.

Coût d’évaluation : l’évaluation par LLM-as-Judge consomme des tokens. Pour chaque réponse évaluée, vous payez au minimum un appel LLM supplémentaire. Les alternatives comme HHEM (modèle local) réduisent ce coût mais avec une précision légèrement inférieure.

Faithfulness en production : patterns et monitoring

L’évaluation de la faithfulness ne se fait pas uniquement au développement. En production, le monitoring continu est essentiel car la faithfulness peut dégrader silencieusement (model drift, changement de corpus documentaire, mise à jour du modèle).

Pipeline d’évaluation recommandé

# Pipeline de monitoring faithfulness en production
from deepeval.metrics import FaithfulnessMetric
from deepeval.test_case import LLMTestCase

metric = FaithfulnessMetric(
    threshold=0.8,
    model="gpt-4.1-mini",  # Modèle économique pour le monitoring
    include_reason=True
)

def evaluate_response(query, response, retrieved_contexts):
    test_case = LLMTestCase(
        input=query,
        actual_output=response,
        retrieval_context=retrieved_contexts
    )
    metric.measure(test_case)
    
    if metric.score < 0.8:
        # Alerte : faithfulness dégradée
        log_alert(f"Faithfulness {metric.score:.2f} < 0.8")
        log_detail(metric.reason)  # Explication du LLM juge
    
    return {"score": metric.score, "reason": metric.reason}

Échantillonnage : en production à haut volume, évaluez un échantillon représentatif (5-10 % des réponses) plutôt que chaque réponse. Utilisez un échantillonnage stratifié par type de requête pour couvrir les différents cas d’usage.

Alertes : configurez des seuils d’alerte : score moyen de faithfulness sous le seuil minimum, pourcentage de réponses sous le seuil, ou dégradation soudaine (plus de X points en Y heures).

Dashboard : affichez le score de faithfulness par jour, par type de requête, par source documentaire. Cela permet d’identifier rapidement les sources problématiques (documents mal indexés, obsolètes, ou ambigus).

Faithfulness multimodale

Avec l’essor des modèles multimodaux, la faithfulness s’étend au-delà du texte. RAGAS propose déjà des métriques de Multimodal Faithfulness et Multimodal Relevance. Pour un agent qui analyse une image et génère un texte, la faithfulness vérifie que le texte décrit fidèlement ce qui est visible dans l’image, sans inventer des éléments absents.

Ce domaine est encore émergent, mais il devient critique pour les applications de vision par ordinateur, d’analyse de documents scannés et d’assistance médicale basée sur l’imagerie. Les benchmarks comme CCHall (ACL 2025) commencent à évaluer spécifiquement les hallucinations multimodales, révélant des taux d’erreur significativement plus élevés que pour le texte seul.

Faithfulness conversationnelle

Dans les chatbots multi-tours, la faithfulness doit être évaluée à chaque tour de conversation. DeepEval propose une métrique « Turn Faithfulness » qui vérifie si les réponses du chatbot restent fidèles au contexte de retrieval à travers les tours. La dégradation de la faithfulness au fil d’une longue conversation est un phénomène documenté : à mesure que le contexte s’accumule, le modèle peut « oublier » les sources initiales et commencer à halluciner. Ce problème est particulièrement aigu pour les agents qui enchaînent des dizaines de tours avec des appels d’outils, où le volume de contexte accumulé peut dépasser les capacités d’attention effective du modèle.

Verdict

La faithfulness est la métrique qui sépare un pipeline RAG fiable d’un pipeline dangereux. Un score de faithfulness bas signifie que votre modèle fabrique du contenu en dehors de ses sources, ce qui est exactement ce que le RAG est censé empêcher. Mesurer la faithfulness est donc le premier test de qualité de tout pipeline RAG.

Les outils sont matures (RAGAS, DeepEval, FaithJudge, HHEM) et accessibles. L’implémentation en production est directe : évaluer un échantillon de réponses à chaque release, monitorer le score en continu, et alerter quand il chute. C’est aussi important que les tests unitaires dans un pipeline logiciel.

Pour les développeurs : fixez un seuil de faithfulness minimum (0.7 est un point de départ raisonnable) et n’acceptez pas de dégrader ce seuil. Si la faithfulness chute, le problème est soit dans le retriever (mauvais documents), soit dans le prompt (instructions insuffisantes), soit dans le modèle (tendance à halluciner). Diagnostiquez en examinant les affirmations non supportées dans le détail de l’évaluation.

Questions fréquentes

Quelle est la différence entre faithfulness et factualité ?

La factualité vérifie si le contenu est vrai dans le monde réel. La faithfulness vérifie si le contenu est fidèle aux sources fournies au modèle. Un résumé peut être faithful (fidèle au document source) sans être factuel (si le document contient des erreurs). Inversement, un modèle peut ajouter des faits vrais absents du document source, ce qui est factuel mais pas faithful. En RAG, la faithfulness est prioritaire car elle détecte les hallucinations du générateur.

Comment mesurer la faithfulness en production ?

Utilisez RAGAS ou DeepEval avec un LLM-as-Judge (GPT-4o-mini ou Claude Haiku pour le rapport coût/qualité). Alternativement, HHEM de Vectara est un modèle local gratuit qui détecte les hallucinations sans coût API. En CI/CD, intégrez l’évaluation de faithfulness comme un test automatisé : chaque modification du retriever, du prompt ou du modèle déclenche une évaluation sur un jeu de test de référence.

Quel score de faithfulness viser ?

Cela dépend du cas d’usage. Pour un chatbot de support client sur des questions factuelles, visez 0.85+. Pour un assistant de recherche qui résume des documents, 0.90+ est recommandé. Pour des applications médicales ou juridiques, 0.95+ avec vérification humaine complémentaire. Le seuil de 0.7 est un minimum en dessous duquel le pipeline est considéré comme non fiable.

La faithfulness remplace-t-elle le besoin de vérifier la factualité ?

Non. La faithfulness garantit que le modèle est fidèle à ses sources, pas que les sources sont correctes. Si votre retriever récupère un document obsolète ou erroné, le modèle sera faithful à une mauvaise source. C’est pourquoi la qualité du corpus documentaire et la fraîcheur des données sont aussi importants que le score de faithfulness lui-même.

FaithJudge est-il meilleur que HHEM pour détecter les hallucinations ?

FaithJudge (84 % balanced accuracy sur FaithBench) est plus précis que HHEM pour les hallucinations subtiles et ambiguës. Mais HHEM est gratuit, local, rapide et ne nécessite pas d’appels API. En pratique, utilisez HHEM pour le monitoring continu (volume élevé, coût faible) et FaithJudge pour les évaluations ponctuelles à haute rigueur (audits, certifications, releases majeures).