Factualité (Factuality)

La factualité désigne la capacité d’un LLM à générer du contenu qui est conforme aux faits établis et aux connaissances vérifiables du monde réel. Un modèle factuel produit des affirmations vraies ; un modèle non factuel produit des erreurs factuelles, que ce soit par méconnaissance, par obsolescence de ses données ou par hallucination.

Catégorie: Qualité et fiabilité des sorties LLM
Aussi appelé: Factual accuracy, factual correctness, exactitude factuelle
Distinction clé: Factualité ≠ Hallucination ≠ Faithfulness. Trois concepts liés mais distincts
Benchmarks: TruthfulQA, FACTS Grounding, FactScore, FActScore, HallucinationEval
Métriques: FactScore (décomposition en faits atomiques), FActScore, ROUGE-L (limité), BERTScore (limité)
Solutions: Grounding, RAG, calibration, self-critique, fine-tuning domaine
Verdict: La factualité est le critère ultime de confiance en un LLM. Les progrès sont réels mais les modèles restent intrinsèquement non fiables sans mécanismes de vérification

Factualité, hallucination et faithfulness : clarification

Ces trois concepts sont souvent confondus. La distinction est pourtant essentielle pour comprendre les forces et faiblesses d’un LLM.

Concept	Définition	Mesure	Exemple
Factualité	Le contenu est conforme aux faits du monde réel	Vérifié contre la réalité (sources externes, knowledge base)	« Paris est la capitale de la France » → factuel
Hallucination	Le contenu est non fondé, inventé ou fabriqué, qu’il soit factuel ou non	Vérifié contre les sources fournies et la réalité	« Einstein a inventé le téléphone » → hallucination (non fondé et faux)
Faithfulness	Le contenu est fidèle aux sources fournies au modèle	Vérifié contre le document source uniquement	Résumé qui déforme le sens du document → non faithful (même si les faits isolés sont vrais)

Un point subtil mais critique : un modèle peut être faithful sans être factuel (fidèle à une source qui contient des erreurs), et factuel sans être faithful (il ajoute des informations vraies mais absentes de la source). Un modèle peut aussi halluciner un contenu qui se trouve être accidentellement factuel (inventer une date qui se trouve être correcte). La survey de 2024 sur la factualité des LLM (Arxiv) souligne que cette confusion entre concepts a causé « une quantité considérable de malentendus » dans la communauté de recherche.

Pourquoi la factualité est plus difficile que la faithfulness La faithfulness peut être vérifiée en comparant la sortie au document source fourni. C’est un problème de comparaison textuelle. La factualité exige de vérifier contre l’ensemble des connaissances du monde réel, ce qui est un problème ouvert et fondamentalement plus difficile. C’est pourquoi les systèmes de grounding sont essentiels : ils réduisent le problème de factualité à un problème de faithfulness en fournissant des sources fiables.

Pourquoi les LLM manquent de factualité

Les incitations au bluff

Le papier d’OpenAI « Why Language Models Hallucinate » (septembre 2025) identifie la cause racine : l’entraînement par prédiction du prochain token et les benchmarks communs récompensent la confiance plutôt que la prudence. Le modèle apprend à « bluffer » plutôt qu’à admettre son incertitude, parce que répondre « je ne sais pas » est pénalisé par les métriques d’évaluation.

Ce n’est pas un bug, c’est une conséquence du design. Tant que les systèmes d’entraînement et d’évaluation ne récompensent pas explicitement la calibration (la capacité à dire « je ne sais pas » quand c’est approprié), les modèles continueront à produire des réponses confiantes mais parfois fausses.

Qualité des données d’entraînement

Les LLM sont entraînés sur des corpus web massifs qui contiennent inévitablement des informations obsolètes, biaisées ou fausses. Le principe GIGO (Garbage In, Garbage Out) s’applique pleinement : un modèle entraîné sur des données partiellement fausses reproduira ces erreurs. De plus, les connaissances du modèle sont figées à la date de coupure de l’entraînement, ce qui crée une obsolescence structurelle.

La nature probabiliste

Formellement, un LLM est un modèle probabiliste Pθ(y|x) qui maximise la vraisemblance de la séquence générée. Les hallucinations émergent quand le modèle assigne une probabilité plus élevée à une séquence incorrecte qu’à la séquence factuellement correcte. L’optimisation de la fluence et de la cohérence entre souvent en conflit avec l’ancrage factuel.

Évaluer la factualité

FactScore

FactScore (Min et al., 2023) est la métrique de référence pour l’évaluation de la factualité dans les textes longs. Le principe : décomposer la réponse du modèle en « faits atomiques » (affirmations élémentaires indépendantes), puis vérifier chaque fait contre une source de référence fiable (Wikipedia, base de connaissances). Le score final est le pourcentage de faits atomiques vérifiés comme corrects.

Par exemple, pour une biographie générée par un LLM, FactScore identifie chaque affirmation individuelle (date de naissance, lieu d’études, réalisations) et les vérifie une par une. C’est plus granulaire qu’un simple « la biographie est-elle correcte ? » et permet d’identifier les catégories de faits que le modèle déforme le plus souvent.

TruthfulQA

TruthfulQA (Lin et al., 2022) est un benchmark conçu pour mesurer si un modèle génère des réponses véridiques plutôt que des réponses populaires mais fausses. Les questions sont choisies pour exploiter les biais courants et les idées reçues. C’est un test de résistance aux « vérités populaires » qui sont en fait des erreurs.

FACTS Grounding

FACTS Grounding (Google DeepMind, 2024) évalue la capacité des LLM à produire des réponses factuellement ancrées dans un document source fourni. 1 719 exemples, évalués par trois LLM juges (Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet). C’est un benchmark de faithfulness autant que de factualité, puisqu’il vérifie l’ancrage dans le document fourni.

Benchmarks 2025-2026

Les benchmarks récents se diversifient pour couvrir des dimensions mal évaluées :

Benchmark	Focus	Nouveauté
CCHall (ACL 2025)	Hallucination multimodale	Évalue la factualité quand le modèle raisonne à travers texte et images
Mu-SHROOM (SemEval 2025)	Hallucination multilingue	Montre que les taux d’hallucination augmentent dans les langues à faibles ressources
HallucinationEval	Factualité sous prompting contrôlé	Permet d’attribuer les erreurs au prompting vs au modèle lui-même

Les limites des métriques classiques

Les métriques de similarité textuelle (ROUGE-L, BERTScore) quantifient la similarité de surface mais ne mesurent pas la cohérence factuelle. Un résumé peut avoir un ROUGE-L élevé tout en contenant des erreurs factuelles graves. La review systématique de 2020-2025 (Springer, 2026) souligne l’absence de métriques standardisées qui capturent la factualité de manière fiable. C’est un problème ouvert.

Améliorer la factualité

Grounding et RAG

La technique la plus efficace : connecter le modèle à des sources externes fiables. Le RAG réduit le problème de factualité à un problème de faithfulness en fournissant au modèle les bonnes sources. Le grounding par recherche web apporte des informations à jour. La combinaison des deux couvre la majorité des cas d’erreur factuelle.

Calibration et incertitude

En 2025-2026, les métriques de calibration gagnent en importance. Un modèle calibré ne se contente pas de donner la bonne réponse : il signale quand il n’est pas sûr. Les systèmes modernes sont évalués non seulement sur leur précision mais aussi sur la correspondance entre leur confiance exprimée et leur taux d’erreur réel. Un modèle qui dit « je suis sûr à 90 % » et se trompe 30 % du temps est mal calibré.

L’enjeu : construire des modèles qui savent ce qu’ils ne savent pas. C’est un changement de paradigme par rapport à l’approche traditionnelle où le modèle répond toujours avec confiance.

Chain-of-Thought et self-consistency

Le prompting structuré aide la factualité. Le chain-of-thought réduit les erreurs en forçant le modèle à expliciter son raisonnement. La self-consistency (générer plusieurs réponses et prendre la majoritaire) réduit les erreurs aléatoires. La combinaison des deux améliore significativement la factualité, en particulier sur les tâches de raisonnement.

Fine-tuning domaine

Le fine-tuning sur des données vérifiées et spécifiques au domaine améliore la factualité dans ce domaine. En médecine, en droit, en finance, l’utilisation de données validées par des experts réduit les erreurs spécifiques. La review de 2025 souligne que la « customisation domaine-spécifique » est l’un des leviers les plus efficaces pour améliorer la cohérence factuelle.

Vérification multi-agents

Les systèmes multi-agents où un agent génère et un autre vérifie montrent des améliorations significatives. Le raisonnement multi-agent, où plusieurs LLM débattent d’une réponse avant de converger, réduit les erreurs factuelles en exploitant la diversité des « perspectives » des modèles.

État de l’art en mars 2026

Les modèles frontière (GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro) sont significativement plus factuels que leurs prédécesseurs. Le CEO d’Anthropic, Dario Amodei, a suggéré lors d’un événement développeurs en 2025 que sur certaines tâches factuelles, les modèles frontière pourraient déjà halluciner moins souvent que les humains. C’est une affirmation provocatrice, mais elle souligne un point réel : le seuil de comparaison devrait être la performance humaine, pas la perfection.

Cependant, même les meilleurs modèles échouent de manière imprévisible. Les benchmarks 2025 (CCHall, Mu-SHROOM) montrent des taux d’hallucination élevés en dehors de l’anglais et dans les tâches multimodales. La factualité reste un problème systémique, pas un bug résiduel.

Un incident notable : en novembre 2025, Google a dû retirer son modèle Gemma d’AI Studio après qu’il a généré des allégations totalement fictives contre une sénatrice américaine, appuyées par des liens vers des articles de presse inexistants. Cet épisode illustre que même en 2025-2026, les défaillances de factualité peuvent avoir des conséquences graves.

Évaluer la factualité en pratique

Voici le pattern FactScore simplifié pour évaluer la factualité de vos sorties LLM :

# Évaluation FactScore simplifiée
def evaluate_factuality(response, reference_source, verifier_llm):
    # Étape 1 : Décomposer en faits atomiques
    atomic_facts = verifier_llm.generate(
        f"Décompose ce texte en faits atomiques individuels "
        f"(une seule affirmation vérifiable par fait) :nn{response}"
    )
    facts = parse_facts(atomic_facts)
    
    # Étape 2 : Vérifier chaque fait
    verified = 0
    for fact in facts:
        verdict = verifier_llm.generate(
            f"Ce fait est-il supporté par la source de référence ?n"
            f"Fait : {fact}n"
            f"Source : {reference_source}n"
            f"Répondez SUPPORTED ou NOT_SUPPORTED"
        )
        if "SUPPORTED" in verdict:
            verified += 1
    
    # Étape 3 : Calculer le score
    score = verified / len(facts) if facts else 0
    return {"factscore": score, "verified": verified, "total": len(facts)}

En production, ce processus peut être coûteux (un appel LLM par fait atomique). Trois optimisations courantes : regrouper plusieurs faits dans un seul prompt de vérification, utiliser un modèle plus petit et rapide pour le vérificateur (Haiku, Flash), et n’appliquer la vérification qu’aux affirmations contenant des données chiffrées, des dates ou des noms propres (les catégories les plus sujettes aux erreurs).

Pipeline de fact-checking pour la production

Un pipeline de fact-checking complet combine plusieurs techniques en cascade :

Couche	Technique	Ce qu’elle vérifie
1. Grounding	RAG + search grounding	Le modèle a-t-il accès aux bonnes informations ?
2. Attribution	Source attribution	Chaque affirmation est-elle traçable à une source ?
3. Vérification	FactScore / LLM-as-Judge	Les sources supportent-elles réellement les affirmations ?
4. Calibration	Score de confiance	Le modèle signale-t-il correctement son incertitude ?
5. Monitoring	Échantillonnage et vérification humaine	Le taux d’erreur en production est-il acceptable ?

Chaque couche réduit le risque d’erreur factuelle. La première couche (grounding) a le plus grand impact. La dernière couche (monitoring humain) est le filet de sécurité ultime. L’investissement dans chaque couche dépend de la criticité de votre cas d’usage : pour un chatbot de service client, les couches 1-2 suffisent souvent. Pour un système d’aide au diagnostic médical, les cinq couches sont nécessaires.

Une étude de 2025 auprès d’étudiants de Duke University a montré que 94 % d’entre eux croient que la précision de l’IA varie significativement selon les sujets, et 90 % souhaitent plus de transparence sur les limites des outils IA. Ce besoin de transparence renforce l’importance de la calibration : un modèle qui signale explicitement son incertitude est perçu comme plus fiable qu’un modèle qui se trompe silencieusement.

Verdict

La factualité est le critère ultime de confiance en un LLM. Un modèle peut être fluent, cohérent, bien structuré et totalement faux. C’est pourquoi la factualité ne peut pas être un espoir : elle doit être un processus. Vérifier, ancrer, citer, calibrer. Chaque couche réduit le risque d’erreur factuelle.

Le progrès est réel : les modèles de 2026 sont nettement plus factuels que ceux de 2023. Mais le problème est structurel. Tant que les LLM sont des modèles probabilistes entraînés sur des données imparfaites, la factualité parfaite est impossible. La question n’est pas « le modèle est-il factuel ? » mais « mes mécanismes de vérification sont-ils suffisants pour mon cas d’usage ? »

Pour les développeurs : ne déployez jamais un LLM pour des tâches factuellement critiques (santé, droit, finance) sans grounding, source attribution et vérification. Pour les tâches non critiques (brainstorming, rédaction créative, résumé), la factualité native des modèles frontière est souvent suffisante, mais un monitoring continu reste recommandé.

Questions fréquentes

Quelle est la différence entre factualité et hallucination ?

L’hallucination désigne la génération de contenu non fondé (inventé, fabriqué). La factualité mesure la conformité du contenu aux faits du monde réel. Un modèle peut halluciner un fait qui est accidentellement vrai (hallucination sans erreur factuelle). Il peut aussi produire une erreur factuelle sans hallucination stricte (mal apprendre un fait pendant l’entraînement). Les deux concepts sont liés mais distincts. La factualité est le résultat souhaité. L’hallucination est un mécanisme de défaillance.

Comment mesurer la factualité d’un LLM ?

FactScore est la métrique de référence : décomposer la sortie en faits atomiques et vérifier chacun contre une source fiable. TruthfulQA mesure la résistance aux erreurs populaires. FACTS Grounding évalue l’ancrage dans des documents fournis. En production, le monitoring continu avec des échantillons vérifiés manuellement reste le complément indispensable des métriques automatiques.

Les modèles de 2026 sont-ils plus factuels que ceux de 2024 ?

Oui, significativement. Les modèles frontière (GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro) montrent des taux d’erreur factuelle réduits grâce à l’entraînement par RL, au grounding natif et à l’inference-time scaling. Mais les améliorations varient selon le domaine et la langue. En anglais, sur des faits courants, les progrès sont notables. En langues à faibles ressources ou sur des sujets de niche, les taux d’hallucination restent élevés.

Le RAG résout-il le problème de factualité ?

Partiellement. Le RAG réduit les erreurs factuelles en fournissant des sources fiables au modèle. Mais le modèle peut toujours mal interpréter les sources, les combiner incorrectement ou halluciner au-delà de ce que les sources contiennent. Le RAG transforme un problème de factualité en problème de faithfulness (fidélité aux sources), ce qui est plus tractable mais pas résolu. La qualité des documents récupérés et le positionnement dans le contexte (biais « lost in the middle ») impactent directement l’efficacité.

Un LLM peut-il être plus factuel qu’un humain ?

Sur certaines tâches spécifiques, oui. Un LLM bien groundé et calibré peut être plus cohérent qu’un humain qui se fie à sa mémoire. Dario Amodei (Anthropic) a suggéré que certains modèles frontière hallucinent déjà moins que les humains sur certaines tâches factuelles. Mais « certaines tâches » est la nuance clé : en dehors des domaines bien couverts par l’entraînement, les modèles restent nettement moins fiables que des experts humains.