Factualité (Factuality)
La factualité désigne la capacité d’un LLM à générer du contenu qui est conforme aux faits établis et aux connaissances vérifiables du monde réel. Un modèle factuel produit des affirmations vraies ; un modèle non factuel produit des erreurs factuelles, que ce soit par méconnaissance, par obsolescence de ses données ou par hallucination.
- Catégorie
- Qualité et fiabilité des sorties LLM
- Aussi appelé
- Factual accuracy, factual correctness, exactitude factuelle
- Distinction clé
- Factualité ≠ Hallucination ≠ Faithfulness. Trois concepts liés mais distincts
- Benchmarks
- TruthfulQA, FACTS Grounding, FactScore, FActScore, HallucinationEval
- Métriques
- FactScore (décomposition en faits atomiques), FActScore, ROUGE-L (limité), BERTScore (limité)
- Solutions
- Grounding, RAG, calibration, self-critique, fine-tuning domaine
- Verdict
- La factualité est le critère ultime de confiance en un LLM. Les progrès sont réels mais les modèles restent intrinsèquement non fiables sans mécanismes de vérification
Factualité, hallucination et faithfulness : clarification
Ces trois concepts sont souvent confondus. La distinction est pourtant essentielle pour comprendre les forces et faiblesses d’un LLM.
| Concept | Définition | Mesure | Exemple |
|---|---|---|---|
| Factualité | Le contenu est conforme aux faits du monde réel | Vérifié contre la réalité (sources externes, knowledge base) | « Paris est la capitale de la France » → factuel |
| Hallucination | Le contenu est non fondé, inventé ou fabriqué, qu’il soit factuel ou non | Vérifié contre les sources fournies et la réalité | « Einstein a inventé le téléphone » → hallucination (non fondé et faux) |
| Faithfulness | Le contenu est fidèle aux sources fournies au modèle | Vérifié contre le document source uniquement | Résumé qui déforme le sens du document → non faithful (même si les faits isolés sont vrais) |
Un point subtil mais critique : un modèle peut être faithful sans être factuel (fidèle à une source qui contient des erreurs), et factuel sans être faithful (il ajoute des informations vraies mais absentes de la source). Un modèle peut aussi halluciner un contenu qui se trouve être accidentellement factuel (inventer une date qui se trouve être correcte). La survey de 2024 sur la factualité des LLM (Arxiv) souligne que cette confusion entre concepts a causé « une quantité considérable de malentendus » dans la communauté de recherche.
Pourquoi les LLM manquent de factualité
Les incitations au bluff
Le papier d’OpenAI « Why Language Models Hallucinate » (septembre 2025) identifie la cause racine : l’entraînement par prédiction du prochain token et les benchmarks communs récompensent la confiance plutôt que la prudence. Le modèle apprend à « bluffer » plutôt qu’à admettre son incertitude, parce que répondre « je ne sais pas » est pénalisé par les métriques d’évaluation.
Ce n’est pas un bug, c’est une conséquence du design. Tant que les systèmes d’entraînement et d’évaluation ne récompensent pas explicitement la calibration (la capacité à dire « je ne sais pas » quand c’est approprié), les modèles continueront à produire des réponses confiantes mais parfois fausses.
Qualité des données d’entraînement
Les LLM sont entraînés sur des corpus web massifs qui contiennent inévitablement des informations obsolètes, biaisées ou fausses. Le principe GIGO (Garbage In, Garbage Out) s’applique pleinement : un modèle entraîné sur des données partiellement fausses reproduira ces erreurs. De plus, les connaissances du modèle sont figées à la date de coupure de l’entraînement, ce qui crée une obsolescence structurelle.
La nature probabiliste
Formellement, un LLM est un modèle probabiliste Pθ(y|x) qui maximise la vraisemblance de la séquence générée. Les hallucinations émergent quand le modèle assigne une probabilité plus élevée à une séquence incorrecte qu’à la séquence factuellement correcte. L’optimisation de la fluence et de la cohérence entre souvent en conflit avec l’ancrage factuel.
Évaluer la factualité
FactScore
FactScore (Min et al., 2023) est la métrique de référence pour l’évaluation de la factualité dans les textes longs. Le principe : décomposer la réponse du modèle en « faits atomiques » (affirmations élémentaires indépendantes), puis vérifier chaque fait contre une source de référence fiable (Wikipedia, base de connaissances). Le score final est le pourcentage de faits atomiques vérifiés comme corrects.
Par exemple, pour une biographie générée par un LLM, FactScore identifie chaque affirmation individuelle (date de naissance, lieu d’études, réalisations) et les vérifie une par une. C’est plus granulaire qu’un simple « la biographie est-elle correcte ? » et permet d’identifier les catégories de faits que le modèle déforme le plus souvent.
TruthfulQA
TruthfulQA (Lin et al., 2022) est un benchmark conçu pour mesurer si un modèle génère des réponses véridiques plutôt que des réponses populaires mais fausses. Les questions sont choisies pour exploiter les biais courants et les idées reçues. C’est un test de résistance aux « vérités populaires » qui sont en fait des erreurs.
FACTS Grounding
FACTS Grounding (Google DeepMind, 2024) évalue la capacité des LLM à produire des réponses factuellement ancrées dans un document source fourni. 1 719 exemples, évalués par trois LLM juges (Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet). C’est un benchmark de faithfulness autant que de factualité, puisqu’il vérifie l’ancrage dans le document fourni.
Benchmarks 2025-2026
Les benchmarks récents se diversifient pour couvrir des dimensions mal évaluées :
| Benchmark | Focus | Nouveauté |
|---|---|---|
| CCHall (ACL 2025) | Hallucination multimodale | Évalue la factualité quand le modèle raisonne à travers texte et images |
| Mu-SHROOM (SemEval 2025) | Hallucination multilingue | Montre que les taux d’hallucination augmentent dans les langues à faibles ressources |
| HallucinationEval | Factualité sous prompting contrôlé | Permet d’attribuer les erreurs au prompting vs au modèle lui-même |
Les limites des métriques classiques
Les métriques de similarité textuelle (ROUGE-L, BERTScore) quantifient la similarité de surface mais ne mesurent pas la cohérence factuelle. Un résumé peut avoir un ROUGE-L élevé tout en contenant des erreurs factuelles graves. La review systématique de 2020-2025 (Springer, 2026) souligne l’absence de métriques standardisées qui capturent la factualité de manière fiable. C’est un problème ouvert.
Améliorer la factualité
Grounding et RAG
La technique la plus efficace : connecter le modèle à des sources externes fiables. Le RAG réduit le problème de factualité à un problème de faithfulness en fournissant au modèle les bonnes sources. Le grounding par recherche web apporte des informations à jour. La combinaison des deux couvre la majorité des cas d’erreur factuelle.
Calibration et incertitude
En 2025-2026, les métriques de calibration gagnent en importance. Un modèle calibré ne se contente pas de donner la bonne réponse : il signale quand il n’est pas sûr. Les systèmes modernes sont évalués non seulement sur leur précision mais aussi sur la correspondance entre leur confiance exprimée et leur taux d’erreur réel. Un modèle qui dit « je suis sûr à 90 % » et se trompe 30 % du temps est mal calibré.
L’enjeu : construire des modèles qui savent ce qu’ils ne savent pas. C’est un changement de paradigme par rapport à l’approche traditionnelle où le modèle répond toujours avec confiance.
Chain-of-Thought et self-consistency
Le prompting structuré aide la factualité. Le chain-of-thought réduit les erreurs en forçant le modèle à expliciter son raisonnement. La self-consistency (générer plusieurs réponses et prendre la majoritaire) réduit les erreurs aléatoires. La combinaison des deux améliore significativement la factualité, en particulier sur les tâches de raisonnement.
Fine-tuning domaine
Le fine-tuning sur des données vérifiées et spécifiques au domaine améliore la factualité dans ce domaine. En médecine, en droit, en finance, l’utilisation de données validées par des experts réduit les erreurs spécifiques. La review de 2025 souligne que la « customisation domaine-spécifique » est l’un des leviers les plus efficaces pour améliorer la cohérence factuelle.
Vérification multi-agents
Les systèmes multi-agents où un agent génère et un autre vérifie montrent des améliorations significatives. Le raisonnement multi-agent, où plusieurs LLM débattent d’une réponse avant de converger, réduit les erreurs factuelles en exploitant la diversité des « perspectives » des modèles.
État de l’art en mars 2026
Les modèles frontière (GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro) sont significativement plus factuels que leurs prédécesseurs. Le CEO d’Anthropic, Dario Amodei, a suggéré lors d’un événement développeurs en 2025 que sur certaines tâches factuelles, les modèles frontière pourraient déjà halluciner moins souvent que les humains. C’est une affirmation provocatrice, mais elle souligne un point réel : le seuil de comparaison devrait être la performance humaine, pas la perfection.
Cependant, même les meilleurs modèles échouent de manière imprévisible. Les benchmarks 2025 (CCHall, Mu-SHROOM) montrent des taux d’hallucination élevés en dehors de l’anglais et dans les tâches multimodales. La factualité reste un problème systémique, pas un bug résiduel.
Un incident notable : en novembre 2025, Google a dû retirer son modèle Gemma d’AI Studio après qu’il a généré des allégations totalement fictives contre une sénatrice américaine, appuyées par des liens vers des articles de presse inexistants. Cet épisode illustre que même en 2025-2026, les défaillances de factualité peuvent avoir des conséquences graves.
Évaluer la factualité en pratique
Voici le pattern FactScore simplifié pour évaluer la factualité de vos sorties LLM :
# Évaluation FactScore simplifiée
def evaluate_factuality(response, reference_source, verifier_llm):
# Étape 1 : Décomposer en faits atomiques
atomic_facts = verifier_llm.generate(
f"Décompose ce texte en faits atomiques individuels "
f"(une seule affirmation vérifiable par fait) :nn{response}"
)
facts = parse_facts(atomic_facts)
# Étape 2 : Vérifier chaque fait
verified = 0
for fact in facts:
verdict = verifier_llm.generate(
f"Ce fait est-il supporté par la source de référence ?n"
f"Fait : {fact}n"
f"Source : {reference_source}n"
f"Répondez SUPPORTED ou NOT_SUPPORTED"
)
if "SUPPORTED" in verdict:
verified += 1
# Étape 3 : Calculer le score
score = verified / len(facts) if facts else 0
return {"factscore": score, "verified": verified, "total": len(facts)}En production, ce processus peut être coûteux (un appel LLM par fait atomique). Trois optimisations courantes : regrouper plusieurs faits dans un seul prompt de vérification, utiliser un modèle plus petit et rapide pour le vérificateur (Haiku, Flash), et n’appliquer la vérification qu’aux affirmations contenant des données chiffrées, des dates ou des noms propres (les catégories les plus sujettes aux erreurs).
Pipeline de fact-checking pour la production
Un pipeline de fact-checking complet combine plusieurs techniques en cascade :
| Couche | Technique | Ce qu’elle vérifie |
|---|---|---|
| 1. Grounding | RAG + search grounding | Le modèle a-t-il accès aux bonnes informations ? |
| 2. Attribution | Source attribution | Chaque affirmation est-elle traçable à une source ? |
| 3. Vérification | FactScore / LLM-as-Judge | Les sources supportent-elles réellement les affirmations ? |
| 4. Calibration | Score de confiance | Le modèle signale-t-il correctement son incertitude ? |
| 5. Monitoring | Échantillonnage et vérification humaine | Le taux d’erreur en production est-il acceptable ? |
Chaque couche réduit le risque d’erreur factuelle. La première couche (grounding) a le plus grand impact. La dernière couche (monitoring humain) est le filet de sécurité ultime. L’investissement dans chaque couche dépend de la criticité de votre cas d’usage : pour un chatbot de service client, les couches 1-2 suffisent souvent. Pour un système d’aide au diagnostic médical, les cinq couches sont nécessaires.
Une étude de 2025 auprès d’étudiants de Duke University a montré que 94 % d’entre eux croient que la précision de l’IA varie significativement selon les sujets, et 90 % souhaitent plus de transparence sur les limites des outils IA. Ce besoin de transparence renforce l’importance de la calibration : un modèle qui signale explicitement son incertitude est perçu comme plus fiable qu’un modèle qui se trompe silencieusement.
Verdict
La factualité est le critère ultime de confiance en un LLM. Un modèle peut être fluent, cohérent, bien structuré et totalement faux. C’est pourquoi la factualité ne peut pas être un espoir : elle doit être un processus. Vérifier, ancrer, citer, calibrer. Chaque couche réduit le risque d’erreur factuelle.
Le progrès est réel : les modèles de 2026 sont nettement plus factuels que ceux de 2023. Mais le problème est structurel. Tant que les LLM sont des modèles probabilistes entraînés sur des données imparfaites, la factualité parfaite est impossible. La question n’est pas « le modèle est-il factuel ? » mais « mes mécanismes de vérification sont-ils suffisants pour mon cas d’usage ? »
Pour les développeurs : ne déployez jamais un LLM pour des tâches factuellement critiques (santé, droit, finance) sans grounding, source attribution et vérification. Pour les tâches non critiques (brainstorming, rédaction créative, résumé), la factualité native des modèles frontière est souvent suffisante, mais un monitoring continu reste recommandé.
Questions fréquentes
Quelle est la différence entre factualité et hallucination ?
L’hallucination désigne la génération de contenu non fondé (inventé, fabriqué). La factualité mesure la conformité du contenu aux faits du monde réel. Un modèle peut halluciner un fait qui est accidentellement vrai (hallucination sans erreur factuelle). Il peut aussi produire une erreur factuelle sans hallucination stricte (mal apprendre un fait pendant l’entraînement). Les deux concepts sont liés mais distincts. La factualité est le résultat souhaité. L’hallucination est un mécanisme de défaillance.
Comment mesurer la factualité d’un LLM ?
FactScore est la métrique de référence : décomposer la sortie en faits atomiques et vérifier chacun contre une source fiable. TruthfulQA mesure la résistance aux erreurs populaires. FACTS Grounding évalue l’ancrage dans des documents fournis. En production, le monitoring continu avec des échantillons vérifiés manuellement reste le complément indispensable des métriques automatiques.
Les modèles de 2026 sont-ils plus factuels que ceux de 2024 ?
Oui, significativement. Les modèles frontière (GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro) montrent des taux d’erreur factuelle réduits grâce à l’entraînement par RL, au grounding natif et à l’inference-time scaling. Mais les améliorations varient selon le domaine et la langue. En anglais, sur des faits courants, les progrès sont notables. En langues à faibles ressources ou sur des sujets de niche, les taux d’hallucination restent élevés.
Le RAG résout-il le problème de factualité ?
Partiellement. Le RAG réduit les erreurs factuelles en fournissant des sources fiables au modèle. Mais le modèle peut toujours mal interpréter les sources, les combiner incorrectement ou halluciner au-delà de ce que les sources contiennent. Le RAG transforme un problème de factualité en problème de faithfulness (fidélité aux sources), ce qui est plus tractable mais pas résolu. La qualité des documents récupérés et le positionnement dans le contexte (biais « lost in the middle ») impactent directement l’efficacité.
Un LLM peut-il être plus factuel qu’un humain ?
Sur certaines tâches spécifiques, oui. Un LLM bien groundé et calibré peut être plus cohérent qu’un humain qui se fie à sa mémoire. Dario Amodei (Anthropic) a suggéré que certains modèles frontière hallucinent déjà moins que les humains sur certaines tâches factuelles. Mais « certaines tâches » est la nuance clé : en dehors des domaines bien couverts par l’entraînement, les modèles restent nettement moins fiables que des experts humains.