Cohérence (Coherence)

La cohérence en IA désigne la qualité d’un texte généré par un LLM en termes de fluidité logique, de structure narrative et de continuité thématique. Un texte cohérent s’enchaîne naturellement, chaque phrase se connecte logiquement à la précédente, et le texte dans son ensemble forme un tout structuré et compréhensible.

Catégorie: Qualité textuelle des sorties LLM
Aussi appelé: Coherence, discourse coherence, textual coherence
Deux niveaux: Cohérence locale (entre phrases adjacentes) et cohérence globale (structure du texte entier)
Distinction clé: Cohérence ≠ Consistency ≠ Factualité. La cohérence porte sur la qualité textuelle, pas sur la vérité ou la non-contradiction
Métriques: G-Eval (LLM-as-Judge), évaluation humaine (gold standard), Q², GCDC, similarité sémantique entre phrases
Modèles performants: GPT-4o et Claude Opus excellent en évaluation de cohérence locale et globale
Verdict: Les LLM frontière produisent des textes très cohérents en apparence, mais la cohérence masque parfois des erreurs factuelles. Évaluer la cohérence sans évaluer la factualité est dangereux

Qu’est-ce que la cohérence textuelle ?

La cohérence est la « colle » qui tient un texte ensemble. Un texte cohérent :

Suit un fil logique : chaque phrase introduit, développe ou conclut une idée en lien avec les phrases précédentes. Il n’y a pas de « sauts » thématiques non motivés.

Maintient une structure : le texte a un début, un développement et une fin. Les paragraphes sont organisés autour d’idées principales, avec des transitions claires.

Utilise des connecteurs appropriés : les marqueurs discursifs (« cependant », « par conséquent », « de plus ») guident le lecteur à travers le raisonnement.

Reste thématiquement focalisé : le texte ne dérive pas vers des sujets non pertinents. S’il aborde plusieurs thèmes, les transitions sont explicites.

Les LLM modernes sont remarquablement bons en cohérence. C’est même leur force principale : ils produisent des textes fluides, bien structurés, avec un vocabulaire varié et des transitions naturelles. Le problème est que cette cohérence superficielle peut masquer des erreurs factuelles graves. Un texte parfaitement cohérent qui contient des faits inventés est plus dangereux qu’un texte maladroit mais factuel, parce que la cohérence crée une illusion de compétence.

Cohérence locale vs cohérence globale

Dimension	Cohérence locale	Cohérence globale
Portée	Entre phrases adjacentes ou proches	Sur l’ensemble du texte
Mesure	Les phrases s’enchaînent-elles naturellement ?	Le texte forme-t-il un tout cohérent et structuré ?
Problème typique	Phrase hors sujet, transition abrupte, contradiction entre phrases proches	Texte qui dérive, structure désorganisée, introduction sans rapport avec la conclusion
Modèles performants	GPT-4o, Claude Opus (excellents en API et en chat)	Claude Opus (le plus performant selon l’étude comparative)
Technique de mesure	Similarité sémantique entre phrases adjacentes, détection d’incohérences locales	Annotation humaine (échelle 1-3), G-Eval, shuffled sentences test

L’étude comparative de cohérence des LLM (2024) a évalué GPT-4o, GPT-3.5, Claude Opus et LLaMA 2 sur trois tâches : cohérence locale, cohérence globale et détection d’incohérences. GPT-4o obtient les meilleurs scores en cohérence locale et en détection d’incohérences. Claude Opus est le plus performant en cohérence globale. Les modèles plus petits (LLaMA 2) montrent des performances nettement inférieures, confirmant que la cohérence est une capacité émergente des grands modèles.

Évaluer la cohérence

G-Eval : le LLM comme juge de cohérence

G-Eval (Liu et al., 2023) est le framework dominant pour évaluer la cohérence par LLM-as-Judge. Le processus :

Étape	Action
1. Définir le critère	Décrire ce qu’est la cohérence pour la tâche (ex: « la qualité collective de toutes les phrases dans la sortie »)
2. Générer les étapes d’évaluation	Le LLM juge génère par chain-of-thought les étapes pour évaluer la cohérence
3. Évaluer	Le LLM attribue un score (1-5) en suivant ses étapes d’évaluation
4. Normaliser (optionnel)	Utiliser les probabilités des tokens de sortie pour des scores plus fins

G-Eval est flexible (applicable à tout critère, pas seulement la cohérence) et bien corrélé avec le jugement humain. Son inconvénient : le biais connu vers le score 3 sur une échelle 1-5. La normalisation par probabilités de tokens (étape 4) atténue ce biais mais nécessite l’accès aux logits du modèle, ce qui n’est pas toujours possible avec les API propriétaires.

Évaluation humaine (gold standard)

L’évaluation humaine reste la référence pour la cohérence. Les annotateurs évaluent sur une échelle de Likert (1-3 ou 1-5) la qualité globale du texte. Le corpus GCDC (Grammarly Corpus of Discourse Coherence) est le benchmark de référence avec des annotations multi-domaines (email, blog, actu, académique).

Le problème de l’évaluation humaine : elle est coûteuse, lente et non scalable. Les études montrent un accord inter-annotateurs modéré (Fleiss’ Kappa variable selon les domaines), ce qui illustre la subjectivité inhérente de la cohérence. Deux lecteurs humains ne sont pas toujours d’accord sur ce qui est « cohérent ».

Test de phrases mélangées (shuffled sentences)

Un test simple et efficace : mélanger aléatoirement les phrases d’un texte et demander au modèle de distinguer le texte original du texte mélangé. Si le modèle ne détecte pas la différence, sa compréhension de la cohérence est limitée. L’étude comparative (2024) a utilisé 20 permutations aléatoires par texte (46 360 versions incohérentes au total) pour évaluer la sensibilité des LLM à la cohérence.

Similarité sémantique entre phrases

Mesurer la similarité des embeddings entre phrases adjacentes. Des transitions brusques (faible similarité) signalent une rupture de cohérence locale. Cette approche est rapide et automatisable mais ne capture que la dimension sémantique, pas les relations logiques ou causales.

Q² (Question-based evaluation)

Q² génère des questions à partir du texte généré, puis y répond à partir du texte source. La cohérence factuelle est évaluée par la concordance des réponses. C’est une méthode qui combine évaluation de la cohérence et de la faithfulness, la rendant particulièrement utile pour le résumé automatique.

Cohérence vs concepts proches

Concept	Ce qu’il mesure	Relation avec la cohérence
Fluence (fluency)	Qualité grammaticale et naturel du langage	Un texte fluent n’est pas nécessairement cohérent (phrases grammaticales mais sans lien logique)
Pertinence (relevance)	Le texte répond-il à la question ?	Un texte cohérent peut être hors sujet (bien structuré mais ne répond pas à la question)
Consistency	Absence de contradictions factuelles	Un texte cohérent peut contenir des contradictions (bien écrit mais dit le contraire en deux endroits)
Factualité	Conformité aux faits du monde réel	Un texte cohérent peut être entièrement faux (l’hallucination est souvent très cohérente)
Faithfulness	Fidélité aux sources fournies	Un texte cohérent peut déformer les sources (résumé bien structuré qui trahit le sens du document)

Ce tableau illustre un point critique : la cohérence est une dimension de qualité textuelle, pas une dimension de fiabilité. Un texte peut être parfaitement cohérent et totalement faux, non pertinent ou infidèle à ses sources. C’est pourquoi l’évaluation complète d’un LLM nécessite plusieurs métriques complémentaires, pas seulement la cohérence.

Cohérence et génération longue

La cohérence est particulièrement critique pour la génération de textes longs (rapports, articles, documents). Les recherches (ICLR 2025) montrent que la génération de textes longs (8K+ tokens) est significativement plus difficile que la gestion de longs contextes en entrée. Les modèles qui excellent en compréhension de textes longs ne sont pas automatiquement capables de générer des textes longs et cohérents.

Les problèmes spécifiques à la génération longue :

Dérive thématique : le modèle commence par répondre à la question puis dérive progressivement vers des sujets tangentiels. C’est le « context drift » documenté dans les agents IA.

Répétition : le modèle recycle les mêmes idées ou formulations, créant une impression de boucle. Plus le texte est long, plus le risque de répétition augmente.

Perte de structure : les modèles entraînés principalement sur des textes courts peuvent perdre leur capacité à maintenir une structure hiérarchique (introduction/développement/conclusion) sur des textes de plus de quelques milliers de tokens.

Incohérence entre sections : différentes sections d’un long document peuvent se contredire si le modèle n’a pas maintenu un état interne cohérent tout au long de la génération.

Stratégies pour la cohérence en génération longue Deux approches complémentaires : (1) planifier avant de générer (faire produire un plan structuré au LLM, puis générer section par section en suivant le plan), et (2) réviser après génération (relecture par un second LLM ou par le même modèle en mode self-critique). La décomposition de la tâche de rédaction en sous-tâches (introduction, chaque section, conclusion) améliore aussi la cohérence globale en forçant une structure explicite.

Limites des métriques automatiques

Les métriques traditionnelles (ROUGE, BLEU, BERTScore) ne mesurent pas la cohérence. Elles mesurent la similarité de surface avec un texte de référence. Un texte peut avoir un ROUGE élevé (beaucoup de mots en commun avec la référence) tout en étant incohérent (phrases dans le désordre).

Les métriques LLM-as-Judge (G-Eval) sont mieux corrélées avec le jugement humain mais souffrent de biais connus : biais de position (le texte évalué en premier est favorisé), biais de verbosité (les textes plus longs reçoivent de meilleurs scores), et biais d’auto-préférence (le LLM juge préfère son propre style). Microsoft Learn (2025) note que l’évaluation par LLM est « un domaine de recherche émergent qui n’a pas encore été systématiquement étudié ».

L’évaluation humaine reste le gold standard mais est limitée en scalabilité. Les études montrent que les outputs varient dans 36,4 % des requêtes répétées et que 28 % des sorties contiennent des informations plausibles mais incorrectes. Ces chiffres rappellent que même un texte évalué comme « cohérent » peut être problématique sur d’autres dimensions.

Bonnes pratiques

Ne jamais évaluer la cohérence seule : combinez-la toujours avec la factualité, la faithfulness et la consistency. Un texte cohérent mais faux est le pire scénario.

Utiliser G-Eval pour l’automatisation : pour le monitoring en production, G-Eval offre le meilleur rapport coût/qualité pour l’évaluation de la cohérence. Définissez des critères clairs et spécifiques à votre cas d’usage.

Planifier pour les textes longs : si votre application génère des documents de plus de 2 000 mots, implémentez un pipeline plan-puis-génère-puis-révise. La cohérence des textes longs ne se produit pas spontanément.

Monitorer la dérive thématique : pour les chatbots et agents conversationnels, suivez la cohérence thématique au fil des tours. Un agent qui répond de manière cohérente au tour 1 peut dériver au tour 20.

Évaluer la cohérence en pratique

# Évaluation de la cohérence avec G-Eval simplifié
def evaluate_coherence(text, evaluator_llm, scale=(1, 5)):
    prompt = f"""Évalue la cohérence du texte suivant sur une échelle de {scale[0]} à {scale[1]}.

Critère : Cohérence signifie la qualité collective de toutes les phrases.
Le texte doit être bien structuré, logiquement enchaîné, et former
un tout compréhensible sans ruptures thématiques.

Étapes d'évaluation :
1. Lire le texte en entier
2. Vérifier que chaque phrase se connecte logiquement à la précédente
3. Évaluer la structure globale (introduction, développement, conclusion)
4. Identifier les ruptures thématiques ou les transitions abruptes
5. Attribuer un score basé sur l'ensemble de ces observations

Texte à évaluer :
{text}

Score ({scale[0]}-{scale[1]}) et justification :"""
    
    result = evaluator_llm.generate(prompt)
    score = extract_score(result)
    reason = extract_reason(result)
    return {"score": score, "reason": reason}

# Utilisation en pipeline de monitoring
for response in daily_sample:
    eval_result = evaluate_coherence(response.text, judge_model)
    if eval_result["score"] < 3:
        flag_for_review(response, eval_result["reason"])

En production, combinez l’évaluation de cohérence avec les métriques de faithfulness et de factualité dans un pipeline unifié. Chaque réponse évaluée reçoit un profil multi-dimensionnel (cohérence : 4/5, faithfulness : 0.85, factualité : vérifiée). Ce profil permet des décisions nuancées : une réponse cohérente mais non faithful doit être rejetée, une réponse faithful mais peu cohérente doit être reformulée.

Le coût d’évaluation de la cohérence par G-Eval est d’environ un appel LLM par texte évalué. Pour optimiser, utilisez un modèle économique comme juge (GPT-4o-mini, Claude Haiku) pour le monitoring de routine, et un modèle premium (GPT-4o, Claude Opus) pour les audits approfondis. Le modèle juge n’a pas besoin d’être le même que le modèle évalué.

Verdict

La cohérence est la dimension la plus visible de la qualité d’un LLM et, paradoxalement, la plus trompeuse. Les modèles frontière (GPT-4o, Claude Opus 4.6, Gemini 3.1 Pro) produisent des textes d’une cohérence impressionnante, souvent supérieure à celle de rédacteurs humains moyens. Mais cette cohérence de surface masque les dimensions plus critiques : la factualité, la faithfulness et la consistency.

Le piège à éviter : confondre « le texte sonne bien » avec « le texte est correct ». Un LLM qui hallucine avec cohérence est plus dangereux qu’un LLM qui hallucine maladroitement, parce que la cohérence inhibe la vigilance critique du lecteur.

Pour les développeurs : évaluez la cohérence comme une dimension parmi d’autres, jamais comme la seule métrique. Si votre application exige de la fiabilité, la cohérence est nécessaire mais largement insuffisante. Investissez dans le grounding, la source attribution et la vérification factuelle avant de polir la cohérence stylistique.

Questions fréquentes

Quelle est la différence entre cohérence et consistency ?

La cohérence (coherence) porte sur la qualité textuelle : le texte est-il fluide, logiquement structuré, bien enchaîné ? La consistency porte sur la non-contradiction factuelle : le modèle donne-t-il les mêmes réponses à la même question ? Un texte peut être cohérent (bien écrit, fluide) mais inconsistant (contient des contradictions). Inversement, un modèle peut être consistant (toujours la même réponse) mais produire un texte peu cohérent (mal structuré).

Les LLM actuels sont-ils bons en cohérence ?

Oui, remarquablement. La cohérence est l’une des forces principales des LLM frontière. GPT-4o et Claude Opus excellent en cohérence locale et globale, souvent au niveau ou au-dessus de rédacteurs humains moyens. Mais cette compétence ne garantit pas la fiabilité : un texte parfaitement cohérent peut être entièrement inventé. La cohérence est un prérequis de qualité, pas un indicateur de vérité.

Comment évaluer automatiquement la cohérence ?

G-Eval est la méthode de référence : un LLM-as-Judge évalue la cohérence sur une échelle 1-5, guidé par des étapes d’évaluation générées par chain-of-thought. Les alternatives incluent le test de phrases mélangées (le modèle détecte-t-il les incohérences ?) et la similarité sémantique entre phrases adjacentes. Les métriques classiques (ROUGE, BLEU) ne mesurent pas la cohérence.

La cohérence est-elle plus difficile à maintenir dans les textes longs ?

Oui. Les recherches (ICLR 2025) montrent que la génération de textes longs (8K+ tokens) pose des défis spécifiques : dérive thématique, répétition, perte de structure, contradictions entre sections. Les modèles entraînés principalement sur des textes courts peuvent échouer à maintenir la cohérence sur des documents longs. Les stratégies de mitigation incluent la planification préalable, la génération par sections et la révision post-génération.

Pourquoi la cohérence peut-elle être dangereuse ?

Parce qu’elle crée une confiance injustifiée. Un texte bien structuré, fluide et logiquement enchaîné semble fiable. Mais les hallucinations les plus dangereuses sont celles qui sont parfaitement cohérentes : une démonstration mathématique en 10 étapes qui aboutit à une conclusion fausse, un diagnostic médical formulé avec assurance mais basé sur des faits inventés. La cohérence est le costume de la confiance, pas sa substance. Toujours vérifier la factualité indépendamment de la cohérence.