Consistency (Cohérence)

La consistency (cohérence) en IA désigne la capacité d’un LLM à produire des réponses qui ne se contredisent pas, que ce soit au sein d’une même réponse (cohérence interne), entre différentes réponses à la même question (cohérence inter-réponses), ou entre des questions logiquement liées (cohérence logique). La self-consistency est aussi une technique de décodage qui améliore le raisonnement.

Catégorie: Propriété de fiabilité des LLM / technique de décodage
Trois sens: Propriété du modèle (non-contradiction), technique de décodage (self-consistency), métrique d’évaluation
Self-Consistency (technique): Wang et al., 2022 : générer N réponses, sélectionner la majoritaire. Gains : +17,9 % GSM8K, +11 % SVAMP, +12,2 % AQuA
CISC (2025): Confidence-Informed Self-Consistency : vote pondéré par confiance. Réduit le coût de 40 %+ vs self-consistency classique
Problème connu: Même les modèles frontière (GPT-o4-mini, DeepSeek-R1) ne sont pas complètement self-consistent sur des tâches simples
Verdict: La consistency est une condition nécessaire (mais non suffisante) de fiabilité. Un modèle consistent peut être systématiquement faux. Un modèle inconsistant est structurellement non fiable

Les trois sens de « consistency » en IA

1. Consistency comme propriété du modèle

Un modèle est consistent s’il ne produit pas de contradictions. Cela couvre plusieurs dimensions :

Cohérence interne : au sein d’une même réponse, le modèle ne se contredit pas. Si une phrase dit « la population est de 10 millions » et une autre « avec ses 8 millions d’habitants », c’est une incohérence interne.

Cohérence inter-réponses : si on pose la même question deux fois (éventuellement reformulée), le modèle doit donner la même réponse. Poser « Qui est le président de la France ? » et « Quel est le nom du chef d’État français ? » devrait produire la même réponse.

Cohérence logique : le modèle respecte les contraintes logiques. Si « A est avant B » et « B est avant C », alors le modèle doit répondre « A est avant C » quand on lui demande. Les recherches récentes (Yuan et al., juin 2025) montrent que même GPT-o4-mini et DeepSeek-R1 échouent à maintenir cette cohérence sur des tâches simples de raisonnement temporel, spatial et de parenté.

Les LLM ne sont pas self-consistent, même sur des tâches triviales L’étude « Existing LLMs Are Not Self-Consistent For Simple Tasks » (juin 2025) démontre que les modèles 7B-16B présentent des taux d’incohérence élevés sur des relations binaires simples (ordre temporel entre 11-51 objets, positions spatiales, liens de parenté). Les modèles de raisonnement (DeepSeek-R1, GPT-o4-mini) font mieux mais n’atteignent pas une cohérence complète. Les auteurs montrent que l’architecture autorégresssive (prédiction gauche-droite) ne peut pas garantir la cohérence bidirectionnelle.

2. Self-consistency comme technique de décodage

La self-consistency (Wang et al., 2022) est une technique de prompting qui exploite la diversité des chemins de raisonnement pour améliorer la précision. Le principe :

Étape	Action
1. Échantillonnage	Générer N réponses au même problème avec chain-of-thought et une température non nulle
2. Extraction	Extraire la réponse finale de chaque chemin de raisonnement
3. Vote majoritaire	Sélectionner la réponse la plus fréquente

L’intuition : un problème complexe admet généralement plusieurs chemins de raisonnement différents qui mènent à la même bonne réponse. Si 8 chemins sur 10 aboutissent à « 42 », c’est probablement la bonne réponse, même si 2 chemins mènent à « 37 ».

Les gains sont significatifs sur les benchmarks de raisonnement : +17,9 % sur GSM8K, +11,0 % sur SVAMP, +12,2 % sur AQuA, +6,4 % sur StrategyQA, +3,9 % sur ARC-challenge. C’est l’une des techniques de prompting les plus efficaces, et elle ne nécessite aucune modification du modèle.

3. Consistency comme métrique d’évaluation

La consistency est aussi une métrique qui évalue la fiabilité d’un LLM. Patwardhan et al. (février 2025) proposent un cadre formel d’évaluation de la consistency avec deux approches : self-validation (le modèle vérifie sa propre cohérence) et validation croisée (plusieurs LLM se vérifient mutuellement). Leurs expériences sur GPT-4o-mini, GPT-3.5, Gemini, Cohere et Llama3 montrent que les LLM sont souvent inconsistants dans leurs réponses, les rendant non fiables pour des domaines critiques comme la cybersécurité.

CISC : la self-consistency améliorée par la confiance

La self-consistency classique a un défaut majeur : elle est coûteuse. Générer 20 chemins de raisonnement pour chaque question multiplie par 20 le coût d’inférence. CISC (Confidence-Informed Self-Consistency, Taubenfeld et al., ACL Findings 2025) résout ce problème en ajoutant un score de confiance à chaque chemin :

Au lieu d’un vote majoritaire simple (chaque chemin = 1 vote), CISC effectue un vote pondéré : les chemins avec un score de confiance élevé pèsent plus que les chemins incertains. Résultat : CISC atteint la même précision que la self-consistency classique avec 40 % de chemins en moins, voire une réduction de coût de 67 % dans certaines configurations.

# Self-consistency classique vs CISC
def self_consistency(model, prompt, n_paths=10):
    """Vote majoritaire simple."""
    answers = []
    for _ in range(n_paths):
        response = model.generate(prompt, temperature=0.7)
        answer = extract_final_answer(response)
        answers.append(answer)
    return most_common(answers)

def cisc(model, prompt, n_paths=6):
    """Vote pondéré par confiance (40% moins de paths)."""
    weighted_votes = {}
    for _ in range(n_paths):
        response = model.generate(prompt, temperature=0.7)
        answer = extract_final_answer(response)
        confidence = model.get_confidence(response)  # P(True)
        weighted_votes[answer] = weighted_votes.get(answer, 0) + confidence
    return max(weighted_votes, key=weighted_votes.get)

Un résultat contre-intuitif de CISC : la méthode de confiance la plus calibrée (au sens statistique classique) s’est avérée la moins efficace pour CISC. La méthode P(True), qui examine la probabilité que le modèle assigne au token de confiance verbale, fonctionne le mieux. Cela suggère que les LLM sont capables de juger la qualité de leur propre raisonnement, contribuant au débat sur la self-critique.

Factual consistency dans le résumé

En résumé automatique et en RAG, la « factual consistency » (ou faithfulness) mesure si le résumé est fidèle au document source. C’est une forme spécifique de consistency : le résumé ne doit pas contredire le document. Les métriques comme SummaC, AlignScore et FaithJudge évaluent cette dimension.

La factual consistency est considérée comme l’un des critères les plus importants pour les applications de résumé en production. Un résumé qui contredit le document source est pire qu’inutile : il désinforma activement l’utilisateur.

Pourquoi l’inconsistance est structurelle

Les chercheurs identifient plusieurs causes fondamentales de l’inconsistance des LLM :

Architecture autorégrressIve : les LLM génèrent des tokens de gauche à droite. Ils ne peuvent pas « revenir en arrière » pour vérifier la cohérence avec ce qu’ils ont déjà écrit (sauf via des mécanismes externes comme la self-critique). L’analyse catégorielle (Yuan et al., 2025) montre que cette architecture forme une « catégorie dirigée » qui manque des arêtes inverses nécessaires pour garantir la cohérence bidirectionnelle.

Données d’entraînement contradictoires : le web contient des informations contradictoires. Un modèle entraîné sur des sources qui se contredisent peut reproduire ces contradictions.

Sensibilité au prompt : de légères variations dans la formulation d’une question (paraphrase, ordre des mots, format) peuvent produire des réponses différentes. Cette instabilité est bien documentée et pose un défi pour les applications en production.

Entropie sémantique : Kuhn et al. (2023) proposent d’utiliser l’entropie sémantique (la diversité sémantique des réponses générées) comme signal d’incertitude. Une entropie sémantique élevée (réponses très différentes à la même question) signale une faible confiance du modèle et un risque d’inconsistance.

Améliorer la consistency

Self-consistency et CISC : pour les tâches de raisonnement, générer plusieurs chemins et voter est la technique la plus directe et la plus efficace.

Prompting structuré : forcer le modèle à expliciter ses hypothèses et à vérifier la cohérence de ses affirmations avant de conclure. Le chain-of-thought réduit les incohérences en rendant le raisonnement transparent.

Post-processing par graphe : pour les tâches relationnelles, construire un graphe des relations affirmées par le modèle et vérifier la cohérence structurelle (pas de cycles dans les ordres temporels, respect de la transitivité). Les méthodes EBM (Energy-Based Model) et de feedback arc set permettent de corriger automatiquement les incohérences.

Validation croisée multi-modèles : soumettre la même question à plusieurs LLM et vérifier la convergence. Les divergences signalent des zones d’incertitude ou d’inconsistance.

Fine-tuning sur la cohérence : entraîner le modèle sur des données annotées pour la cohérence. Mais les recherches montrent que le fine-tuning supervisé seul ne suffit pas à garantir une cohérence globale, en raison des limitations architecturales.

Consistency ≠ Correctness Un modèle peut être parfaitement consistent et systématiquement faux. Si le modèle répond toujours « Paris est en Allemagne » de manière cohérente, il est consistent mais incorrect. La consistency est une condition nécessaire mais non suffisante de fiabilité. C’est pourquoi elle doit être combinée avec la factualité et la faithfulness pour une évaluation complète.

Consistency en production : monitoring et alertes

En production, l’inconsistance est un signal de dégradation qui doit être détecté et traité proactivement.

Test par paraphrase

Le test le plus simple : soumettre la même question sous différentes formulations et comparer les réponses. Automatisez ce processus en générant des paraphrases avec un LLM, puis en vérifiant la cohérence sémantique des réponses (via embedding similarity ou LLM-as-Judge). Un taux de divergence supérieur à 20 % sur les questions factuelles signale un problème de fiabilité.

# Test de consistency par paraphrase
def test_consistency(model, question, n_paraphrases=5):
    # Générer des paraphrases
    paraphrases = model.generate(
        f"Génère {n_paraphrases} reformulations de : {question}"
    )
    
    # Collecter les réponses
    answers = []
    for q in [question] + parse_paraphrases(paraphrases):
        answer = model.generate(q, temperature=0.0)
        answers.append(answer)
    
    # Évaluer la cohérence sémantique
    consistency_score = semantic_agreement(answers)
    return consistency_score

Entropie sémantique comme signal

L’entropie sémantique (Kuhn et al., 2023) va au-delà de la simple comparaison de réponses. Elle regroupe les réponses par équivalence sémantique (pas juste par correspondance exacte) et mesure la diversité des clusters. Une entropie sémantique élevée signale que le modèle est fondamentalement incertain sur la réponse, ce qui est un prédicteur fiable d’erreur. En production, utilisez ce signal pour router les requêtes incertaines vers une vérification supplémentaire (recherche web, intervention humaine).

Tests de régression de consistency

À chaque mise à jour du modèle, du prompt ou du pipeline RAG, exécutez un jeu de test de consistency : un ensemble de questions factuelles avec leurs réponses attendues, soumises sous plusieurs formulations. Un changement de modèle qui dégrade la consistency (même s’il améliore d’autres métriques) doit être investigué avant déploiement.

Consistency vs concepts proches

Concept	Relation avec consistency
Coherence	La cohérence porte sur la fluidité et la logique du texte. La consistency porte sur l’absence de contradictions factuelles. Un texte peut être cohérent (bien écrit, fluide) mais inconsistant (contient des contradictions)
Factualité	La factualité vérifie la vérité. La consistency vérifie la non-contradiction. Un modèle peut être consistent mais factuellement faux (toujours la même mauvaise réponse)
Faithfulness	La faithfulness vérifie la fidélité aux sources. La consistency vérifie la non-contradiction interne. Les deux sont des dimensions de fiabilité complémentaires
Self-critique	La self-critique peut détecter les incohérences. La self-consistency est une technique qui les résout par vote majoritaire plutôt que par correction explicite

Verdict

La consistency est un pilier de la fiabilité des LLM qui reçoit moins d’attention que la factualité ou les hallucinations, mais qui est tout aussi critique. Un utilisateur qui reçoit des réponses contradictoires du même système perd confiance, même si chaque réponse individuelle est raisonnable.

La self-consistency (Wang et al., 2022) reste l’une des techniques de prompting les plus efficaces pour améliorer le raisonnement. CISC (2025) la rend économiquement viable en production. Mais l’inconsistance fondamentale des LLM sur des tâches simples (démontrée en 2025) rappelle que ces modèles ne « comprennent » pas la logique au sens humain du terme.

Pour les développeurs : utilisez la self-consistency (ou CISC) pour les tâches de raisonnement critiques. Monitorez la cohérence inter-réponses en production (mêmes questions, différentes sessions). Et rappelez-vous qu’un modèle consistent n’est pas forcément correct : la consistency doit être combinée avec la factualité et la faithfulness pour une évaluation complète.

L’avenir de la recherche sur la consistency passe par des architectures qui intègrent des contraintes de cohérence directement dans le processus de génération, plutôt que de les vérifier après coup. Les approches comme le post-processing par graphe et la correction par EBM (Energy-Based Model) sont des solutions intermédiaires prometteuses mais computationnellement coûteuses. La vraie solution nécessitera des innovations architecturales qui dépassent les limites de la génération autorégresssIve unidirectionnelle, comme les modèles de diffusion pour le langage ou les architectures bidirectionnelles. En attendant, la combinaison self-consistency + monitoring + validation croisée reste la meilleure stratégie disponible pour les déploiements en production.

Questions fréquentes

Quelle est la différence entre consistency et faithfulness ?

La faithfulness vérifie si la réponse est fidèle aux sources fournies au modèle. La consistency vérifie si les réponses du modèle sont non contradictoires entre elles et en interne. Un modèle peut être faithful (fidèle à ses sources) mais inconsistant (donner des réponses différentes à la même question posée deux fois). Inversement, un modèle peut être très consistent (toujours la même réponse) mais unfaithful (cette réponse ne correspond pas aux sources).

La self-consistency fonctionne-t-elle avec tous les modèles ?

La self-consistency fonctionne mieux avec les grands modèles (100B+ paramètres) qui ont des capacités de raisonnement suffisantes pour produire des chemins de chain-of-thought diversifiés. Sur les petits modèles, les chemins de raisonnement sont souvent de faible qualité, et le vote majoritaire converge vers la mauvaise réponse. CISC atténue partiellement ce problème en pondérant par la confiance, mais la qualité du modèle de base reste le facteur limitant.

Combien de chemins faut-il échantillonner pour la self-consistency ?

La self-consistency classique nécessite typiquement 10 à 40 chemins pour des gains significatifs. CISC réduit ce nombre de 40 % en moyenne (6 à 24 chemins). Les gains marginaux diminuent rapidement au-delà de 20 chemins. En production, commencez par 5-10 chemins avec CISC et ajustez selon le rapport coût/qualité de votre cas d’usage.

L’inconsistance des LLM est-elle un problème résolu ?

Non. Les recherches de 2025 montrent que même les meilleurs modèles (GPT-o4-mini, DeepSeek-R1) ne sont pas complètement self-consistent sur des tâches de raisonnement simple. L’architecture autorégresssIve des transformers crée une limitation structurelle : le modèle génère de gauche à droite et ne peut pas garantir la cohérence globale. Des techniques comme la self-consistency et le post-processing par graphe atténuent le problème mais ne l’éliminent pas.

Comment mesurer la consistency en production ?

Trois approches complémentaires : (1) soumettre régulièrement les mêmes questions (et leurs paraphrases) au modèle et mesurer la variance des réponses, (2) utiliser l’entropie sémantique comme signal d’incertitude (haute entropie = risque d’inconsistance), (3) vérifier la cohérence logique des relations affirmées dans les réponses longues (graphe de relations + détection de contradictions). Le framework de Patwardhan et al. (2025) propose un cadre formel pour cette évaluation.