Chain-of-Thought (CoT)

Le chain-of-thought (CoT), ou « chaîne de pensée », est une technique de prompt engineering qui consiste à inciter un modèle de langage à produire des étapes de raisonnement intermédiaires avant de donner sa réponse finale, améliorant significativement ses performances sur les tâches de raisonnement complexe.

Type: Technique de prompting / raisonnement
Publication originale: Janvier 2022 (Wei et al., Google Brain)
Article de référence: « Chain-of-Thought Prompting Elicits Reasoning in Large Language Models » (arXiv:2201.11903)
Variantes principales: Zero-shot CoT, Few-shot CoT, Auto-CoT, Self-Consistency CoT
Modèles compatibles: Tous les LLM de taille suffisante (100B+ paramètres pour les meilleurs résultats)
Impact mesuré: Jusqu’à +18% de précision sur les tâches arithmétiques (Wei et al., 2022)
Concept lié: Extended Thinking, Tree-of-Thought, Reasoning
Verdict: Technique fondatrice toujours utile sur les modèles non-raisonnement. Moins nécessaire sur les modèles de raisonnement modernes (o3, Claude Extended Thinking, R1) qui l’intègrent nativement.

Qu’est-ce que le chain-of-thought ?

Quand vous posez un problème mathématique à un LLM en lui demandant directement la réponse, il génère un résultat token par token sans phase de raisonnement explicite. Pour des additions simples, ça suffit. Pour des problèmes à plusieurs étapes (« Si un train part à 14h de Paris à 300 km/h et qu’un autre part à 15h de Lyon à 250 km/h… »), le modèle se trompe fréquemment parce qu’il tente de sauter directement à la conclusion.

Le chain-of-thought résout ce problème en poussant le modèle à « montrer son travail ». Au lieu de répondre directement, le modèle décompose le problème en sous-étapes, résout chacune d’entre elles, puis synthétise le résultat final. Ce processus imite la façon dont un humain résoudrait un problème complexe : on ne fait pas le calcul de tête en entier, on pose les étapes sur papier.

La technique a été formalisée en janvier 2022 par Jason Wei et ses collègues de Google Brain dans un article qui a transformé le domaine du prompt engineering. L’insight fondamental : les capacités de raisonnement « émergent naturellement » dans les modèles suffisamment grands quand on les incite à produire des étapes intermédiaires, sans avoir besoin de modifier les poids du modèle ni de constituer un jeu de données d’entraînement dédié. Un simple changement dans la formulation du prompt suffit.

Les principales variantes du CoT

Zero-shot CoT

La forme la plus simple du CoT. Vous ajoutez simplement « Réfléchis étape par étape » (ou « Let’s think step by step » en anglais) à la fin de votre prompt. Le modèle génère alors spontanément une chaîne de raisonnement sans qu’on lui ait fourni d’exemple.

Introduit par Kojima et al. (2022), le zero-shot CoT est remarquablement efficace compte tenu de sa simplicité. Il fonctionne sur pratiquement tous les LLM de taille suffisante et ne nécessite aucune préparation. Son principal défaut : la qualité du raisonnement est variable et le modèle peut produire des chaînes de pensée incorrectes mais convaincantes, surtout sur les problèmes spécialisés.

Exemple concret :

Question : Un magasin vend des pommes à 2€ le kilo. Marie achète 3 kilos
de pommes et 2 bouteilles d'eau à 1,50€ chacune. Combien paie-t-elle ?

Réfléchis étape par étape avant de répondre.

Le modèle décomposera : prix des pommes (3 × 2€ = 6€), prix de l’eau (2 × 1,50€ = 3€), total (6€ + 3€ = 9€). Sans le CoT, il peut directement tenter le calcul en une seule passe et se tromper.

Few-shot CoT

La forme originale décrite par Wei et al. (2022). Vous fournissez quelques exemples (typiquement 4 à 8) de problèmes résolus avec leur raisonnement complet avant de poser votre question. Le modèle « apprend » le format de raisonnement à partir des exemples et l’applique à votre problème.

Le few-shot CoT produit des résultats significativement meilleurs que le zero-shot sur les tâches complexes. L’article original rapporte des gains de jusqu’à +18% de précision sur les tâches arithmétiques en utilisant un modèle PaLM de 540 milliards de paramètres avec seulement 8 exemples de raisonnement. Sur le benchmark GSM8K (problèmes mathématiques de niveau école primaire/collège), cette approche a atteint des performances de pointe à l’époque de sa publication.

L’inconvénient : la conception manuelle des exemples demande du travail et de l’expertise. Les exemples doivent être représentatifs du type de raisonnement attendu, ce qui limite la scalabilité de l’approche.

Auto-CoT

Proposé par Zhang et al. (2023), Auto-CoT automatise la création des exemples de raisonnement. L’algorithme partitionne les questions d’un jeu de données en clusters, sélectionne une question représentative par cluster, puis utilise le zero-shot CoT pour générer les raisonnements associés. Ces exemples automatiquement générés sont ensuite utilisés comme démonstrations few-shot.

Les performances d’Auto-CoT sont comparables à celles du few-shot CoT manuel, tout en éliminant le coût humain de la conception des exemples. C’est une approche particulièrement pertinente pour les applications en production où il faut traiter de nombreux types de questions différents.

Self-Consistency CoT

Introduit par Wang et al. (2022), le self-consistency CoT va au-delà du CoT classique en échantillonnant plusieurs chaînes de raisonnement indépendantes pour le même problème, puis en sélectionnant la réponse la plus fréquente (vote majoritaire). L’idée : si plusieurs chemins de raisonnement différents convergent vers la même réponse, celle-ci est probablement correcte.

Cette technique améliore significativement la fiabilité du CoT au prix d’un coût computationnel plus élevé (il faut générer N raisonnements au lieu d’un seul). Elle est particulièrement efficace pour les problèmes où le CoT standard produit des résultats inconsistants.

Comment le CoT fonctionne-t-il réellement ?

Le mécanisme sous-jacent du CoT est un sujet de recherche actif. L’explication la plus communément acceptée : quand un LLM génère des tokens de raisonnement intermédiaires, il « augmente » sa mémoire de travail effective. Les transformers ont une capacité de calcul par couche fixe. En générant des étapes intermédiaires qui sont ensuite re-traitées comme contexte, le modèle bénéficie effectivement de plus de « passes de calcul » sur le problème.

C’est pour cette raison que le CoT est une capacité émergente des grands modèles. Les petits modèles (moins de 10 milliards de paramètres) ne bénéficient que marginalement du CoT, voire voient leurs performances se dégrader. La technique nécessite que le modèle ait suffisamment de capacité pour produire des raisonnements cohérents et pour exploiter ces raisonnements dans sa génération ultérieure.

Un point souvent mécompris : les chaînes de raisonnement produites par le CoT ne reflètent pas nécessairement le « vrai » processus de calcul interne du modèle. Ce sont des approximations linguistiques d’un processus qui se déroule dans les couches de l’architecture neuronale. Un modèle peut produire un raisonnement apparemment correct mais arriver à la bonne réponse pour de mauvaises raisons, ou inversement produire un raisonnement incorrect mais tomber sur la bonne réponse par chance.

CoT prompting vs Extended Thinking

La distinction entre le chain-of-thought prompting et l’extended thinking (pensée étendue) est cruciale car les deux termes sont souvent confondus.

Aspect	Chain-of-Thought (prompting)	Extended Thinking (fonctionnalité modèle)
Nature	Technique de prompting applicable à tout LLM	Fonctionnalité native entraînée dans le modèle
Activation	Instruction dans le prompt (« réfléchis étape par étape »)	Toggle dans l’interface ou paramètre API
Raisonnement	Mélangé dans la réponse visible	Séparé dans des thinking blocks dédiés
Entraînement	Aucun entraînement spécifique nécessaire	Le modèle est spécifiquement entraîné pour cette phase
Qualité du raisonnement	Variable, dépend du prompt	Supérieure (raisonnement optimisé par l’entraînement)
Coût	Tokens de raisonnement inclus dans la réponse	Thinking tokens facturés séparément (API)
Exemples	Tout LLM avec « réfléchis étape par étape »	Claude Extended Thinking, OpenAI o3, DeepSeek R1

En résumé : le CoT prompting est une technique externe que l’utilisateur applique, tandis que l’extended thinking est une capacité interne que le modèle possède. Les modèles de raisonnement modernes (Claude avec extended thinking, o3, R1) intègrent nativement une forme de CoT optimisée. Leur demander en plus de « réfléchir étape par étape » est généralement redondant et peut même nuire aux performances.

La valeur décroissante du CoT prompting

Une étude de la Wharton School (Meincke et al., juin 2025) a mis en évidence un phénomène important : l’utilité du CoT prompting diminue à mesure que les modèles deviennent plus puissants.

Pour les modèles non-raisonnement (GPT-4o, Claude Sonnet sans extended thinking), le CoT prompting apporte encore un gain modeste sur la précision moyenne, surtout si le modèle n’engage pas spontanément un raisonnement étape par étape. Cependant, le CoT peut aussi introduire plus de variabilité dans les réponses, provoquant parfois des erreurs sur des questions que le modèle aurait résolues correctement sans CoT.

Pour les modèles de raisonnement dédiés (o3, o4-mini, Claude avec extended thinking, DeepSeek R1), les bénéfices du CoT prompting explicite sont négligeables. Ces modèles intègrent déjà un processus de raisonnement interne optimisé. Ajouter « réfléchis étape par étape » au prompt ne fait qu’augmenter le temps de réponse sans améliorer la qualité.

Recommandation pratique Si vous utilisez un modèle de raisonnement récent (Claude avec extended thinking, o3, R1), ne demandez pas explicitement un raisonnement étape par étape. Laissez le modèle gérer son propre processus de réflexion. Si vous utilisez un modèle standard plus ancien ou plus petit, le CoT prompting reste une technique efficace et quasi gratuite pour améliorer les performances.

Quand utiliser le CoT prompting

Situations où le CoT est efficace

Le CoT brille sur les tâches de raisonnement arithmétique et mathématique, surtout les problèmes à plusieurs étapes (calculs en cascade, conversions d’unités, pourcentages composés). Le raisonnement logique et la déduction formelle bénéficient également du CoT : syllogismes, puzzles logiques, résolution de contraintes. L’analyse de code (trouver un bug, tracer l’exécution d’un programme) s’améliore nettement quand le modèle explicite chaque étape. Le raisonnement de bon sens sur des scénarios complexes (prédire les conséquences d’une action, évaluer des risques) profite aussi du CoT.

Situations où le CoT est inutile ou nuisible

Les tâches de récupération factuelle (« Quelle est la capitale du Japon ? ») ne bénéficient pas du CoT. La génération créative (écriture, poésie, brainstorming) peut même être freinée par un raisonnement trop structuré. Les tâches de classification simple et les résumés de texte n’ont pas besoin de décomposition en étapes. Sur les modèles de raisonnement natifs, le CoT prompting est redondant.

Bonnes pratiques d’implémentation

Plusieurs techniques améliorent l’efficacité du CoT dans vos prompts.

Pour le zero-shot CoT, les formulations les plus efficaces varient selon le modèle, mais « Réfléchis étape par étape » et « Décompose le problème avant de répondre » fonctionnent de manière fiable sur la majorité des LLM. Évitez les instructions trop prescriptives (« Fais exactement 5 étapes de raisonnement ») : laissez le modèle structurer son propre raisonnement.

Pour le few-shot CoT, sélectionnez des exemples dont la complexité est similaire à vos cas réels. Des exemples trop simples ne « démontrent » rien d’utile au modèle. Des exemples trop complexes peuvent noyer le signal. Visez la diversité des types de raisonnement plutôt que la quantité : 4 exemples variés valent mieux que 8 exemples similaires.

Pour la production, combinez le CoT avec la self-consistency si la fiabilité est critique. Générez 3 à 5 raisonnements indépendants (en ajustant la température entre 0,5 et 0,7) et prenez la réponse majoritaire. Cette approche réduit drastiquement les erreurs de raisonnement au prix d’un coût multiplié par le nombre d’échantillons.

Attention aux faux raisonnements Le CoT peut produire des chaînes de raisonnement convaincantes mais incorrectes. C’est le problème de la « fausse confiance » (Wang et al., 2022) : un modèle qui « montre son travail » paraît plus fiable, mais ses étapes intermédiaires peuvent contenir des erreurs subtiles qui passent inaperçues. Ne considérez jamais le raisonnement visible comme une garantie de justesse. Vérifiez les résultats, surtout dans les domaines spécialisés.

Techniques avancées dérivées du CoT

Le chain-of-thought a inspiré tout un écosystème de techniques de raisonnement dont plusieurs disposent de leur propre entrée dans le glossaire :

Technique	Principe	Avantage par rapport au CoT standard
Tree-of-Thought (ToT)	Explore plusieurs branches de raisonnement en parallèle et évalue chacune	Gestion des impasses : le modèle peut revenir en arrière et essayer un autre chemin
Self-Consistency	Génère N chaînes CoT et sélectionne la réponse majoritaire	Réduit la variance et les erreurs aléatoires du CoT standard
Auto-CoT	Génère automatiquement les exemples de raisonnement par clustering	Élimine le coût humain de la conception d’exemples
Reflection	Le modèle critique et corrige son propre raisonnement	Auto-correction des erreurs de raisonnement
Extended Thinking	Raisonnement interne natif avec thinking blocks séparés	Raisonnement optimisé par l’entraînement, pas juste du prompting

Impact historique et héritage

L’article de Wei et al. (2022) est l’un des plus cités de l’histoire du deep learning appliqué aux modèles de langage. Son impact dépasse largement la technique elle-même : il a démontré que les capacités de raisonnement des LLM pouvaient être « débloquées » par de simples changements dans la formulation des prompts, sans modification du modèle.

Cette découverte a directement inspiré le développement des modèles de raisonnement : OpenAI o1 (septembre 2024), DeepSeek R1 (janvier 2025), Claude 3.7 Sonnet avec extended thinking (février 2025), puis tous les modèles de raisonnement ultérieurs. L’idée fondatrice de ces modèles est exactement celle du CoT : donner au modèle plus de tokens pour réfléchir améliore ses performances. La différence est que cette capacité est maintenant intégrée dans l’entraînement du modèle plutôt que dépendante du prompting de l’utilisateur.

Le CoT a aussi transformé la pratique du prompt engineering. Avant sa publication, le prompting se limitait essentiellement à formuler clairement la question. Après, toute une discipline d’ingénierie du raisonnement est née, avec des techniques de plus en plus sophistiquées pour guider la réflexion des modèles.

Questions fréquentes

Faut-il encore utiliser le chain-of-thought en 2026 ?

Ça dépend du modèle. Sur les modèles de raisonnement natifs (Claude avec extended thinking, o3, DeepSeek R1), le CoT prompting explicite est redondant et parfois contre-productif. Ces modèles intègrent déjà un processus de raisonnement optimisé. Sur les modèles standard (GPT-4o, Claude Sonnet en mode normal, Mistral), le CoT reste une technique simple et efficace pour améliorer les performances sur les tâches de raisonnement. La règle : si votre modèle a un mode « thinking » ou « reasoning », laissez-le gérer. Sinon, utilisez le CoT.

Le chain-of-thought fonctionne-t-il sur les petits modèles ?

Mal. Le CoT est une capacité émergente des grands modèles, typiquement ceux dépassant 100 milliards de paramètres. Sur les modèles plus petits (7B, 13B paramètres), le CoT peut être inefficace, voire dégrader les performances en produisant des raisonnements incohérents qui polluent la génération. Les techniques de distillation de connaissances (Ma et al., 2023) permettent de transférer une partie de la capacité de raisonnement aux petits modèles, mais avec des résultats inférieurs aux grands modèles.

Quelle est la meilleure formulation pour le zero-shot CoT ?

« Réfléchis étape par étape » ou « Let’s think step by step » reste la formulation de référence. Des variantes comme « Décompose le problème en sous-étapes avant de répondre » ou « Raisonne à voix haute » fonctionnent aussi. Évitez les instructions trop rigides (« Fais exactement 3 étapes ») qui contraignent inutilement le modèle. Pour les tâches spécialisées, ajoutez du contexte : « Réfléchis étape par étape comme un comptable expérimenté » est souvent plus efficace que le CoT générique.

Quelle est la différence entre chain-of-thought et tree-of-thought ?

Le chain-of-thought produit une seule chaîne de raisonnement linéaire, du problème à la solution. Le tree-of-thought (ToT) explore plusieurs branches de raisonnement en parallèle, évalue chaque branche, et peut revenir en arrière pour essayer un autre chemin quand une branche mène à une impasse. Le ToT est plus puissant pour les problèmes de planification et les puzzles, mais plus coûteux en tokens et en temps. Le CoT suffit pour la majorité des tâches de raisonnement.

Le CoT augmente-t-il le coût des requêtes API ?

Oui. Les tokens de raisonnement intermédiaires sont facturés comme des tokens de sortie normaux. Un CoT qui ajoute 200 tokens de raisonnement avant une réponse de 100 tokens vous coûte 300 tokens de sortie au lieu de 100. Le self-consistency CoT (N échantillons) multiplie ce coût par N. Pour optimiser, commencez par le zero-shot CoT (coût minimal) et n’escaladez vers le few-shot ou le self-consistency que si la qualité l’exige. Sur les modèles de raisonnement natifs, le coût du thinking est généralement mieux optimisé que le CoT prompting car le modèle calibre automatiquement l’effort de réflexion.