Extended Thinking

Extended thinking (pensée étendue) est une fonctionnalité des modèles Claude d’Anthropic qui permet au modèle de raisonner de manière approfondie et étape par étape avant de produire sa réponse finale, en allouant un budget de tokens dédié à la réflexion interne dont le processus est rendu visible à l’utilisateur.

Éditeur: Anthropic
Lancement: Février 2025 (avec Claude 3.7 Sonnet)
Modèles supportés: Claude 3.7 Sonnet, Claude 4/4.1/4.5 (Sonnet et Opus), Claude 4.6 (Sonnet et Opus)
Accès: Plans Pro, Max, Team, Enterprise + API (pas disponible sur le plan gratuit)
Budget de réflexion: Configurable de 1 024 à 128 000 tokens (API), adaptive thinking sur Opus 4.6/Sonnet 4.6
Mode: Manual (budget fixe) ou Adaptive (Claude décide dynamiquement)
Concept lié: Chain-of-Thought, Reasoning, test-time compute
Verdict: Indispensable pour les tâches complexes (maths, code, analyse). Inutile pour les questions simples. Le budget configurable est un avantage décisif sur la concurrence.

Qu’est-ce que l’extended thinking ?

Quand vous posez une question simple à un LLM, il produit sa réponse token par token, de gauche à droite, sans étape de réflexion préalable. Pour une question facile, ça suffit. Pour un problème de mathématiques complexe, un bug subtil dans du code ou une analyse juridique à plusieurs niveaux, ce mode « réponse immédiate » atteint ses limites. Le modèle peut se précipiter vers une mauvaise réponse parce qu’il n’a pas pris le temps de structurer son raisonnement.

L’extended thinking résout ce problème en ajoutant une phase de réflexion avant la réponse. Quand le mode est activé, Claude génère d’abord des « thinking tokens » (tokens de réflexion) où il décompose le problème, explore différentes approches, vérifie ses hypothèses et itère sur son raisonnement. Une fois cette réflexion terminée, il produit sa réponse finale, informée par tout ce travail préparatoire.

La fonctionnalité a été introduite en février 2025 avec Claude 3.7 Sonnet, faisant d’Anthropic le premier à proposer un modèle « hybride » capable de fonctionner à la fois comme un LLM classique (réponse rapide) et comme un modèle de raisonnement (réflexion approfondie), dans une seule et même architecture. Depuis, l’extended thinking est devenu une fonctionnalité standard de tous les modèles Claude 4.x et 4.6.

Comment ça fonctionne techniquement

Serial test-time compute

L’extended thinking repose sur le concept de « serial test-time compute » (calcul séquentiel au moment de l’inférence). Au lieu de consacrer un nombre fixe de calculs par requête, le modèle peut allouer davantage de ressources computationnelles aux problèmes difficiles. Concrètement, Claude produit une séquence de raisonnement interne, étape par étape, avant de formuler sa réponse.

La performance s’améliore de manière logarithmique avec le nombre de tokens de réflexion alloués. Anthropic a mesuré ce phénomène sur les questions du concours de mathématiques AIME 2024 : la précision augmente progressivement à mesure que le budget de réflexion croît, bien qu’il y ait des rendements décroissants au-delà d’un certain seuil. Le modèle ne consomme pas nécessairement tout le budget alloué : il s’arrête naturellement quand il estime avoir suffisamment réfléchi.

Parallel test-time compute

En complément de l’approche séquentielle, Anthropic a expérimenté le « parallel test-time compute ». Cette technique génère simultanément plusieurs chaînes de raisonnement indépendantes, puis sélectionne la meilleure réponse via un vote majoritaire ou un modèle de scoring appris. Sur les benchmarks scientifiques comme GPQA, cette approche a atteint des scores de 84,8% avec des sous-scores en physique encore plus élevés. Cette technique est principalement utilisée en recherche et via l’API pour des cas d’usage avancés.

Structure des thinking blocks

Côté API, l’extended thinking produit des « content blocks » de type thinking qui contiennent le raisonnement interne de Claude, suivis des blocks text classiques contenant la réponse finale. Le processus de réflexion est signé cryptographiquement pour garantir son intégrité. Dans certains cas, des blocks redacted_thinking apparaissent quand le raisonnement interne touche à des sujets sensibles interceptés par les systèmes de sécurité. Le contenu est masqué, mais Claude peut toujours utiliser ce raisonnement pour informer sa réponse.

Sur les modèles Claude 4 et ultérieurs, le raisonnement est résumé (summarized) par défaut plutôt que retourné en intégralité, pour réduire la latence et faciliter le streaming. Claude 3.7 Sonnet reste le seul modèle à retourner le thinking complet non résumé.

Les deux modes : Manual vs Adaptive

Mode Manual (thinking: enabled + budget_tokens)

Le mode historique, disponible depuis Claude 3.7 Sonnet. Vous activez explicitement l’extended thinking et définissez un budget de tokens (minimum 1 024, maximum 128 000) que Claude peut utiliser pour réfléchir. Le budget est un objectif approximatif, pas une limite stricte : la consommation réelle peut varier légèrement.

Ce mode convient quand vous savez à l’avance que la tâche est complexe et que vous voulez contrôler précisément le rapport coût/qualité. Par exemple, pour un benchmark mathématique, vous pouvez progressivement augmenter le budget pour trouver le point optimal où la précision n’augmente plus significativement.

Stratégie de calibration du budget Commencez avec le minimum (1 024 tokens) et augmentez progressivement. Pour la plupart des tâches de coding et d’analyse, un budget de 4 000 à 10 000 tokens offre un bon équilibre. Les budgets supérieurs à 32 000 tokens ne sont justifiés que pour les problèmes de mathématiques compétitives ou les raisonnements très complexes à plusieurs niveaux.

Mode Adaptive (thinking: adaptive)

Introduit avec Claude Opus 4.6 et Sonnet 4.6, le mode adaptive est la méthode recommandée pour les modèles récents. Au lieu de fixer un budget, vous laissez Claude décider s’il a besoin de réfléchir et combien de tokens y consacrer. Pour une question simple (« Quelle est la capitale de la France ? »), Claude ne générera aucun thinking block. Pour un problème d’optimisation algorithmique, il s’accordera automatiquement le temps de réflexion nécessaire.

Le mode adaptive active automatiquement l’interleaved thinking (réflexion entrelacée) : Claude peut insérer des blocks de réflexion entre les appels d’outils, pas seulement au début de sa réponse. C’est particulièrement utile pour les workflows agentiques où Claude enchaîne recherche web, exécution de code et analyse de résultats.

Vous pouvez combiner le mode adaptive avec un paramètre effort qui guide (sans contraindre) l’allocation de réflexion : low, medium ou high. Ce paramètre agit comme une suggestion souple pour orienter le comportement du modèle.

Caractéristique	Mode Manual	Mode Adaptive
Activation	`thinking: {type: "enabled", budget_tokens: N}`	`thinking: {type: "adaptive"}`
Disponibilité	Tous les modèles avec extended thinking	Claude Opus 4.6 et Sonnet 4.6 uniquement
Contrôle du budget	Fixe, défini par le développeur	Dynamique, décidé par Claude
Interleaved thinking	Nécessite un header beta séparé	Activé automatiquement
Paramètre effort	Non disponible	Optionnel (low/medium/high)
Cas d’usage idéal	Benchmarks, contrôle précis des coûts	Production, workflows agentiques, usage général

Mode Manual déprécié sur les modèles récents Sur Opus 4.6 et Sonnet 4.6, le mode manual (type: "enabled" avec budget_tokens) est toujours accepté mais officiellement déprécié. Anthropic recommande d’utiliser le mode adaptive pour ces modèles. Le mode manual reste pleinement supporté sur Claude 3.7 Sonnet et les modèles Claude 4.x.

Interleaved Thinking (réflexion entrelacée)

L’interleaved thinking permet à Claude d’insérer des blocks de réflexion à plusieurs endroits dans sa réponse, pas seulement au début. Sans cette fonctionnalité, Claude réfléchit une fois avant de commencer à répondre. Avec l’interleaved thinking, il peut réfléchir entre les appels d’outils, après avoir reçu les résultats d’une recherche web, ou avant de décider quelle fonction appeler ensuite.

C’est une avancée majeure pour les agents IA qui enchaînent de multiples actions. Un agent de coding, par exemple, peut réfléchir après avoir lu un fichier de code pour décider quel test écrire, puis réfléchir à nouveau après l’exécution du test pour analyser les résultats.

L’interleaved thinking est automatiquement activé en mode adaptive sur Opus 4.6 et Sonnet 4.6. Pour les autres modèles (Claude 4, 4.1, 4.5), il nécessite le header beta interleaved-thinking-2025-05-14.

Extended Thinking vs Think Tool

Anthropic propose deux mécanismes complémentaires qu’il est important de distinguer :

Aspect	Extended Thinking	Think Tool
Quand	Avant de commencer à générer la réponse	Pendant la génération, entre les étapes
Nature	Fonctionnalité native du modèle	Outil externe que Claude peut appeler
Déclenchement	Automatique ou configuré via API	Claude décide de l’utiliser quand il a besoin de réfléchir
Cas d’usage principal	Problèmes nécessitant une réflexion approfondie en amont	Longues chaînes d’appels d’outils, traitement d’informations externes
Recommandation Anthropic	Préféré dans la plupart des cas	Utile en complément pour les workflows agentiques très longs

L’extended thinking est la réflexion que Claude fait avant d’agir. Le think tool est la réflexion que Claude fait en cours d’action, quand il découvre de nouvelles informations et doit réévaluer sa stratégie. Les deux peuvent être utilisés simultanément pour maximiser la qualité du raisonnement dans les workflows complexes.

Modèles supportés et évolution

Modèle	Extended Thinking	Interleaved Thinking	Adaptive Thinking	Thinking visible
Claude 3.7 Sonnet	✅ (premier modèle)	❌	❌	✅ Complet (non résumé)
Claude 4 Sonnet/Opus	✅	✅ (beta header)	❌	Résumé par défaut
Claude 4.1 Opus	✅	✅ (beta header)	❌	Résumé par défaut
Claude 4.5 Sonnet/Opus	✅	✅ (beta header)	❌	Résumé par défaut
Claude Haiku 4.5	✅	✅ (beta header)	❌	Résumé par défaut
Claude 4.6 Sonnet	✅	✅ (beta header ou adaptive)	✅	Résumé par défaut
Claude 4.6 Opus Dernier	✅	✅ (automatique en adaptive)	✅	Résumé par défaut

Quand utiliser l’extended thinking

L’extended thinking n’est pas toujours nécessaire. Voici les situations où il apporte une valeur mesurable, et celles où il est inutile.

Où l’extended thinking excelle

Les problèmes mathématiques et scientifiques bénéficient le plus de la réflexion étendue. Sur le benchmark AIME 2024 (mathématiques compétitives niveau lycée), Claude 3.7 Sonnet passe de scores modestes à 80% de réussite en mode extended thinking avec un budget de 64 000 tokens. L’analyse de code complexe (debugging, refactoring, revue de sécurité) profite aussi énormément de la phase de réflexion. L’analyse multi-documents, les raisonnements juridiques ou financiers à plusieurs niveaux, et les tâches agentiques nécessitant une planification sont également des cas d’usage de premier ordre.

Où l’extended thinking est inutile

Les questions factuelles simples, la rédaction créative, les traductions, les résumés de texte et la conversation générale ne bénéficient pas significativement de l’extended thinking. Activer la réflexion étendue pour ces tâches ne fait qu’ajouter de la latence et du coût sans améliorer la qualité. Le mode adaptive est parfait pour ces situations : Claude détecte automatiquement que la tâche est simple et ne génère pas de thinking block.

Extended Thinking vs la concurrence

Fonctionnalité	Claude Extended Thinking	OpenAI o3/o4-mini	DeepSeek R1	Gemini Thinking
Approche	Hybride (même modèle, mode activable)	Modèle séparé dédié au raisonnement	Mode raisonnement intégré	Mode thinking intégré
Budget configurable	✅ 1K à 128K tokens, granulaire	⚠️ 3 niveaux (low/medium/high)	❌ Automatique	❌ Automatique
Mode adaptive	✅ (Opus 4.6, Sonnet 4.6)	❌	❌	❌
Thinking visible	✅ (résumé ou complet)	⚠️ Résumé uniquement	✅ Complet	✅ Complet
Interleaved thinking	✅	❌	❌	❌
Prix (API, par 1M tokens)	Tarif standard du modèle	Facturation tokens raisonnement	≈ $0,28 input / $0,42 output	Tarif standard du modèle

Verdict : L’approche d’Anthropic est la plus flexible du marché. Le budget de réflexion configurable token par token (pas seulement 3 niveaux comme chez OpenAI), le mode adaptive qui décide dynamiquement, et l’interleaved thinking pour les workflows agentiques sont des avantages concrets. DeepSeek R1 reste imbattable sur le rapport qualité/prix pour le raisonnement pur. Les modèles o3 et o4-mini d’OpenAI sont compétitifs sur les benchmarks mathématiques mais offrent moins de contrôle sur le processus de réflexion.

Bonnes pratiques

Anthropic recommande plusieurs approches pour tirer le meilleur parti de l’extended thinking. Préférez les instructions générales (« réfléchis en profondeur ») plutôt que les instructions pas-à-pas détaillées : le modèle est plus efficace quand il structure son propre raisonnement. Utilisez le mode adaptive sur les modèles récents sauf si vous avez besoin d’un contrôle précis des coûts. Commencez avec un budget minimal (1 024 tokens) et augmentez progressivement pour trouver le point optimal. Préparez-vous à des temps de réponse plus longs : à 14 ms par token, un budget de 100 000 tokens de réflexion peut ajouter 20+ minutes à la réponse. Les thinking blocks des tours précédents sont automatiquement ignorés par l’API pour le calcul du contexte, vous n’avez pas besoin de les supprimer manuellement.

Impact sur la latence et les coûts Les thinking tokens sont facturés comme des tokens de sortie (output). Un budget de 10 000 tokens de réflexion sur Claude Opus 4.6 (25$/M tokens output) représente environ 0,25$ de coût supplémentaire par requête, auxquels s’ajoutent les tokens de la réponse finale. Pour les applications sensibles au coût, utilisez le mode adaptive avec un effort low ou commencez avec un budget minimal en mode manual.

Extended thinking dans Claude.ai

Dans l’interface web de Claude, l’extended thinking est accessible sur les plans Pro, Max, Team et Enterprise. Il n’est pas disponible sur le plan gratuit. Quand il est activé, vous voyez un indicateur « Thinking… » pendant que Claude réfléchit, suivi de sa réponse. Le contenu de la réflexion est visible et dépliable : vous pouvez voir le raisonnement interne de Claude, ce qui est utile pour vérifier la logique de sa démarche et identifier d’éventuelles erreurs de raisonnement.

Claude Opus 4.6 utilise l’adaptive thinking par défaut dans l’interface : il décide automatiquement quand réfléchir en profondeur. L’utilisateur n’a rien à configurer.

Questions fréquentes

L’extended thinking est-il disponible sur le plan gratuit ?

Non. L’extended thinking nécessite un plan payant : Pro (20$/mois), Max, Team ou Enterprise. Il est également accessible via l’API Anthropic (facturation au token), Amazon Bedrock et Google Cloud Vertex AI. Sur le plan gratuit, Claude fonctionne en mode standard sans réflexion étendue.

L’extended thinking rend-il toujours Claude meilleur ?

Non. Pour les questions simples (faits, résumés, traduction, conversation), l’extended thinking n’apporte aucune amélioration mesurable et ajoute uniquement de la latence et du coût. Son bénéfice est concentré sur les tâches complexes : mathématiques, analyse de code, raisonnement multi-étapes, résolution de problèmes. Le mode adaptive est la meilleure option car Claude décide lui-même quand la réflexion est justifiée.

Quelle est la différence entre extended thinking et chain-of-thought ?

Le chain-of-thought (CoT) est une technique de prompting où l’on demande au modèle de « montrer son raisonnement » dans sa réponse. L’extended thinking est une fonctionnalité native du modèle qui ajoute une phase de réflexion interne séparée, avec des tokens dédiés qui ne font pas partie de la réponse finale. L’extended thinking est plus puissant car le modèle a été spécifiquement entraîné pour cette phase de réflexion, et le raisonnement est structuré dans des blocks dédiés plutôt que mélangé à la réponse.

Les thinking tokens sont-ils facturés ?

Oui. Les thinking tokens sont facturés au tarif des tokens de sortie (output) du modèle utilisé. Sur Claude Opus 4.6, cela représente 25$/M tokens. Le coût s’ajoute à celui de la réponse finale. Les thinking blocks des tours précédents dans une conversation sont automatiquement ignorés et ne sont pas comptabilisés comme tokens d’entrée, ce qui évite l’accumulation des coûts au fil de la conversation.

Peut-on voir le raisonnement de Claude en extended thinking ?

Oui, avec des nuances. Sur Claude 3.7 Sonnet, le thinking complet et non résumé est visible. Sur les modèles Claude 4.x et 4.6, le thinking est résumé par défaut pour réduire la latence (le résumé est produit par un modèle séparé). Dans l’interface Claude.ai, le raisonnement est visible et dépliable. Certains thinking blocks peuvent être « redacted » (masqués) quand le raisonnement touche à des contenus sensibles détectés par les systèmes de sécurité, mais Claude peut toujours utiliser ce raisonnement en interne.