Claude Extended Thinking : le guide complet du raisonnement avancé

Extended Thinking est une fonctionnalité qui permet à Claude de réfléchir étape par étape avant de répondre, en créant un « monologue intérieur » visible. Le résultat : des réponses significativement plus précises sur les tâches complexes de code, de maths, d’analyse et de stratégie.

La différence entre le mode standard et Extended Thinking est celle entre un collègue qui répond du tac au tac et un expert qui prend le temps de structurer sa réflexion sur un tableau blanc. Les deux ont leur place, mais pour les problèmes exigeants, la qualité du raisonnement approfondi n’est pas comparable. Ce guide couvre le fonctionnement, les modes disponibles (extended et adaptive), le budget de tokens, les cas d’usage, l’utilisation via l’interface et via l’API, et les bonnes pratiques.

Disponibilité interface: Plans payants (Pro, Max, Team, Enterprise)
Disponibilité API: Tous les modèles Claude 4+, Sonnet 3.7
Modes: Extended (budget fixe) et Adaptive (automatique)
Budget minimum: 1 024 tokens
Budget par défaut (Claude Code): 31 999 tokens
Coût: Tokens de thinking facturés au prix des tokens output
Modèle recommandé: Opus 4.6 (adaptive thinking par défaut)
Lancement: Février 2025 (Sonnet 3.7), étendu à tous les modèles Claude 4

Comment fonctionne Extended Thinking

Sans Extended Thinking, Claude génère sa réponse token par token de manière séquentielle, comme tout LLM standard. Le résultat est rapide mais peut manquer de profondeur sur les problèmes complexes.

Avec Extended Thinking activé, Claude commence par créer un ou plusieurs blocs de « thinking » où il explore différentes approches, vérifie son raisonnement pas à pas, corrige ses erreurs et structure sa réflexion. Il ne produit sa réponse finale qu’après avoir terminé ce processus de réflexion interne.

Ce mécanisme exploite ce que les chercheurs appellent le « serial test-time compute » : en ajoutant des étapes de raisonnement séquentielles pendant l’inférence, la précision du modèle augmente de manière logarithmique avec le nombre de tokens de thinking. Les recherches d’Anthropic montrent que la précision en mathématiques, par exemple, s’améliore de façon prévisible quand on augmente le budget de thinking.

Sur les modèles Claude 4 (Opus 4.6, Sonnet 4.6, Haiku 4.5), la réponse API inclut un résumé du processus de réflexion plutôt que les tokens bruts. Ce résumé préserve les bénéfices d’intelligence tout en empêchant les usages détournés. Les tokens de thinking complets sont facturés même si seul le résumé est affiché. Sur Sonnet 3.7, le thinking complet est retourné tel quel.

Thinking chiffré dans de rares cas Quand le processus de réflexion de Claude touche à des sujets sensibles (sécurité des mineurs, cyberattaques, armes dangereuses), le bloc de thinking peut être chiffré pour des raisons de sécurité. Claude continue de réfléchir normalement (et peut produire une réponse finale parfaitement bénigne), mais la partie chiffrée n’est pas lisible. Cela reste rare et n’affecte pas la qualité des réponses.

Les deux modes : Extended et Adaptive

Extended Thinking (budget fixe)

Le mode Extended classique vous donne un contrôle précis via le paramètre budget_tokens. Vous fixez le nombre maximum de tokens que Claude peut utiliser pour sa réflexion interne. Claude utilise autant de tokens que nécessaire dans cette limite.

Ce mode est supporté sur Sonnet 4.6, Sonnet 4.5, Haiku 4.5, Opus 4.5 et Sonnet 3.7. Sur Opus 4.6, le mode Extended avec budget_tokens manuel est déprécié au profit de l’Adaptive Thinking.

Le budget minimum est de 1 024 tokens. Il n’y a pas de maximum strict : la limite effective est max_tokens - 1 (car budget_tokens doit être strictement inférieur à max_tokens). Sur les modèles avec 64K tokens d’output, vous pouvez monter jusqu’à 63 999 tokens de thinking.

Adaptive Thinking (automatique)

Lancé avec Opus 4.6 en février 2026, l’Adaptive Thinking permet à Claude de décider automatiquement combien de temps il doit réfléchir en fonction de la complexité de la question. Pour une question simple, il répond quasi instantanément. Pour un problème de code complexe ou une analyse stratégique, il active son raisonnement approfondi.

L’activation est simple :

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "Votre question"}]
)

Le paramètre effort (GA en mars 2026) permet de contrôler l’intensité du raisonnement de manière plus intuitive que le budget_tokens brut. Trois niveaux : low (réponses rapides, peu de réflexion), medium (équilibre) et high (réflexion maximale). C’est le successeur des anciens mots-clés « think », « megathink » et « ultrathink » utilisés dans Claude Code, qui sont désormais dépréciés.

L’Adaptive Thinking est le mode recommandé pour Opus 4.6. Il optimise automatiquement le rapport coût/qualité en n’utilisant que les tokens de thinking nécessaires.

Quand activer Extended Thinking

Extended Thinking n’est pas utile pour toutes les tâches. Voici les cas où il fait une différence significative, et ceux où il ne fait qu’ajouter de la latence et du coût.

Tâches où Extended Thinking excelle

Mathématiques et sciences. Problèmes multi-étapes, démonstrations, analyse statistique, modélisation. La précision augmente de manière mesurable et prévisible avec le budget de thinking.

Code complexe. Debugging de bugs difficiles, architecture de systèmes, refactoring multi-fichiers, résolution de problèmes algorithmiques. Claude explore les dépendances, anticipe les edge cases et produit des solutions plus robustes.

Analyse de documents longs. Synthèse de contrats, analyse comparative de rapports, extraction de patterns dans de grandes bases de texte. Le raisonnement structuré aide Claude à maintenir la cohérence sur de longs documents.

Stratégie et planification. Plans d’action multi-étapes, analyses SWOT, évaluation de décisions complexes avec plusieurs variables. Claude considère les interactions entre facteurs plutôt que de traiter chaque point isolément.

Raisonnement juridique et financier. Opus 4.6 avec Extended Thinking atteint 90,2 % sur BigLaw Bench (benchmark de raisonnement juridique) et détient la première place sur le Finance Agent Benchmark.

Tâches où Extended Thinking n’est pas nécessaire

Questions simples. « Quelle est la capitale de la France ? », « Traduis ce paragraphe en anglais ». Le mode standard est plus rapide et tout aussi précis.

Rédaction créative. Pour la rédaction d’articles, d’e-mails ou de contenus marketing, Extended Thinking ajoute rarement de la valeur. Claude est déjà excellent en rédaction sans raisonnement explicite.

Conversations informelles. Pour le brainstorming, les questions-réponses rapides ou l’aide au quotidien, le mode standard est plus fluide et approprié.

Activer Extended Thinking dans l’interface

Sur claude.ai ou l’application desktop, l’activation est simple. Ouvrez n’importe quel chat. Cliquez sur le sélecteur de modèle en bas de la conversation. Sélectionnez Opus 4.6. Activez le toggle « Extended Thinking » (ou « Thinking »). L’icône change pour indiquer que le mode est actif.

Quand Extended Thinking est activé, vous voyez un indicateur « Thinking… » pendant que Claude structure sa réflexion. La réponse prend plus de temps (quelques secondes à quelques minutes selon la complexité), mais la qualité est significativement supérieure sur les tâches adaptées.

Sur l’interface web et desktop, Claude utilise l’Adaptive Thinking par défaut avec Opus 4.6 : il décide automatiquement de la profondeur de réflexion nécessaire. Vous n’avez pas à configurer de budget manuellement.

Extended Thinking est exclusivement disponible sur les plans payants (Pro, Max, Team, Enterprise). Le plan gratuit n’y donne pas accès.

Utiliser Extended Thinking via l’API

Via l’API, vous avez un contrôle plus granulaire. Deux configurations possibles selon le modèle.

Sur Opus 4.6 (adaptive recommandé)

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    output_config={"effort": "high"},  # low, medium ou high
    messages=[{"role": "user", "content": "Analyse ce contrat..."}]
)

Sur Sonnet 4.6 et autres modèles (budget fixe)

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    messages=[{"role": "user", "content": "Résous ce problème..."}]
)

La réponse contient des blocs de type thinking (le raisonnement, résumé sur les modèles Claude 4) et des blocs de type text (la réponse finale). Les tokens de thinking sont facturés au prix des tokens output du modèle utilisé.

Interleaved Thinking (thinking entre les appels d’outils)

Sur Opus 4.6, l’interleaved thinking est automatiquement activé avec adaptive thinking. Claude peut réfléchir entre les appels d’outils, ce qui améliore considérablement la qualité des workflows agentiques multi-outils. Sur Sonnet 4.6, le header beta interleaved-thinking-2025-05-14 est nécessaire pour activer cette fonctionnalité.

L’interleaved thinking est particulièrement utile pour les agents IA qui enchaînent plusieurs appels d’outils : Claude réfléchit après chaque résultat d’outil plutôt que de tout planifier en amont.

Optimiser le budget de thinking

Commencez bas, montez progressivement. Démarrez à 1 024 tokens et augmentez par paliers. La relation entre budget et qualité est logarithmique : doubler le budget ne double pas la précision, mais l’améliore de manière consistante. Au-delà d’un certain seuil (variable selon la tâche), les rendements diminuent.

Le sweet spot par défaut. Claude Code utilise 31 999 tokens par défaut, ce qui représente un bon compromis pour les tâches de développement. Pour les tâches plus simples, 4 000 à 8 000 tokens suffisent souvent. Pour les analyses très complexes, montez à 16 000-32 000 tokens.

Budget > 32K : passez en batch. Les requêtes avec des budgets de thinking élevés peuvent prendre plusieurs minutes et risquent des timeouts réseau. Anthropic recommande le batch processing pour les budgets supérieurs à 32K tokens.

Les tokens de thinking ne consomment pas la fenêtre de contexte. Les blocs de thinking des tours précédents sont automatiquement ignorés par l’API et ne comptent pas dans le calcul du contexte. Vous n’avez pas à les supprimer manuellement. Cependant, ils sont facturés comme tokens d’input s’ils sont mis en cache.

Avec le tool use, budget > max_tokens est possible. Quand l’interleaved thinking est activé avec des outils, le budget de thinking peut dépasser max_tokens car la limite effective devient la fenêtre de contexte complète (200K tokens).

Variable d’environnement pour Claude Code Pour ajuster le budget de thinking dans Claude Code, utilisez la variable d’environnement MAX_THINKING_TOKENS. Par exemple : MAX_THINKING_TOKENS=63999 claude pour doubler le budget par défaut sur les modèles 64K output. Ajoutez-la à votre ~/.zshrc ou ~/.bashrc pour la rendre permanente.

Impact sur les coûts

Les tokens de thinking sont facturés au même tarif que les tokens output standard du modèle. Sur Sonnet 4.6, c’est 15 $/MTok. Sur Opus 4.6, 25 $/MTok. Le coût total d’une requête avec Extended Thinking = (tokens input × prix input) + (tokens thinking + tokens réponse) × prix output.

L’Adaptive Thinking d’Opus 4.6 optimise ce coût en n’utilisant que les tokens de thinking nécessaires. Pour une question simple, il consomme peu ou pas de tokens de thinking. Pour un problème complexe, il monte automatiquement. C’est plus économique qu’un budget fixe élevé appliqué à toutes les requêtes.

Le prompt caching avec Extended Thinking nécessite une attention particulière. Les tâches de thinking peuvent dépasser 5 minutes, ce qui invalide le cache TTL 5 min. Privilégiez le cache TTL 1 heure pour les workflows de raisonnement approfondi.

Conseils de prompting avec Extended Thinking

Le prompting avec Extended Thinking est légèrement différent du prompting standard. Voici les règles qui maximisent la qualité du raisonnement.

N’ajoutez pas « réfléchis étape par étape ». Contrairement aux modèles standard où le Chain-of-Thought améliore les résultats, Claude en mode Extended Thinking réfléchit déjà étape par étape de manière native. Ajouter cette instruction peut en réalité ralentir le processus sans améliorer la précision.

Soyez précis sur le résultat attendu. Claude utilise le thinking pour explorer des approches, pas pour deviner ce que vous voulez. Un prompt comme « Analyse ce contrat et identifie les 5 risques majeurs pour un acheteur, classés par gravité » produit de meilleurs résultats que « Que penses-tu de ce contrat ? ».

Fournissez toutes les contraintes en amont. Claude structure sa réflexion dès le début. Si vous ajoutez des contraintes après coup (« Ah, j’oubliais, il faut aussi prendre en compte X »), il doit recommencer son raisonnement. Regroupez toutes les informations pertinentes dans le premier message.

Utilisez le streaming pour les longues réflexions. Les requêtes Extended Thinking peuvent prendre 30 secondes à plusieurs minutes. Le streaming vous permet de voir la progression et d’afficher le thinking au fur et à mesure pour une meilleure expérience utilisateur.

Combinez avec les Projects. Extended Thinking est encore plus efficace quand Claude a déjà le contexte de votre projet (documents, conventions, historique). Le raisonnement se concentre sur le problème plutôt que sur la compréhension du contexte.

Extended Thinking vs la concurrence

Le raisonnement avancé n’est plus exclusif à un fournisseur. OpenAI a lancé la tendance avec o1 fin 2024, et les modèles de raisonnement sont désormais intégrés dans tous les modèles phares : GPT-5.4 Thinking, Gemini 3.1 Pro, et les modèles Claude 4+.

Ce qui distingue l’approche d’Anthropic : l’Adaptive Thinking d’Opus 4.6 est le seul qui ajuste automatiquement l’effort de raisonnement sans configuration manuelle. Chez OpenAI, vous devez choisir entre différents modèles (GPT-5.4 standard vs GPT-5.4 Thinking) plutôt qu’activer un mode sur le même modèle. L’avantage est la simplicité : un seul modèle, un seul mode, qui s’adapte à la complexité.

FAQ : Extended Thinking

Extended Thinking est-il disponible sur le plan gratuit ?

Non. Extended Thinking est réservé aux plans payants (Pro à 20 $/mois, Max, Team, Enterprise). Le plan gratuit utilise Sonnet 4.6 en mode standard, qui offre déjà un raisonnement hybride (il ajuste naturellement son effort selon la question), mais sans le thinking explicite visible ni la profondeur du mode Extended.

Quelle est la différence entre Extended et Adaptive Thinking ?

Extended Thinking utilise un budget fixe que vous définissez (budget_tokens). Claude utilise jusqu’à ce maximum pour réfléchir, quelle que soit la question. Adaptive Thinking (exclusif à Opus 4.6) permet à Claude de décider automatiquement combien réfléchir. Il n’utilise que les tokens nécessaires, ce qui est plus économique et plus rapide pour les questions simples, tout en offrant un raisonnement profond quand la complexité l’exige. Adaptive est le mode recommandé sur Opus 4.6.

Les tokens de thinking sont-ils facturés ?

Oui. Les tokens de thinking sont facturés au tarif des tokens output du modèle (15 $/MTok sur Sonnet 4.6, 25 $/MTok sur Opus 4.6). Sur les modèles Claude 4, la facturation couvre les tokens de thinking complets, même si seul un résumé est retourné dans la réponse. L’Adaptive Thinking optimise ce coût en minimisant les tokens utilisés pour les tâches simples.

Puis-je voir le processus de réflexion de Claude ?

Sur Sonnet 3.7, oui : le thinking complet est retourné. Sur les modèles Claude 4 (Opus 4.6, Sonnet 4.6), un résumé est retourné par défaut, pas le thinking brut. Ce résumé préserve les idées clés du raisonnement avec une latence minimale. Si vous avez besoin du thinking complet sur les modèles Claude 4, contactez l’équipe commerciale d’Anthropic. Dans l’interface claude.ai, l’indicateur « Thinking… » montre que Claude réfléchit, et le résumé est affiché dans la réponse.

Extended Thinking fonctionne-t-il avec les outils (function calling) ?

Oui. Extended Thinking est compatible avec le tool use, avec une limitation : seul tool_choice: "auto" ou "none" est supporté. Les modes "any" et "tool" (qui forcent l’utilisation d’un outil) ne sont pas compatibles. Sur Opus 4.6, l’interleaved thinking permet à Claude de réfléchir entre les appels d’outils, améliorant la qualité des workflows agentiques. Les blocs de thinking doivent être préservés intacts lors du renvoi des résultats d’outils pour maintenir la continuité du raisonnement.