Sequential Reasoning

Le sequential reasoning (raisonnement séquentiel) désigne la capacité d’un modèle d’IA à résoudre un problème en décomposant son raisonnement en une suite ordonnée d’étapes intermédiaires, où chaque étape s’appuie sur le résultat de la précédente pour progresser vers la réponse finale.

Catégorie: Capacité cognitive des LLM / technique d’inférence
Aussi appelé: Raisonnement en étapes, step-by-step reasoning, multi-step reasoning
Technique clé: Chain-of-Thought (CoT) prompting
Modèles phares: OpenAI o3/o4-mini, Claude Opus 4.6, Gemini 3.1 Pro, DeepSeek-R1, Qwen3
Gain typique: +50 à 130 % de précision sur les benchmarks de maths et logique vs. réponse directe
Limite connue: Dégradation exponentielle au-delà de quelques centaines d’étapes dépendantes
Verdict: Fondement de la « révolution du raisonnement » de 2024-2025, désormais intégré nativement dans tous les modèles frontière

Pourquoi le raisonnement séquentiel change tout

Un LLM classique fonctionne en prédisant le prochain token le plus probable. Pour une question simple (« Quelle est la capitale de la France ? »), ce mécanisme suffit. Mais pour un problème multi-étapes (« Si Jean a 10 pommes, en donne 4, puis en reçoit 5, combien en a-t-il ? »), la réponse directe échoue fréquemment : le modèle tente de « deviner » la réponse sans faire les calculs intermédiaires.

Le sequential reasoning force le modèle à expliciter chaque étape de son raisonnement avant de produire la réponse finale. Au lieu de sauter à « 11 pommes », le modèle écrit : « Jean commence avec 10. Il donne 4, donc 10 – 4 = 6. Il reçoit 5, donc 6 + 5 = 11. » Ce simple ajout de tokens intermédiaires permet au mécanisme d’attention du transformer de se concentrer sur chaque sous-problème, réduisant les raccourcis erronés.

C’est ce principe qui a propulsé la « révolution du raisonnement » de 2024-2025. OpenAI l’a formalisé avec sa série o1 (septembre 2024), puis o3 et o4-mini en 2025. Chaque grand labo IA a suivi. Le raisonnement séquentiel n’est plus une option : c’est le socle sur lequel reposent les agents IA, les assistants de code et les systèmes de résolution de problèmes complexes.

Comment fonctionne le raisonnement séquentiel

Chain-of-Thought prompting

La technique la plus connue pour activer le sequential reasoning est le Chain-of-Thought (CoT) prompting, introduite par Jason Wei et al. (Google Brain, 2022). Le principe : inclure dans le prompt des exemples montrant le raisonnement intermédiaire, ou simplement ajouter « Réfléchissons étape par étape » (la variante zero-shot).

Le gain est considérable. Sur le benchmark GSM8K (problèmes de maths de niveau collège), l’ajout d’un simple « Let’s think step by step » a fait passer la précision de 17,7 % à 40,7 % sur le même modèle, soit un gain de 2,3x. Ce résultat a démontré que les LLM possédaient des capacités de raisonnement latentes que le prompting classique n’activait pas.

Inference-time scaling : penser plus longtemps

Le CoT prompting est une technique externe (côté prompt). L’étape suivante a été d’intégrer le raisonnement séquentiel dans le modèle lui-même via l’entraînement par renforcement. C’est le concept d’inference-time scaling (ou test-time compute scaling) : au lieu d’investir plus de compute à l’entraînement (plus de paramètres, plus de données), on investit plus de compute à l’inférence en laissant le modèle « réfléchir » plus longtemps.

OpenAI a démontré avec o1 (2024) puis o3 (2025) que les performances s’améliorent de façon prévisible avec le temps de réflexion alloué. Plus le modèle peut générer de tokens de raisonnement, meilleure est la réponse. Cette relation « plus de compute = meilleur résultat » rappelle les lois de scaling du pré-entraînement, mais s’applique à l’inférence.

Le mécanisme est le suivant :

Étape	Ce qui se passe	Visible par l’utilisateur ?
1. Réception du prompt	Le modèle reçoit la question	Oui
2. Chaîne de pensée interne	Le modèle génère des dizaines à des milliers de tokens de raisonnement	Partiellement (certains modèles exposent la chaîne, d’autres la cachent)
3. Auto-vérification	Le modèle revient sur ses étapes, détecte des erreurs, corrige	Non (interne)
4. Réponse finale	Le modèle synthétise et produit la réponse	Oui

Système 1 vs Système 2 L’analogie la plus courante est celle de Daniel Kahneman (Système 1 / Système 2). Un LLM classique opère en « Système 1 » : réponse rapide, intuitive, souvent correcte mais fragile sur les problèmes complexes. Un modèle de raisonnement opère en « Système 2 » : délibéré, méthodique, plus lent mais nettement plus fiable pour les tâches exigeantes. Les modèles o3, Claude Opus 4.6 en mode « thinking » et Gemini 3.1 Pro sont des exemples de Système 2 appliqué à l’IA.

L’entraînement par renforcement pour le raisonnement

Comment un modèle « apprend-il » à raisonner séquentiellement ? La technique dominante est le Reinforcement Learning from Verifiable Rewards (RLVR) : on entraîne le modèle sur des problèmes dont la réponse est vérifiable automatiquement (maths, code), et on récompense les chaînes de raisonnement qui aboutissent à la bonne réponse.

Le modèle apprend spontanément plusieurs stratégies :

Stratégie apprise	Description	Exemple
Décomposition	Diviser un problème complexe en sous-problèmes simples	Résoudre chaque variable d’un système d’équations séparément
Auto-vérification	Revenir en arrière pour vérifier un résultat intermédiaire	« Vérifions : 24 × 17 = 408, oui c’est correct »
Changement de stratégie	Abandonner une approche qui ne mène nulle part	« Cette méthode ne fonctionne pas, essayons autrement »
Analogie	S’appuyer sur un problème similaire connu	« Ce problème ressemble à un tri topologique »

Ce processus est ce qui distingue les « Large Reasoning Models » (LRM) des LLM classiques. Un LRM ne se contente pas de prédire le prochain token : il s’engage dans un processus délibéré de résolution, avec des boucles de vérification et de correction intégrées.

Les modèles de raisonnement séquentiel

Série OpenAI o1 / o3 / o4-mini

OpenAI a lancé la révolution du raisonnement avec o1 (septembre 2024). Le modèle utilisait une chaîne de pensée interne (non visible par l’utilisateur) pour résoudre des problèmes complexes. Les résultats étaient spectaculaires : 89e percentile sur Codeforces, top 500 aux qualifications de l’olympiade de maths américaine (AIME), précision supérieure aux experts PhD sur le benchmark GPQA (physique, biologie, chimie).

La famille a évolué rapidement. o3 (avril 2025) a repoussé les limites en combinant raisonnement et utilisation d’outils, le tout entraîné par RL. o3 a obtenu un score de 87,5 % sur ARC-AGI-1, un benchmark conçu pour mesurer l’intelligence fluide. o4-mini a rendu ces capacités accessibles à moindre coût, avec un budget de réflexion adaptable (Low, Medium, High).

En mars 2026, GPT-5.4 Thinking intègre le raisonnement séquentiel nativement dans le modèle phare d’OpenAI, unifiant les capacités « chat » et « reasoning » dans un seul modèle.

Claude et le « thinking » adaptatif

Anthropic a intégré le raisonnement étendu (extended thinking) dans ses modèles Claude. Claude Opus 4.6 propose un mode « adaptive thinking » où le temps de réflexion s’ajuste automatiquement à la complexité de la question. L’API permet de contrôler le budget de tokens de réflexion, offrant un compromis entre vitesse et profondeur d’analyse.

La différence avec OpenAI : Anthropic rend la chaîne de pensée partiellement visible via l’API (les blocs « thinking » dans la réponse), permettant aux développeurs de débugger et de comprendre le raisonnement du modèle. C’est un atout pour les applications où la transparence est critique (santé, finance, droit).

Gemini et les niveaux de réflexion

Google propose des « thinking levels » sur Gemini 3 Flash et Gemini 3.1 Pro. Au lieu d’un simple on/off, le développeur peut ajuster le niveau de réflexion (minimal, low, medium, high, max) selon la tâche. Gemini 3.1 Pro a obtenu 77,1 % sur ARC-AGI-2, un des meilleurs scores parmi les modèles disponibles.

L’essor open-source

Le sequential reasoning n’est plus réservé aux modèles propriétaires. L’écosystème open-source a rattrapé son retard en 2025 :

Modèle	Labo	Paramètres	Particularité
DeepSeek-R1	DeepSeek	671B (MoE)	A démontré un raisonnement niveau ChatGPT à un coût d’entraînement réduit (« DeepSeek moment » de janvier 2025)
DeepSeek-V3.2	DeepSeek	MoE	Mode « reasoner » intégré avec chaîne de pensée visible via l’API
Qwen3	Alibaba	Plusieurs tailles	Architecture hybride MoE avec mécanismes d’attention avancés
Kimi-K2.5	Moonshot AI	Non divulgué	Raisonnement + orchestration de 100 sous-agents en parallèle
GPT-OSS-120B	Open-source	117B total / 5,1B actifs	Parité avec o4-mini sur les benchmarks de raisonnement, tourne sur un seul GPU 80 Go

L’open-source a aussi produit des résultats surprenants en termes d’efficacité. Le modèle s1-32B (basé sur Qwen2.5-32B) a dépassé o1-preview sur AIME 2024 avec seulement 1 000 exemples d’entraînement et une technique de « budget forcing » (forcer le modèle à réfléchir plus longtemps en ajoutant des tokens « Wait »). L’entraînement a pris moins de 26 minutes sur 16 GPU H100.

Variantes et techniques avancées

Zero-shot CoT

La forme la plus simple : ajouter « Let’s think step by step » ou « Réfléchissons étape par étape » à la fin du prompt. Aucun exemple nécessaire. Efficace sur les grands modèles, moins fiable sur les petits.

Few-shot CoT

On fournit quelques exemples avec le raisonnement détaillé dans le prompt. Le modèle imite le style de raisonnement montré. Plus robuste que le zero-shot, mais consomme plus de tokens de contexte.

Self-consistency

Au lieu de générer une seule chaîne de raisonnement, on en génère plusieurs (avec une température non nulle) et on sélectionne la réponse la plus fréquente. C’est un vote majoritaire sur les chemins de raisonnement. Cette approche augmente la fiabilité pour les cas critiques (finance, santé).

Tree of Thoughts

Extension du CoT linéaire. Au lieu de suivre une seule chaîne, le modèle explore plusieurs branches de raisonnement en parallèle (un peu comme un arbre de recherche), évalue chaque branche et choisit la meilleure. Plus coûteux en compute, mais plus efficace pour les problèmes avec des pièges logiques. Voir aussi : Tree of Thought.

Least-to-Most Prompting

Le modèle identifie d’abord les sous-problèmes du plus simple au plus complexe, résout le plus simple, puis utilise ce résultat pour résoudre le suivant. Ce scaffolding hiérarchique est particulièrement efficace pour les problèmes de décomposition.

ReAct (Reasoning + Acting)

Combine le raisonnement séquentiel avec l’action : le modèle alterne entre des étapes de réflexion (« Thought ») et des actions concrètes (« Action » : appeler un outil, chercher sur le web). Les résultats de l’action sont observés (« Observation ») et alimentent la réflexion suivante. C’est le pattern fondamental des agents IA modernes.

Limites fondamentales du raisonnement séquentiel

Le problème de propagation d’erreur

C’est la limite la plus fondamentale. Si chaque étape de raisonnement a une probabilité d’erreur p (même faible), la probabilité de compléter N étapes sans erreur est (1-p)ⁿ. Cette décroissance est exponentielle.

Concrètement : avec un taux d’erreur par étape de 1 % (ce qui est très bon), un modèle échouera en moyenne au bout de 100 étapes. Pour un taux de 5 %, c’est seulement 20 étapes. Des expériences récentes sur le benchmark Tours de Hanoï ont montré que même les meilleurs modèles de raisonnement échouent systématiquement au-delà de quelques centaines d’étapes dépendantes.

Pas de raisonnement fiable à très long horizon C’est un point que les démonstrations marketing occultent souvent. Un modèle qui excelle sur un problème de maths en 10 étapes n’est pas forcément capable de résoudre un problème en 500 étapes. La dégradation est structurelle, pas accidentelle. Le framework MAKER (2025) a démontré qu’il est possible de contourner cette limite en décomposant les tâches de manière extrême et en utilisant un vote multi-agents à chaque étape, atteignant plus d’un million d’étapes sans erreur. Mais c’est une architecture système, pas une capacité intrinsèque du modèle.

Latence et coût

Le raisonnement séquentiel consomme des tokens. Beaucoup de tokens. Un modèle comme o1 peut être 30 fois plus lent qu’un modèle standard sur les tâches complexes (47 secondes vs. 1,4 seconde en moyenne sur certains tests). Le coût par requête augmente proportionnellement : à 15 $ par million de tokens d’entrée chez OpenAI, une seule question complexe avec 10 000 tokens de contexte coûte déjà 0,15 $ avant de compter les tokens de raisonnement.

C’est pourquoi les fournisseurs proposent des niveaux de réflexion ajustables. Pas besoin de 30 secondes de réflexion pour « Quelle heure est-il ? ». L’enjeu est de router les requêtes vers le bon niveau de raisonnement en fonction de leur complexité.

Hallucinations structurées

Les modèles de raisonnement ne hallucinent pas moins que les modèles classiques. Ils hallucinent différemment. Au lieu d’une réponse fausse et vague, un modèle de raisonnement peut produire une démonstration en 10 étapes parfaitement structurée, avec des lemmes et des corollaires, qui aboutit à une conclusion fausse. Ce type d’hallucination est plus dangereux car plus difficile à détecter.

Opacité du raisonnement interne

Certains modèles (notamment la série OpenAI o) cachent leur chaîne de raisonnement. L’utilisateur voit « Le modèle réfléchit… » pendant 30 secondes, puis reçoit une réponse sans pouvoir vérifier les étapes intermédiaires. C’est un problème de transparence qui a suscité des débats importants dans la communauté IA.

Applications concrètes

Agents de code

C’est l’application qui a le plus bénéficié du sequential reasoning. Les agents comme Claude Code, Codex CLI ou Cursor utilisent des modèles de raisonnement pour analyser du code, planifier des modifications, exécuter des commandes et vérifier les résultats. Le raisonnement séquentiel permet au modèle de gérer des dizaines, voire des centaines d’appels d’outils (tool use) consécutifs avec un contexte en expansion constante.

Mathématiques et science

Les modèles de raisonnement ont atteint des performances de niveau médaille d’or aux olympiades internationales de mathématiques. En physique, biologie et chimie, o1 a dépassé la précision d’experts PhD sur le benchmark GPQA. Ces capacités ouvrent des perspectives pour la recherche assistée par IA, la vérification de preuves et la modélisation scientifique.

Analyse de documents complexes

Contrats juridiques, rapports financiers, documents réglementaires : ces textes nécessitent un suivi d’état sur de longs passages (qui possède quoi, quelles conditions s’appliquent, quelles exceptions existent). Le sequential reasoning, combiné aux fenêtres de contexte longues (1M tokens chez Claude, Gemini), permet de traiter ces documents avec une précision nettement supérieure.

PaTH Attention pour le raisonnement sur textes longs Des chercheurs du MIT-IBM Watson AI Lab ont développé PaTH Attention, une architecture qui améliore le suivi d’état et le raisonnement séquentiel sur de longs textes. Cette technique surpasse la méthode standard RoPE (Rotary Position Embedding) sur les benchmarks de raisonnement, en permettant au modèle de mieux suivre les changements d’état au fil d’un document.

Prise de décision stratégique

Évaluer un investissement, arbitrer entre des options techniques, planifier une migration système : ces tâches exigent de peser des facteurs multiples dans un ordre logique. Le sequential reasoning rend le processus de décision du modèle explicite et auditable, ce qui est essentiel dans les contextes réglementés.

Raisonnement séquentiel vs. parallèle

Le raisonnement séquentiel n’est pas la seule approche. Quand les sous-problèmes sont indépendants, un raisonnement parallèle (explorer plusieurs branches simultanément, comme dans Tree of Thoughts) est plus efficace. Les systèmes les plus performants combinent les deux :

Critère	Raisonnement séquentiel	Raisonnement parallèle
Quand l’utiliser	Étapes dépendantes (le résultat de A est nécessaire pour B)	Sous-problèmes indépendants
Vitesse	Proportionnelle au nombre d’étapes	Proportionnelle à l’étape la plus longue
Risque d’erreur	Propagation en cascade	Erreurs isolées par branche
Coût compute	Linéaire	Plus élevé (N branches × coût par branche)
Exemples	Résolution d’équations, débugging, preuve mathématique	Recherche multi-sources, comparaison de produits, vote majoritaire

Les parallel tool calls et le raisonnement parallèle sont complémentaires au sequential reasoning, pas opposés. Un agent performant utilise le raisonnement séquentiel pour les dépendances logiques et les appels parallèles pour les collectes de données indépendantes.

Perspectives et tendances

La tendance forte pour 2026 est l’efficacité. Si o3 a prouvé qu’on pouvait résoudre des problèmes complexes avec un million de dollars de compute, l’objectif est de résoudre les mêmes problèmes pour un dollar. Cela passe par des architectures plus efficientes, un meilleur contrôle du « budget de réflexion », et des techniques comme la distillation de raisonnement (entraîner de petits modèles sur les chaînes de pensée de grands modèles).

La convergence entre raisonnement et action est l’autre tendance majeure. Les modèles ne raisonnent plus dans le vide : ils raisonnent pour agir. o3 et o4-mini ont été entraînés par RL à utiliser des outils pendant leur raisonnement, pas juste à raisonner puis à agir. Cette intégration raisonnement-action est ce qui rend les agents IA de 2026 qualitativement différents de ceux de 2024.

Enfin, les benchmarks évoluent pour rester pertinents. ARC-AGI-1 a été « saturé » par o3 (87,5 %). ARC-AGI-2 puis ARC-AGI-3 (annoncé pour 2026) se concentrent sur l' »intelligence agentique » : la capacité non seulement de raisonner mais d’expérimenter dans un environnement pour apprendre, combinant raisonnement séquentiel et interaction.

Verdict

Le sequential reasoning est le saut qualitatif le plus important des LLM depuis les transformers eux-mêmes. Il transforme des prédicteurs de tokens en systèmes capables de résolution de problèmes structurée. Les résultats parlent d’eux-mêmes : médailles d’or en maths, code au niveau des développeurs seniors, analyse scientifique au-delà du niveau PhD.

Mais ne surestimez pas ses capacités. Le raisonnement séquentiel reste fragile sur les tâches à très long horizon (500+ étapes), coûteux en compute, et susceptible d’hallucinations structurées difficiles à détecter. L’utiliser intelligemment signifie l’activer quand c’est nécessaire (problèmes complexes, multi-étapes, nécessitant de la vérification) et l’éviter quand c’est superflu (questions factuelles simples, génération de texte créatif).

Pour les développeurs : intégrez des niveaux de raisonnement adaptatifs dans vos applications. Routez les requêtes simples vers des modèles rapides et les requêtes complexes vers des modèles de raisonnement. C’est le pattern qui offre le meilleur rapport qualité-coût-latence.

Questions fréquentes

Quelle est la différence entre sequential reasoning et Chain-of-Thought ?

Le sequential reasoning est la capacité cognitive : raisonner étape par étape en s’appuyant sur les résultats intermédiaires. Le Chain-of-Thought (CoT) est la technique qui active cette capacité, soit via le prompting (ajouter « réfléchissons étape par étape »), soit via l’entraînement par renforcement (les modèles de la série o d’OpenAI). Le CoT est le moyen, le sequential reasoning est la fin.

Tous les LLM sont-ils capables de raisonnement séquentiel ?

En théorie, tout LLM suffisamment grand peut faire du CoT prompting. En pratique, les gains sont significatifs uniquement au-delà d’environ 100 milliards de paramètres. Les petits modèles (moins de 10B) ont tendance à produire des chaînes de raisonnement incohérentes. Les modèles spécifiquement entraînés par RL pour le raisonnement (o3, DeepSeek-R1, Claude Opus 4.6 en mode thinking) sont nettement plus fiables que les modèles utilisant uniquement le CoT prompting.

Le raisonnement séquentiel élimine-t-il les hallucinations ?

Non. Il change leur forme. Un modèle de raisonnement peut construire une argumentation logiquement structurée qui part d’une prémisse fausse et arrive à une conclusion fausse, le tout avec une grande confiance. Les hallucinations structurées sont plus difficiles à repérer qu’une simple erreur factuelle. La vigilance humaine reste nécessaire, particulièrement sur les tâches critiques.

Quel est le surcoût en tokens et en latence du raisonnement séquentiel ?

Cela dépend du modèle et de la complexité de la tâche. Sur les modèles de la série o d’OpenAI, la latence peut être 10 à 30 fois supérieure à celle d’un modèle standard. En termes de tokens, une chaîne de raisonnement peut générer des centaines à des milliers de tokens internes. Les fournisseurs proposent des niveaux de réflexion ajustables (low/medium/high) pour contrôler ce compromis. Sur les tâches simples, le mode « low » est suffisant et ajoute peu de latence.

Peut-on combiner raisonnement séquentiel et utilisation d’outils ?

Oui, et c’est même la tendance dominante. Les modèles o3 et o4-mini d’OpenAI ont été entraînés par RL à raisonner sur quand et comment utiliser les outils. Claude Opus 4.6 et Gemini 3.1 Pro supportent également la combinaison raisonnement étendu + tool use. Le pattern ReAct (Reasoning + Acting) formalise cette alternance entre réflexion et action. C’est le socle des agents IA modernes.