Planning (Planification IA)

Le planning (planification) en IA désigne la capacité d’un agent à définir un objectif, à décomposer cet objectif en une séquence d’actions ordonnées, et à exécuter ces actions en s’adaptant aux résultats intermédiaires pour atteindre le but fixé.

Catégorie: Capacité cognitive des agents IA
Aussi appelé: Task planning, planification de tâches, AI planning
Composantes: Décomposition, sélection de plan, exécution, réflexion
Approches principales: LLM-as-Planner, LLM + planificateur classique (PDDL), recherche arborescente
Frameworks: LangChain, LangGraph, CrewAI, AutoGen, Letta
Modèles performants: Claude Opus 4.6, GPT-5.4/o3, Gemini 3.1 Pro, DeepSeek-V3.2
Limite connue: Dégradation sur les plans à long horizon (50+ étapes dépendantes)
Verdict: Composante essentielle de tout agent IA, mais encore fragile sans vérification externe

Pourquoi le planning est fondamental pour les agents IA

Un LLM seul est un excellent générateur de texte, mais c’est un piètre exécutant. Demandez-lui de « planifier une conférence technique d’une semaine avec speakers, logistique et budget », et il produira un texte cohérent mais non actionnable. Il manque la capacité de transformer cet objectif en une séquence d’actions concrètes, ordonnées et exécutables.

C’est exactement ce que fait le planning. Il transforme un objectif abstrait en un programme d’action : identifier les sous-objectifs, déterminer l’ordre d’exécution, allouer les ressources (outils, API, données), et ajuster le plan en fonction des résultats obtenus à chaque étape.

Dans l’architecture standard d’un agent IA, le planning est l’un des trois piliers, aux côtés de la mémoire et de l’utilisation d’outils (tool use). Un agent sans planning est un simple chatbot. Un agent avec planning est un système autonome capable de résoudre des problèmes complexes.

Taxonomie du planning dans les LLM

La recherche académique (Huang et al., 2024) a identifié cinq grandes catégories de méthodes de planning pour les agents LLM :

Catégorie	Principe	Forces	Faiblesses
Task Decomposition	Diviser l’objectif en sous-tâches, résoudre chacune séquentiellement	Intuitif, flexible, fonctionne avec tout LLM	Qualité variable, risque de décomposition incomplète
Multi-plan Selection	Générer plusieurs plans alternatifs, évaluer et sélectionner le meilleur	Plus robuste, explore l’espace des solutions	Coûteux en tokens, latence élevée
External Planner	Traduire le problème en format formel (PDDL) et utiliser un planificateur classique	Plans optimaux et vérifiables	Nécessite un domaine PDDL pré-défini, rigide
Reflection & Refinement	Exécuter, observer les échecs, réfléchir et corriger le plan	Auto-amélioration, robuste aux erreurs	Nombre de tours limité, coût cumulatif
Memory-augmented	Stocker les plans et résultats passés pour réutilisation	Apprentissage par expérience	Complexité de la gestion mémoire

En pratique, les systèmes les plus performants combinent plusieurs de ces approches. Un agent peut décomposer la tâche (Task Decomposition), générer plusieurs stratégies (Multi-plan Selection), exécuter, puis corriger son plan en cas d’échec (Reflection).

La décomposition de tâches en détail

Décomposition par le LLM

L’approche la plus directe : demander au LLM de décomposer l’objectif en étapes. Trois variantes existent :

Zero-shot : un simple prompt suffit. « Quelles sont les étapes pour accomplir X ? » Le LLM génère une liste ordonnée de sous-tâches. Simple mais inconsistant : le même prompt peut produire des plans différents à chaque exécution.

Few-shot avec exemples : on fournit des exemples de décompositions réussies dans le prompt. Le LLM imite le format et la granularité. Plus fiable, mais consomme du contexte.

Décomposition récursive : le LLM décompose l’objectif en sous-objectifs, puis chaque sous-objectif en sous-sous-objectifs, jusqu’à atteindre des actions atomiques exécutables. C’est l’approche de frameworks comme PDDLEGO (Zhang et al., 2024) qui affine progressivement le plan en intégrant les observations de l’environnement à chaque niveau.

Granularité de la décomposition La difficulté principale est de trouver le bon niveau de détail. Des sous-tâches trop abstraites (« gérer la logistique ») ne sont pas exécutables. Des sous-tâches trop fines (« ouvrir le navigateur, taper l’URL, cliquer sur le champ de recherche… ») produisent des plans interminables qui dépassent la fenêtre de contexte. Visez des actions que votre agent peut exécuter en un seul appel d’outil.

Représentations du plan

Une fois la tâche décomposée, le plan doit être structuré de manière exploitable. Trois formats courants :

Format	Description	Usage
Séquence linéaire	Liste ordonnée de sous-tâches à exécuter dans l’ordre	Processus simples, pas de parallélisme
DAG (Directed Acyclic Graph)	Sous-tâches en nœuds, dépendances en arêtes. Permet l’exécution parallèle des tâches indépendantes	Workflows complexes avec dépendances partielles
Arbre hiérarchique	Structure récursive où chaque nœud est décomposé en enfants	Décomposition à plusieurs niveaux d’abstraction

Le format DAG est le plus puissant car il capture explicitement les dépendances (« La tâche C dépend des résultats de A et B ») tout en permettant d’identifier les tâches parallélisables via des parallel tool calls.

Les trois grandes approches du planning

LLM-as-Planner (le LLM est le planificateur)

Le LLM fait tout : il comprend l’objectif, génère le plan et décide des actions. C’est l’approche par défaut dans la plupart des agents. Le modèle utilise son raisonnement séquentiel (sequential reasoning) pour produire un plan étape par étape.

Les agents « step-by-step » comme ceux de WebArena ou Mind2Web suivent ce pattern : le modèle observe l’état actuel, génère une action, observe le résultat, génère l’action suivante. C’est une traversée en largeur (BFS) implicite de l’espace des possibles.

Points forts : flexible, s’adapte à tout domaine, pas besoin de formalisation préalable. Points faibles : pas de garantie d’optimalité, sensible aux hallucinations, dégradation sur les plans longs.

Approche hybride : LLM + planificateur classique

L’approche LLM+P (Liu et al., 2023) combine la compréhension du langage naturel du LLM avec la rigueur d’un planificateur classique. Le processus se déroule en trois phases :

Le LLM traduit le problème en langage naturel → format PDDL (Problem)
Un planificateur classique (ex: Fast Downward) génère le plan optimal
Le LLM traduit le plan PDDL → langage naturel compréhensible

PDDL (Planning Domain Definition Language) est le langage standard de la planification automatique en IA classique. Il décrit les états possibles, les actions disponibles et leurs préconditions/effets. Un planificateur comme Fast Downward peut alors trouver la séquence d’actions optimale de manière prouvable.

Points forts : plans optimaux et vérifiables, robustes. Points faibles : nécessite un fichier de domaine PDDL pré-existant, ce qui limite l’application à des domaines bien définis (robotique, logistique). Pour les tâches ouvertes (recherche web, rédaction), cette approche est peu pratique.

LLM+P vs LLM seul : le débat Il y a un débat actif dans la communauté IA sur les capacités de planning des LLM seuls. Subbarao Kambhampati (Arizona State University) a montré dans plusieurs travaux que les LLM échouent fréquemment en planification autonome sur des problèmes commonsense, même quand ils semblent « raisonner » correctement. Mais les mêmes LLM excellent comme heuristiques pour guider un planificateur externe. Le consensus émergent : les LLM sont de bons traducteurs et de bonnes heuristiques, mais des planificateurs autonomes médiocres.

Recherche arborescente (Tree Search)

Au lieu de suivre un seul plan linéaire, l’agent explore explicitement plusieurs chemins possibles, maintient un arbre de recherche, et sélectionne la meilleure branche. C’est le principe du Tree of Thoughts appliqué à la planification.

Les agents « Tree Search » comme ceux du framework proposé dans la recherche sur les web agents (2026) maintiennent un arbre d’états où chaque nœud est un état du monde et chaque arête une action. Un algorithme de recherche (BFS, DFS, Best-First Search, MCTS) guide l’exploration.

Certains systèmes formalisent le planning comme un processus de décision de Markov (MDP) et utilisent Monte Carlo Tree Search (MCTS) pour évaluer les chemins de décision par simulation. Le LLM sert alors de modèle du monde (world model) pour prédire les transitions d’état.

Patterns de planning dans les frameworks d’agents

ReAct : raisonner puis agir

Le pattern ReAct (Yao et al., 2023) est le standard de facto pour les agents. L’agent alterne entre trois phases :

Thought: "Je dois trouver les ventes Q3 de chaque région pour comparer."
Action: query_database("SELECT region, SUM(revenue) FROM sales WHERE quarter='Q3'")
Observation: [{region: "West", revenue: 1.2M}, {region: "East", revenue: 980K}, ...]
Thought: "La région West a le chiffre le plus élevé. Vérifions aussi le budget."
Action: query_database("SELECT region, budget FROM budgets WHERE quarter='Q3'")
Observation: [...]
Thought: "Je peux maintenant comparer revenus vs budgets."
Answer: "La région West a généré le plus de revenus au Q3 avec 1,2M$..."

Chaque cycle Thought-Action-Observation est un tour de planning dynamique. L’agent ne planifie pas tout d’avance : il adapte son plan au fil des observations. C’est un planning réactif, plus robuste que la planification statique pour les environnements imprévisibles.

Plan-then-Execute

L’agent génère d’abord un plan complet, puis exécute chaque étape. Plus structuré que ReAct, ce pattern est adapté aux tâches dont la structure est prévisible. L’inconvénient : si une étape échoue, le plan entier peut devenir obsolète.

Reflexion et replanning

L’agent exécute son plan, évalue les résultats, identifie les échecs et reformule le plan. Le framework Reflexion (Shinn et al., 2023) formalise ce cycle : l’agent reçoit un feedback (environnemental ou auto-généré), le convertit en « réflexion » textuelle, et utilise cette réflexion pour améliorer le plan suivant. C’est un apprentissage en ligne sans mise à jour des poids du modèle.

Planning multi-agents

Pour les tâches très complexes, plusieurs agents spécialisés collaborent. Chaque agent a un rôle (Researcher, Planner, Executor, Reviewer) et le planning se fait au niveau du système, pas de l’agent individuel. Des frameworks comme CrewAI ou MetaGPT orchestrent cette collaboration.

Le framework PMC (2025) propose des systèmes multi-agents où chaque agent gère un sous-ensemble de contraintes. Le planning global est le résultat de la coordination entre agents, pas d’un seul planificateur central.

Quels modèles pour le planning ?

Modèle	Force en planning	Particularité
Claude Opus 4.6	Excellente	Atteint la solution optimale en 4 itérations vs 10 pour Sonnet. Tool Search réduit le contexte de 85 %. Programmatic Tool Calling permet d’écrire l’orchestration en code
GPT-5.4 / o3	Excellente	Raisonnement + tool use entraînés conjointement par RL. o3 raisonne sur quand et comment utiliser les outils
Gemini 3.1 Pro	Très bonne	Fenêtre 1M tokens, combinaison outils intégrés + fonctions custom, context circulation
DeepSeek-V3.2	Bonne	Mode reasoner intégré, coût très bas (0,28 $/M tokens input), open-weight
DeepSeek-R1	Excellente (open-source)	Raisonnement entraîné par RL, chaîne de pensée visible, Apache 2.0

Claude Opus 4.6 se distingue par son efficacité en planning : il atteint la solution avec moins d’itérations, ce qui réduit à la fois la latence et le coût. Sa fonctionnalité Tool Search lui permet de découvrir dynamiquement les outils nécessaires sans charger toutes les définitions en contexte, réduisant l’overhead de 85 %.

Limites du planning par LLM

Le problème du long horizon

C’est la limite la plus documentée. Les LLM peinent à maintenir un plan cohérent sur plus de 50-100 étapes dépendantes. Deux phénomènes se combinent :

Context drift : au fil des étapes, l’objectif original « sort » progressivement de la fenêtre d’attention du modèle. L’agent perd de vue son but et dérive vers des actions non pertinentes.

Error propagation : chaque étape a une probabilité d’erreur. Sur un plan long, les erreurs se propagent en cascade. Même avec un taux d’erreur par étape de 1 %, un plan de 200 étapes a seulement 13 % de chances de s’exécuter sans erreur (0,99²⁰⁰ ≈ 0,13).

Dégradation des fenêtres de contexte longues Même les modèles qui annoncent des fenêtres de contexte de 1M+ tokens montrent une dégradation sévère des performances bien avant cette limite. Une étude de décembre 2025 a montré que les modèles à longue fenêtre subissent des chutes de performance supérieures à 50 % déjà à 100K tokens. Pour le planning, cela signifie que l’historique d’exécution accumulé finit par nuire à la qualité des décisions.

Plans non exécutables

Les LLM génèrent souvent des plans qui semblent raisonnables en langage naturel mais qui ne sont pas exécutables en pratique. Un plan peut contenir des étapes impossibles (« vérifier la disponibilité en temps réel » sans accès API), des dépendances manquantes (utiliser un résultat avant de l’avoir obtenu), ou des actions trop vagues pour être mappées à un outil concret.

Absence de vérité terrain

Contrairement au raisonnement mathématique où la réponse est vérifiable, un plan est difficile à évaluer automatiquement. « Organiser une conférence » peut être accompli de mille façons. Les benchmarks actuels mesurent principalement le taux de réussite de la tâche finale, pas la qualité du processus de planification lui-même.

Cas d’usage concrets

Agents web autonomes

Les web agents (Project Mariner de Google, Operator d’OpenAI) doivent planifier des séquences d’actions sur des interfaces graphiques : naviguer sur un site, remplir des formulaires, comparer des produits. Le planning transforme une instruction comme « réserve-moi un vol Paris-Tokyo le moins cher en mars » en une séquence d’actions : ouvrir un comparateur, entrer les critères, analyser les résultats, sélectionner le meilleur, initier la réservation.

Agents de code

Claude Code, Codex CLI et les agents intégrés aux IDE (Cursor, Windsurf) utilisent le planning pour transformer une issue GitHub en un plan de modifications : identifier les fichiers concernés, comprendre l’architecture, planifier les changements, exécuter, tester, itérer. Claude Opus 4.6 atteint 80,9 % sur SWE-bench Verified, le premier modèle à dépasser 80 % sur ce benchmark de résolution de problèmes d’ingénierie logicielle réels.

Automatisation d’entreprise

Un agent RH qui traite une demande de congé doit planifier : vérifier le solde, consulter le calendrier de l’équipe, obtenir l’approbation du manager, mettre à jour le système SIRH, envoyer la confirmation. Chaque étape nécessite un outil différent. Le planning orchestre cette séquence en gérant les dépendances et les cas d’erreur.

Recherche scientifique assistée

Les agents de deep research planifient des campagnes de recherche complètes : formuler des hypothèses, identifier les sources, collecter les données, analyser, synthétiser. Le planning permet de structurer cette démarche en un workflow reproductible et auditable.

Bonnes pratiques pour le planning en production

Privilégier le planning itératif au planning monolithique

Ne planifiez pas tout d’avance. Planifiez les 3-5 prochaines étapes, exécutez, observez, replanifiez. Ce pattern « prompt plan » (popularisé par les workflows de coding IA) limite l’exposition aux erreurs de planification à long terme.

Intégrer des vérifications

Après chaque étape, vérifiez que le résultat est cohérent avec l’objectif initial. Utilisez un second LLM comme juge (LLM-as-Judge) ou des assertions programmatiques. La self-critique du modèle est utile mais insuffisante seule.

Router selon la complexité

Tous les prompts ne nécessitent pas un planning élaboré. « Quelle heure est-il à Tokyo ? » ne demande qu’un appel d’outil direct. « Organise un séminaire de 3 jours avec 50 participants » nécessite un plan structuré. Implémentez un routeur qui évalue la complexité et active le planning uniquement quand c’est nécessaire.

Limiter l’horizon du plan

Fixez une limite de tours (10-20 maximum pour la plupart des tâches). Au-delà, résumez le contexte accumulé (compaction) et replanifiez à partir d’un état propre. Claude Opus 4.6 propose nativement un mécanisme de compaction (résumé automatique du contexte) qui aide à gérer les plans longs.

Tendances et perspectives

Gartner estime que 33 % des applications enterprise intégreront de l’IA agentique d’ici 2028, contre 0 % en 2024. Le planning est le composant qui transforme un LLM en agent. Les tendances pour 2026 :

Convergence raisonnement-action : les modèles o3/o4-mini et Claude Opus 4.6 sont entraînés à raisonner sur l’utilisation des outils, pas juste à les appeler. Le planning et l’exécution fusionnent.

Planning multi-agents : les systèmes passent d’un planificateur central à des swarms d’agents spécialisés qui collaborent, chacun planifiant sa partie.

Efficiency scaling : l’objectif est de réduire le coût du planning de plusieurs ordres de grandeur. Moins de tours, des plans plus compacts, des modèles plus efficients.

Benchmarks processus : les nouveaux benchmarks (ARC-AGI-3, 2026) évaluent non seulement la réussite de la tâche mais aussi la qualité du processus de planification.

Verdict

Le planning est ce qui sépare un chatbot d’un agent IA. Sans lui, pas d’autonomie, pas de résolution de problèmes complexes, pas d’automatisation réelle. Mais c’est aussi le maillon le plus fragile : les LLM sont de meilleurs exécutants que planificateurs. Le pattern le plus robuste en 2026 reste le planning itératif avec vérification externe, pas le plan monolithique.

Pour les développeurs : ne laissez pas votre LLM planifier seul sur plus de 10-15 étapes. Découpez en lots, vérifiez à chaque étape, résumez le contexte régulièrement. Et si votre domaine se prête à la formalisation (logistique, manufacturing, jeux), envisagez l’approche hybride LLM + planificateur classique. C’est moins sexy que le « full LLM », mais nettement plus fiable.

Questions fréquentes

Quelle est la différence entre planning et reasoning en IA ?

Le reasoning (raisonnement) est la capacité de produire des conclusions logiques à partir de prémisses. Le planning utilise le reasoning comme outil, mais va plus loin : il s’agit de déterminer une séquence d’actions pour atteindre un objectif dans un environnement. Le reasoning répond à « pourquoi ? ». Le planning répond à « comment ? ». En pratique, un bon plan nécessite du raisonnement, mais un bon raisonnement ne suffit pas à produire un bon plan.

Les LLM savent-ils planifier de manière autonome ?

Les recherches montrent que les LLM seuls échouent souvent en planification autonome, même sur des problèmes commonsense. Ils génèrent des plans qui semblent cohérents mais contiennent des erreurs logiques, des dépendances manquantes ou des actions impossibles. En revanche, les LLM excellent comme heuristiques pour guider un planificateur externe, ou dans un mode itératif avec vérification à chaque étape. Le planning « full LLM » reste fragile sans garde-fous.

Quel framework choisir pour le planning d’agents ?

LangGraph (extension de LangChain) est le choix par défaut pour les workflows complexes avec branchements et boucles. CrewAI convient pour les systèmes multi-agents avec des rôles définis. AutoGen (Microsoft) est adapté aux workflows conversationnels entre agents. Pour les cas simples, l’API native de Claude ou d’OpenAI avec un loop ReAct suffit. Le choix dépend de la complexité de votre workflow et de votre besoin en observabilité.

Comment évaluer la qualité d’un plan généré par un LLM ?

Quatre critères clés : la complétude (toutes les étapes nécessaires sont présentes), la faisabilité (chaque étape est exécutable avec les outils disponibles), l’ordre (les dépendances sont respectées) et l’efficacité (pas d’étapes redondantes). En production, le meilleur indicateur reste le taux de réussite de bout en bout. Les benchmarks comme SWE-bench, WebArena et OSWorld évaluent cette dimension de manière standardisée.

Peut-on combiner planning classique (PDDL) et LLM ?

Oui, c’est l’approche hybride LLM+P. Le LLM traduit le problème en langage naturel vers une spécification PDDL, un planificateur classique (comme Fast Downward) calcule le plan optimal, puis le LLM retraduit en langage naturel. Cette approche produit des plans prouvablement optimaux mais nécessite un domaine PDDL pré-défini. Elle est utilisée principalement en robotique et en logistique. Pour les tâches ouvertes (recherche web, rédaction, analyse), elle est moins applicable.