Locomotion robotique : comment les robots apprennent à se déplacer

La locomotion robotique désigne l’ensemble des techniques et mécanismes permettant à un robot de se déplacer dans son environnement, qu’il utilise des roues, des jambes, des chenilles, des ailes ou des combinaisons hybrides.

C’est l’un des domaines où l’apprentissage par renforcement (RL) a produit les résultats les plus spectaculaires. Des robots quadrupèdes qui traversent des terrains accidentés, des humanoïdes bipèdes qui montent des escaliers, des robots à roues-jambes hybrides qui passent d’un mode roulant à un mode marchant : en 2026, les robots apprennent à se déplacer en simulation et transfèrent ces compétences au monde réel avec un succès croissant. Boston Dynamics Atlas, les quadrupèdes Unitree et Spot, et les humanoïdes comme Tesla Optimus et Figure 03 repoussent les frontières de la locomotion artificielle.

Domaine: Robotique / Contrôle moteur / IA incarnée
Types principaux: Bipède, quadrupède, à roues, à chenilles, hybride roues-jambes, aérien, sous-marin
Technique IA dominante: Deep Reinforcement Learning (DRL) avec transfert sim-to-real
Algorithmes RL courants: PPO (Proximal Policy Optimization), SAC (Soft Actor-Critic), TD3
Simulateurs: Isaac Gym/Sim (Nvidia), MuJoCo, PyBullet, Gazebo
Robots emblématiques: Atlas (Boston Dynamics), Spot, Unitree Go2/B2, Tesla Optimus, ANYmal
Paradigme d’apprentissage: Entraîner en simulation → transférer au réel (sim-to-real)

Les types de locomotion robotique

Type	Principe	Avantages	Limites	Exemples
Roues	Roulement continu sur surface	Rapide, efficace en énergie, simple à contrôler	Terrain plat requis, pas d’escaliers	AMR d’entrepôts, TurtleBot
Chenilles	Bande continue entraînée par des roues	Bonne traction, terrain accidenté	Lent, énergivore, virage difficile	Robots de déminage, exploration
Quadrupède	4 jambes articulées	Stable, polyvalent, terrain complexe	Complexe à contrôler, énergivore	Spot (Boston Dynamics), Unitree Go2, ANYmal
Bipède	2 jambes, marche humanoïde	Conçu pour les espaces humains	Très instable, contrôle difficile	Atlas, Tesla Optimus, Figure 03
Hybride roues-jambes	Roues au bout des jambes, basculement entre modes	Efficacité des roues + polyvalence des jambes	Mécanique complexe, contrôle multimodal	Handle (Boston Dynamics), prototypes académiques
Aérien	Vol par rotors ou ailes	Pas de contrainte de terrain	Autonomie limitée, sensible au vent	Drones (DJI, Skydio)
Sous-marin	Propulsion par hélices ou locomotion bio-inspirée	Exploration sous-marine	Communication difficile, pression	AUV d’exploration, robots bio-inspirés

Approches classiques de contrôle

Avant le deep reinforcement learning, la locomotion robotique reposait sur des méthodes de contrôle fondées sur des modèles physiques :

Contrôle ZMP (Zero Moment Point)

Le ZMP est le point au sol où le moment résultant des forces de réaction est nul. Tant que le ZMP reste dans le polygone de support (la surface entre les pieds en contact), le robot est stable. Cette méthode classique, utilisée par Honda ASIMO et HRP, garantit la stabilité mais produit une marche rigide et non naturelle. Elle fonctionne bien sur terrain plat et connu, mais échoue sur les surfaces irrégulières ou glissantes.

Model Predictive Control (MPC)

Le MPC construit un modèle dynamique du robot et optimise les commandes sur un horizon temporel futur à chaque pas de temps. Il gère les contraintes multiples (limites articulaires, forces de contact, vitesse) et a permis au Mini-Cheetah du MIT d’atteindre 3,7 m/s. Cependant, le MPC dépend de la précision du modèle et peine quand le terrain réel diffère de l’attendu.

Central Pattern Generators (CPG)

Inspirés de la biologie, les CPG sont des oscillateurs qui génèrent des patterns rythmiques de mouvement sans feedback sensoriel (comme le cœur bat sans qu’on y pense). Ils produisent des allures (trot, galop, marche) naturelles et robustes. La limite : ils sont difficiles à adapter dynamiquement à des terrains changeants.

Le Deep Reinforcement Learning transforme la locomotion

Depuis 2020, le deep RL est devenu l’approche dominante pour la locomotion de robots à pattes. Le paradigme est le suivant :

Entraînement en simulation. Le robot est simulé dans un environnement physique virtuel (Isaac Gym de Nvidia, MuJoCo, PyBullet). Un algorithme RL (PPO, SAC, TD3) apprend une politique de contrôle qui maximise une récompense combinant vitesse, stabilité, économie d’énergie et fluidité du mouvement. L’apprentissage nécessite des millions de pas de simulation, mais les GPU modernes permettent de simuler des centaines de robots en parallèle.

Randomisation de domaine. Pour que la politique fonctionne dans le monde réel, les paramètres de simulation sont aléatoirement variés : friction du sol, masse du robot, bruit des capteurs, latence des actionneurs. Cette technique force le réseau à apprendre une politique robuste aux variations, réduisant le fossé sim-to-real.

Transfert au réel. La politique apprise en simulation est directement déployée sur le robot physique (zero-shot transfer). Les meilleurs systèmes atteignent des taux de succès de 91-95 % sur des terrains jamais vus. Un quadrupède entraîné uniquement en simulation a montré des comportements émergents en conditions réelles : déplacement latéral du poids sur les pentes, raccourcissement de la foulée sur terrain accidenté, pas prudents sur surfaces glissantes.

Recherche récente (2025-2026) TumblerNet (npj Robotics, 2025) permet à un robot quadrupède de marcher en bipède avec récupération automatique de chute, transféré directement de la simulation au réel. Un framework Mixture-of-Experts (Frontiers in Robotics and AI, fév. 2026) résout le problème de conflit de gradients dans les robots hybrides roues-jambes en allouant automatiquement chaque mode de locomotion à un sous-réseau expert spécialisé. Et RLCO (Drones, fév. 2026) intègre l’apprentissage contrastif pour améliorer la cohérence temporelle des séquences d’action, avec transfert zero-shot réussi sur terrains complexes.

Le défi spécifique de la locomotion bipède

Marcher sur deux jambes est intrinsèquement instable : le robot est essentiellement un pendule inversé qui tombe en permanence et se rattrape à chaque pas. C’est ce qui rend la locomotion bipède beaucoup plus difficile que la locomotion quadrupède.

Les approches classiques (ZMP, MPC) ont produit des marcheurs bipèdes fonctionnels mais rigides (ASIMO, HRP). Le RL apporte la fluidité et l’adaptabilité : Atlas de Boston Dynamics combine des contrôleurs RL pour la locomotion dynamique avec des systèmes de perception pour la navigation. Les humanoïdes comme Tesla Optimus et Figure 03 utilisent le RL pour apprendre des allures naturelles en simulation avant le déploiement.

Les frontières de la recherche bipède incluent la course (pas seulement la marche), le parkour (sauter, escalader), la locomotion sur terrain très accidenté, et la récupération après poussée ou chute. Boston Dynamics a démontré le parkour avec Atlas (y compris des saltos arrière), mais ces démonstrations nécessitent encore un environnement partiellement contrôlé.

Un survey récent (Intelligent Robotics, 2025) catégorise les approches de contrôle bipède en deux familles : les méthodes basées sur la dynamique (ZMP, MPC, Whole Body Control) et les méthodes basées sur l’apprentissage (RL, imitation learning). Les méthodes dynamiques garantissent la stabilité mais manquent de flexibilité. Les méthodes d’apprentissage offrent l’adaptabilité mais avec moins de garanties formelles de sécurité. Les systèmes les plus performants combinent les deux : le RL pour la politique de haut niveau, et un contrôleur dynamique de bas niveau pour garantir les contraintes physiques.

Le concept de « Humanoid Foundation Model » émerge dans la littérature : un grand modèle pré-entraîné sur des données de locomotion de nombreuses plateformes robotiques, qui serait ensuite fine-tuné par RL pour s’adapter à un robot spécifique. Cette approche, inspirée des modèles de fondation en NLP, pourrait accélérer drastiquement le développement de contrôleurs bipèdes.

La locomotion quadrupède : le terrain conquis

Les robots quadrupèdes sont le segment où le RL a le plus transformé les capacités. Spot (Boston Dynamics), Unitree Go2/B2 et ANYmal (ETH Zurich / ANYbotics) naviguent sur des terrains complexes en conditions réelles : gravats, escaliers, neige, pentes raides.

L’architecture typique est hiérarchique : un réseau de haut niveau (10 Hz) génère des cibles articulaires, et un contrôleur PD de bas niveau (100 Hz) les exécute avec précision. Les entrées proprioceptives (angles articulaires, vitesses, orientation du corps) sont complétées par des données extéroceptives (caméras de profondeur, cartes de terrain locales). Le SLAM fournit la localisation globale.

Les robots quadrupèdes sont déployés commercialement pour l’inspection industrielle (usines, chantiers, centrales), la surveillance de sécurité, et l’exploration de zones dangereuses (mines, zones de catastrophe). Unitree propose des modèles à partir de quelques milliers d’euros, démocratisant l’accès à la locomotion quadrupède.

Applications de la locomotion robotique

Inspection et maintenance industrielle

Les robots quadrupèdes (Spot, ANYmal) sont déployés dans les usines, centrales nucléaires, plateformes pétrolières et chantiers de construction pour l’inspection autonome. Ils naviguent dans des environnements dangereux ou difficiles d’accès, collectent des données visuelles et thermiques, et détectent des anomalies. Spot est opérationnel dans plusieurs centrales nucléaires et sites miniers, avec des routines d’inspection programmées qui s’exécutent sans opérateur humain. ANYmal d’ANYbotics est certifié ATEX pour les environnements potentiellement explosifs.

Recherche et sauvetage

Après un tremblement de terre, une explosion ou un effondrement, les robots marcheurs peuvent naviguer dans les décombres pour localiser des survivants. La locomotion sur terrain non structuré (gravats, pentes instables, espaces confinés) est essentielle dans ce contexte. Les compétitions comme le DARPA Robotics Challenge ont catalysé la recherche dans ce domaine, et les robots actuels sont significativement plus robustes que les prototypes de l’époque.

Livraison et logistique

Les robots de livraison sur roues (Starship Technologies, Nuro) opèrent sur les trottoirs de nombreuses villes. Les drones de livraison ajoutent la dimension aérienne. Les robots marcheurs pourraient à terme livrer dans les immeubles (monter les escaliers, naviguer dans les couloirs) là où les robots à roues sont bloqués.

Agriculture

Les robots agricoles à roues parcourent les champs pour la pulvérisation ciblée, le désherbage et la récolte. Les robots marcheurs sont envisagés pour les terrains accidentés (vignobles en pente, vergers) où les véhicules à roues peinent.

Le défi de l’énergie

L’autonomie énergétique est le talon d’Achille de la locomotion robotique, surtout pour les robots marcheurs. Marcher est intrinsèquement énergivore : chaque pas implique de soulever et déplacer des masses contre la gravité. Un robot humanoïde typique fonctionne 1 à 4 heures sur batterie, selon la tâche et le terrain. C’est insuffisant pour la plupart des applications industrielles ou domestiques.

Les progrès en technologie de batteries (densité énergétique, charge rapide) et en efficacité des actionneurs sont aussi critiques que les progrès en IA pour rendre la locomotion robotique pratique. Les approches bio-inspirées (actionneurs élastiques, stockage d’énergie mécanique dans les tendons artificiels) promettent des gains d’efficacité significatifs en récupérant l’énergie des phases de descente et de freinage.

L’intégration des LLM dans la locomotion

Une tendance émergente est l’utilisation des LLM et des modèles vision-langage (VLM) pour la planification de haut niveau de la locomotion. Un agent IA peut recevoir une instruction en langage naturel (« va vers le bureau de gauche en évitant les chaises »), la décomposer en sous-tâches de navigation, et transmettre des commandes au contrôleur de locomotion bas niveau. Le VLM-PC (Vision-Language Model Predictive Control) intègre des entrées linguistiques et visuelles pour optimiser la planification de tâches dans les robots quadrupèdes.

Cette hiérarchie, où un LLM raisonne et planifie tandis que le RL exécute le mouvement, est considérée comme une voie prometteuse vers des robots véritablement autonomes dans des environnements humains.

Conseil Polydesk Si vous travaillez sur la locomotion robotique, les outils clés sont Isaac Gym (Nvidia) pour l’entraînement RL à grande échelle, MuJoCo pour la simulation physique de haute fidélité, ROS 2 pour l’intégration système, et PPO (via Stable-Baselines3 ou rl_games) comme algorithme RL de référence. Pour un premier projet, un robot quadrupède Unitree Go2 (~1 600 $) avec Isaac Gym est un point d’entrée accessible. La simulation avant tout : ne touchez au matériel que quand votre politique fonctionne en simulation.

Questions fréquentes sur la locomotion robotique

Pourquoi la marche est-elle si difficile pour un robot ?

Marcher implique un équilibre dynamique constant : à chaque pas, le robot est momentanément en déséquilibre (un seul pied au sol), et doit se rattraper avec précision. Le corps humain gère cela grâce à des millions d’années d’évolution, un système vestibulaire sophistiqué et des réflexes inconscients. Un robot doit reproduire tout cela avec des capteurs imparfaits, des actionneurs avec de la latence, et un modèle physique simplifié. La locomotion bipède est particulièrement difficile car le robot est un pendule inversé avec seulement deux points de contact possibles au sol.

Comment le deep reinforcement learning est-il utilisé pour la locomotion ?

Le robot apprend à marcher par essai-erreur dans un simulateur physique. Un algorithme RL (PPO, SAC) explore des milliers de stratégies de mouvement et optimise une politique de contrôle qui maximise une récompense (avancer vite, rester stable, économiser l’énergie). Grâce au parallélisme GPU (Isaac Gym de Nvidia), des millions de pas de simulation sont réalisés en quelques heures. La randomisation de domaine (varier la friction, la masse, le bruit) rend la politique robuste. Elle est ensuite transférée directement au robot réel (zero-shot sim-to-real). Les meilleurs systèmes atteignent 91-95 % de succès sur des terrains jamais vus.

Quel est le robot marcheur le plus avancé ?

En locomotion pure, Atlas de Boston Dynamics reste la référence : il peut courir, sauter, faire des saltos et naviguer dans des parcours de parkour. Pour la locomotion quadrupède, Spot (Boston Dynamics) et ANYmal (ANYbotics) sont les leaders commerciaux. Pour les humanoïdes à vocation industrielle, Tesla Optimus Gen 3 et Figure 03 progressent rapidement. XPENG IRON, présenté début 2026, a démontré une marche bipède remarquablement fluide et naturelle. Mais aucun robot ne s’approche encore de la polyvalence locomotrice d’un humain.

Quelle est la différence entre locomotion quadrupède et bipède ?

Un robot quadrupède a 4 points de contact au sol (souvent 3 pendant la marche), ce qui offre une stabilité naturelle bien supérieure. Un robot bipède n’a que 2 points de contact (souvent 1 en mouvement), ce qui le rend intrinsèquement instable. En pratique, les quadrupèdes sont bien plus fiables sur terrain accidenté. Les bipèdes sont nécessaires pour naviguer dans les espaces conçus pour les humains (escaliers étroits, postes de travail, bureaux). Le compromis idéal dépend de l’application.

Les robots à roues sont-ils obsolètes face aux robots marcheurs ?

Absolument pas. Les robots à roues sont bien plus efficaces en énergie, plus rapides et plus fiables sur terrain plat. Un AMR d’entrepôt sur roues est infiniment plus pratique qu’un humanoïde marcheur pour déplacer des palettes sur un sol lisse. Les robots marcheurs prennent le relais quand le terrain l’exige (escaliers, gravats, neige) ou quand l’espace est conçu pour des humains. Les robots hybrides roues-jambes (une tendance de recherche active en 2026) tentent de combiner le meilleur des deux mondes : rouler quand c’est possible, marcher quand c’est nécessaire.