Locomotion robotique : comment les robots apprennent à se déplacer
La locomotion robotique désigne l’ensemble des techniques et mécanismes permettant à un robot de se déplacer dans son environnement, qu’il utilise des roues, des jambes, des chenilles, des ailes ou des combinaisons hybrides.
C’est l’un des domaines où l’apprentissage par renforcement (RL) a produit les résultats les plus spectaculaires. Des robots quadrupèdes qui traversent des terrains accidentés, des humanoïdes bipèdes qui montent des escaliers, des robots à roues-jambes hybrides qui passent d’un mode roulant à un mode marchant : en 2026, les robots apprennent à se déplacer en simulation et transfèrent ces compétences au monde réel avec un succès croissant. Boston Dynamics Atlas, les quadrupèdes Unitree et Spot, et les humanoïdes comme Tesla Optimus et Figure 03 repoussent les frontières de la locomotion artificielle.
- Domaine
- Robotique / Contrôle moteur / IA incarnée
- Types principaux
- Bipède, quadrupède, à roues, à chenilles, hybride roues-jambes, aérien, sous-marin
- Technique IA dominante
- Deep Reinforcement Learning (DRL) avec transfert sim-to-real
- Algorithmes RL courants
- PPO (Proximal Policy Optimization), SAC (Soft Actor-Critic), TD3
- Simulateurs
- Isaac Gym/Sim (Nvidia), MuJoCo, PyBullet, Gazebo
- Robots emblématiques
- Atlas (Boston Dynamics), Spot, Unitree Go2/B2, Tesla Optimus, ANYmal
- Paradigme d’apprentissage
- Entraîner en simulation → transférer au réel (sim-to-real)
Les types de locomotion robotique
| Type | Principe | Avantages | Limites | Exemples |
|---|---|---|---|---|
| Roues | Roulement continu sur surface | Rapide, efficace en énergie, simple à contrôler | Terrain plat requis, pas d’escaliers | AMR d’entrepôts, TurtleBot |
| Chenilles | Bande continue entraînée par des roues | Bonne traction, terrain accidenté | Lent, énergivore, virage difficile | Robots de déminage, exploration |
| Quadrupède | 4 jambes articulées | Stable, polyvalent, terrain complexe | Complexe à contrôler, énergivore | Spot (Boston Dynamics), Unitree Go2, ANYmal |
| Bipède | 2 jambes, marche humanoïde | Conçu pour les espaces humains | Très instable, contrôle difficile | Atlas, Tesla Optimus, Figure 03 |
| Hybride roues-jambes | Roues au bout des jambes, basculement entre modes | Efficacité des roues + polyvalence des jambes | Mécanique complexe, contrôle multimodal | Handle (Boston Dynamics), prototypes académiques |
| Aérien | Vol par rotors ou ailes | Pas de contrainte de terrain | Autonomie limitée, sensible au vent | Drones (DJI, Skydio) |
| Sous-marin | Propulsion par hélices ou locomotion bio-inspirée | Exploration sous-marine | Communication difficile, pression | AUV d’exploration, robots bio-inspirés |
Approches classiques de contrôle
Avant le deep reinforcement learning, la locomotion robotique reposait sur des méthodes de contrôle fondées sur des modèles physiques :
Contrôle ZMP (Zero Moment Point)
Le ZMP est le point au sol où le moment résultant des forces de réaction est nul. Tant que le ZMP reste dans le polygone de support (la surface entre les pieds en contact), le robot est stable. Cette méthode classique, utilisée par Honda ASIMO et HRP, garantit la stabilité mais produit une marche rigide et non naturelle. Elle fonctionne bien sur terrain plat et connu, mais échoue sur les surfaces irrégulières ou glissantes.
Model Predictive Control (MPC)
Le MPC construit un modèle dynamique du robot et optimise les commandes sur un horizon temporel futur à chaque pas de temps. Il gère les contraintes multiples (limites articulaires, forces de contact, vitesse) et a permis au Mini-Cheetah du MIT d’atteindre 3,7 m/s. Cependant, le MPC dépend de la précision du modèle et peine quand le terrain réel diffère de l’attendu.
Central Pattern Generators (CPG)
Inspirés de la biologie, les CPG sont des oscillateurs qui génèrent des patterns rythmiques de mouvement sans feedback sensoriel (comme le cœur bat sans qu’on y pense). Ils produisent des allures (trot, galop, marche) naturelles et robustes. La limite : ils sont difficiles à adapter dynamiquement à des terrains changeants.
Le Deep Reinforcement Learning transforme la locomotion
Depuis 2020, le deep RL est devenu l’approche dominante pour la locomotion de robots à pattes. Le paradigme est le suivant :
Entraînement en simulation. Le robot est simulé dans un environnement physique virtuel (Isaac Gym de Nvidia, MuJoCo, PyBullet). Un algorithme RL (PPO, SAC, TD3) apprend une politique de contrôle qui maximise une récompense combinant vitesse, stabilité, économie d’énergie et fluidité du mouvement. L’apprentissage nécessite des millions de pas de simulation, mais les GPU modernes permettent de simuler des centaines de robots en parallèle.
Randomisation de domaine. Pour que la politique fonctionne dans le monde réel, les paramètres de simulation sont aléatoirement variés : friction du sol, masse du robot, bruit des capteurs, latence des actionneurs. Cette technique force le réseau à apprendre une politique robuste aux variations, réduisant le fossé sim-to-real.
Transfert au réel. La politique apprise en simulation est directement déployée sur le robot physique (zero-shot transfer). Les meilleurs systèmes atteignent des taux de succès de 91-95 % sur des terrains jamais vus. Un quadrupède entraîné uniquement en simulation a montré des comportements émergents en conditions réelles : déplacement latéral du poids sur les pentes, raccourcissement de la foulée sur terrain accidenté, pas prudents sur surfaces glissantes.
Le défi spécifique de la locomotion bipède
Marcher sur deux jambes est intrinsèquement instable : le robot est essentiellement un pendule inversé qui tombe en permanence et se rattrape à chaque pas. C’est ce qui rend la locomotion bipède beaucoup plus difficile que la locomotion quadrupède.
Les approches classiques (ZMP, MPC) ont produit des marcheurs bipèdes fonctionnels mais rigides (ASIMO, HRP). Le RL apporte la fluidité et l’adaptabilité : Atlas de Boston Dynamics combine des contrôleurs RL pour la locomotion dynamique avec des systèmes de perception pour la navigation. Les humanoïdes comme Tesla Optimus et Figure 03 utilisent le RL pour apprendre des allures naturelles en simulation avant le déploiement.
Les frontières de la recherche bipède incluent la course (pas seulement la marche), le parkour (sauter, escalader), la locomotion sur terrain très accidenté, et la récupération après poussée ou chute. Boston Dynamics a démontré le parkour avec Atlas (y compris des saltos arrière), mais ces démonstrations nécessitent encore un environnement partiellement contrôlé.
Un survey récent (Intelligent Robotics, 2025) catégorise les approches de contrôle bipède en deux familles : les méthodes basées sur la dynamique (ZMP, MPC, Whole Body Control) et les méthodes basées sur l’apprentissage (RL, imitation learning). Les méthodes dynamiques garantissent la stabilité mais manquent de flexibilité. Les méthodes d’apprentissage offrent l’adaptabilité mais avec moins de garanties formelles de sécurité. Les systèmes les plus performants combinent les deux : le RL pour la politique de haut niveau, et un contrôleur dynamique de bas niveau pour garantir les contraintes physiques.
Le concept de « Humanoid Foundation Model » émerge dans la littérature : un grand modèle pré-entraîné sur des données de locomotion de nombreuses plateformes robotiques, qui serait ensuite fine-tuné par RL pour s’adapter à un robot spécifique. Cette approche, inspirée des modèles de fondation en NLP, pourrait accélérer drastiquement le développement de contrôleurs bipèdes.
La locomotion quadrupède : le terrain conquis
Les robots quadrupèdes sont le segment où le RL a le plus transformé les capacités. Spot (Boston Dynamics), Unitree Go2/B2 et ANYmal (ETH Zurich / ANYbotics) naviguent sur des terrains complexes en conditions réelles : gravats, escaliers, neige, pentes raides.
L’architecture typique est hiérarchique : un réseau de haut niveau (10 Hz) génère des cibles articulaires, et un contrôleur PD de bas niveau (100 Hz) les exécute avec précision. Les entrées proprioceptives (angles articulaires, vitesses, orientation du corps) sont complétées par des données extéroceptives (caméras de profondeur, cartes de terrain locales). Le SLAM fournit la localisation globale.
Les robots quadrupèdes sont déployés commercialement pour l’inspection industrielle (usines, chantiers, centrales), la surveillance de sécurité, et l’exploration de zones dangereuses (mines, zones de catastrophe). Unitree propose des modèles à partir de quelques milliers d’euros, démocratisant l’accès à la locomotion quadrupède.
Applications de la locomotion robotique
Inspection et maintenance industrielle
Les robots quadrupèdes (Spot, ANYmal) sont déployés dans les usines, centrales nucléaires, plateformes pétrolières et chantiers de construction pour l’inspection autonome. Ils naviguent dans des environnements dangereux ou difficiles d’accès, collectent des données visuelles et thermiques, et détectent des anomalies. Spot est opérationnel dans plusieurs centrales nucléaires et sites miniers, avec des routines d’inspection programmées qui s’exécutent sans opérateur humain. ANYmal d’ANYbotics est certifié ATEX pour les environnements potentiellement explosifs.
Recherche et sauvetage
Après un tremblement de terre, une explosion ou un effondrement, les robots marcheurs peuvent naviguer dans les décombres pour localiser des survivants. La locomotion sur terrain non structuré (gravats, pentes instables, espaces confinés) est essentielle dans ce contexte. Les compétitions comme le DARPA Robotics Challenge ont catalysé la recherche dans ce domaine, et les robots actuels sont significativement plus robustes que les prototypes de l’époque.
Livraison et logistique
Les robots de livraison sur roues (Starship Technologies, Nuro) opèrent sur les trottoirs de nombreuses villes. Les drones de livraison ajoutent la dimension aérienne. Les robots marcheurs pourraient à terme livrer dans les immeubles (monter les escaliers, naviguer dans les couloirs) là où les robots à roues sont bloqués.
Agriculture
Les robots agricoles à roues parcourent les champs pour la pulvérisation ciblée, le désherbage et la récolte. Les robots marcheurs sont envisagés pour les terrains accidentés (vignobles en pente, vergers) où les véhicules à roues peinent.
Le défi de l’énergie
L’autonomie énergétique est le talon d’Achille de la locomotion robotique, surtout pour les robots marcheurs. Marcher est intrinsèquement énergivore : chaque pas implique de soulever et déplacer des masses contre la gravité. Un robot humanoïde typique fonctionne 1 à 4 heures sur batterie, selon la tâche et le terrain. C’est insuffisant pour la plupart des applications industrielles ou domestiques.
Les progrès en technologie de batteries (densité énergétique, charge rapide) et en efficacité des actionneurs sont aussi critiques que les progrès en IA pour rendre la locomotion robotique pratique. Les approches bio-inspirées (actionneurs élastiques, stockage d’énergie mécanique dans les tendons artificiels) promettent des gains d’efficacité significatifs en récupérant l’énergie des phases de descente et de freinage.
L’intégration des LLM dans la locomotion
Une tendance émergente est l’utilisation des LLM et des modèles vision-langage (VLM) pour la planification de haut niveau de la locomotion. Un agent IA peut recevoir une instruction en langage naturel (« va vers le bureau de gauche en évitant les chaises »), la décomposer en sous-tâches de navigation, et transmettre des commandes au contrôleur de locomotion bas niveau. Le VLM-PC (Vision-Language Model Predictive Control) intègre des entrées linguistiques et visuelles pour optimiser la planification de tâches dans les robots quadrupèdes.
Cette hiérarchie, où un LLM raisonne et planifie tandis que le RL exécute le mouvement, est considérée comme une voie prometteuse vers des robots véritablement autonomes dans des environnements humains.
Questions fréquentes sur la locomotion robotique
Pourquoi la marche est-elle si difficile pour un robot ?
Marcher implique un équilibre dynamique constant : à chaque pas, le robot est momentanément en déséquilibre (un seul pied au sol), et doit se rattraper avec précision. Le corps humain gère cela grâce à des millions d’années d’évolution, un système vestibulaire sophistiqué et des réflexes inconscients. Un robot doit reproduire tout cela avec des capteurs imparfaits, des actionneurs avec de la latence, et un modèle physique simplifié. La locomotion bipède est particulièrement difficile car le robot est un pendule inversé avec seulement deux points de contact possibles au sol.
Comment le deep reinforcement learning est-il utilisé pour la locomotion ?
Le robot apprend à marcher par essai-erreur dans un simulateur physique. Un algorithme RL (PPO, SAC) explore des milliers de stratégies de mouvement et optimise une politique de contrôle qui maximise une récompense (avancer vite, rester stable, économiser l’énergie). Grâce au parallélisme GPU (Isaac Gym de Nvidia), des millions de pas de simulation sont réalisés en quelques heures. La randomisation de domaine (varier la friction, la masse, le bruit) rend la politique robuste. Elle est ensuite transférée directement au robot réel (zero-shot sim-to-real). Les meilleurs systèmes atteignent 91-95 % de succès sur des terrains jamais vus.
Quel est le robot marcheur le plus avancé ?
En locomotion pure, Atlas de Boston Dynamics reste la référence : il peut courir, sauter, faire des saltos et naviguer dans des parcours de parkour. Pour la locomotion quadrupède, Spot (Boston Dynamics) et ANYmal (ANYbotics) sont les leaders commerciaux. Pour les humanoïdes à vocation industrielle, Tesla Optimus Gen 3 et Figure 03 progressent rapidement. XPENG IRON, présenté début 2026, a démontré une marche bipède remarquablement fluide et naturelle. Mais aucun robot ne s’approche encore de la polyvalence locomotrice d’un humain.
Quelle est la différence entre locomotion quadrupède et bipède ?
Un robot quadrupède a 4 points de contact au sol (souvent 3 pendant la marche), ce qui offre une stabilité naturelle bien supérieure. Un robot bipède n’a que 2 points de contact (souvent 1 en mouvement), ce qui le rend intrinsèquement instable. En pratique, les quadrupèdes sont bien plus fiables sur terrain accidenté. Les bipèdes sont nécessaires pour naviguer dans les espaces conçus pour les humains (escaliers étroits, postes de travail, bureaux). Le compromis idéal dépend de l’application.
Les robots à roues sont-ils obsolètes face aux robots marcheurs ?
Absolument pas. Les robots à roues sont bien plus efficaces en énergie, plus rapides et plus fiables sur terrain plat. Un AMR d’entrepôt sur roues est infiniment plus pratique qu’un humanoïde marcheur pour déplacer des palettes sur un sol lisse. Les robots marcheurs prennent le relais quand le terrain l’exige (escaliers, gravats, neige) ou quand l’espace est conçu pour des humains. Les robots hybrides roues-jambes (une tendance de recherche active en 2026) tentent de combiner le meilleur des deux mondes : rouler quand c’est possible, marcher quand c’est nécessaire.