Et si les robots pouvaient enfin raisonner comme nous ? L’entreprise Google DeepMind vient de présenter deux modèles d’intelligence artificielle, baptisés RT-X et AutoRT, capables de donner aux robots une compréhension bien plus fine de leur environnement.
Ces systèmes, issus de la recherche en apprentissage multimodal, marquent une avancée majeure vers une robotique cognitive, où les machines ne se contentent plus d’exécuter des ordres, mais analysent, apprennent et expliquent leurs actions.
Une double avancée : RT-X et AutoRT
DeepMind ne parle pas ici de simples modèles de contrôle mécanique, mais de véritables architectures d’intelligence générale appliquée à la robotique.
| Caractéristiques | RT-X | AutoRT |
| Type de modèle | Modèle unifié de raisonnement et d’action robotique | Système d’orchestration et d’autonomie multi-robots |
| Objectif principal | Comprendre et exécuter des instructions en langage naturel | Planifier, coordonner et optimiser l’action de plusieurs robots simultanément |
| Apprentissage | Basé sur plus de 30 laboratoires et 17 milliards de paramètres | Auto-apprentissage continu avec retour d’expérience autonome |
| Entrées | Vision, texte, interaction verbale | Données de capteurs multiples, vision et retour de performance |
| Capacités clés | Compréhension contextuelle, transfert de tâches, raisonnement explicable | Coordination, auto-correction, gestion de flottes robotisées |
| Vitesse d’adaptation | Jusqu’à 60 % plus rapide que les anciens systèmes de DeepMind | Optimisation en temps réel grâce à un moteur d’auto-planification |
| Domaines d’application | Robotique domestique, industrielle et expérimentale | Environnements multi-agents : entrepôts, laboratoires, hôpitaux |
| Niveau d’autonomie | Raisonnement guidé par le langage | Contrôle stratégique autonome sous supervision humaine |
Cette démonstration illustre la capacité de RT-X à interpréter des instructions complexes comme « Range les objets sur la table par couleur » et à ajuster ses gestes de manière autonome.
Dans cette seconde vidéo, DeepMind montre comment RT-X et AutoRT interagissent pour manipuler des objets, éviter des obstacles ou coordonner plusieurs robots dans un même espace de travail.
Une IA capable de comprendre et d’expliquer ses actions
Les modèles de DeepMind s’appuient sur une combinaison de vision artificielle, de raisonnement spatial et de langage naturel. Là où les anciens systèmes nécessitaient un entraînement spécifique pour chaque tâche, RT-X apprend à généraliser.
En combinant images, descriptions et instructions verbales, il devient capable d’élaborer un plan d’action complet et de justifier ses choix. Un robot peut ainsi expliquer pourquoi il choisit un itinéraire particulier ou décide de déplacer un objet plutôt qu’un autre.
Selon DeepMind, RT-X repose sur une architecture multimodale de 17 milliards de paramètres, capable d’intégrer des signaux visuels et textuels pour comprendre le contexte d’une action.
Des robots qui apprennent comme des enfants
Ce qui distingue ces modèles, c’est leur capacité à apprendre de leurs erreurs.
AutoRT intègre un mécanisme d’auto-évaluation qui lui permet de corriger ses actions et d’améliorer ses performances sans supervision humaine constante.
Les chercheurs de DeepMind comparent ce comportement à une forme d’apprentissage développemental, semblable à celle d’un enfant qui découvre le monde par essais et erreurs.
Cette approche permet d’obtenir une robotique plus autonome, plus adaptative et capable d’agir dans des contextes imprévisibles.
Une révolution pour la robotique mondiale
L’impact de ces modèles dépasse la simple performance technique.
DeepMind a conçu RT-X et AutoRT comme des systèmes ouverts et collaboratifs : plus de 30 laboratoires internationaux participent à leur développement dans le cadre du projet Open X-Embodiment.
Cette initiative vise à créer une base de connaissances partagée entre robots, où chaque expérience d’apprentissage peut être mutualisée.
Un robot formé dans un laboratoire de Tokyo pourrait ainsi bénéficier instantanément de l’expérience d’un autre robot basé à Zurich.
Selon les estimations de DeepMind, l’usage combiné d’AutoRT et de RT-X pourrait accroître de 60 % la vitesse d’adaptation des robots dans des environnements complexes tels que les entrepôts, les hôpitaux ou les habitations1.
Vers des robots “pensants”
Ces avancées marquent une rupture profonde : les robots de demain ne seront plus de simples exécutants, mais de véritables agents réflexifs, capables de raisonner, planifier et expliquer leurs décisions.
Un robot RT-X pourrait ainsi dire : « J’ai déplacé cet objet pour éviter une collision », ou « Cette surface semble instable, je choisis un autre point d’appui ».
Cette transparence, rare en robotique, représente un tournant vers des IA explicables et responsables, mieux intégrées dans les environnements humains.
Les défis éthiques et le rôle du contrôle humain
L’autonomie croissante des robots suscite des interrogations :
- Jusqu’où faut-il leur laisser prendre des décisions ?
- Qui est responsable en cas d’erreur ?
- Comment éviter les dérives d’un apprentissage auto-dirigé ?
DeepMind insiste sur la présence d’un contrôle humain permanent et sur la conception d’un cadre de sécurité renforcé. Les modèles RT-X et AutoRT ne peuvent agir que dans des contextes définis et validés.
L’entreprise exclut explicitement toute utilisation militaire ou de surveillance.
Mais plusieurs chercheurs appellent à la création d’une régulation internationale de la robotique cognitive, afin d’encadrer ces technologies émergentes et de garantir leur usage éthique2.
Vers une nouvelle ère de la robotique cognitive
Avec RT-X et AutoRT, DeepMind rapproche un peu plus l’intelligence artificielle de la cognition humaine. Ces modèles ouvrent la voie à des robots véritablement adaptatifs, capables de comprendre le langage, d’interagir naturellement et d’apprendre de leur environnement.
Cette convergence entre perception, langage et action pourrait transformer la robotique dans la décennie à venir : de l’industrie à la santé, de la logistique à la recherche spatiale, les robots deviennent des partenaires de pensée.
Pour aller plus loin
Vous pouvez également consulter l’article Gemini dote les astronomes d’un nouvel œil : l’IA détecte les mystères du ciel nocturne, qui explore une autre application de l’intelligence artificielle généraliste dans le domaine scientifique.
Références
1. DeepMind. (2025). Introducing RT-X and AutoRT: Toward General-Purpose Robots.
https://deepmind.google
2. European Robotics Forum. (2024). Ethics and Regulation of Cognitive Robotics.
https://roboticsforum.eu

