Langues

Mobilité Innovante
des personnes, des biens et des machines

18/12/18 : Soutenance de thèse de François de La Bourdonnaye

Le Mardi 18 Décembre à 14h15, Monsieur François de La Bourdonnaye soutiendra publiquement sa thèse de doctorat intitulée :

"Learning sensori-motor mappings using little knowledge: application to manipulation robotics"

Lieu: Amphi 9109 du Pôle Physique, Campus des Cézeaux, 63170 AUBIERE

 

Ces travaux ont été réalisés dans l'équipe ComSee de l'axe ISPR de l'Institut Pascal, sous la direction de :

- Thierry Chateau, Professeur (directeur de thèse)
- Céline Teulière, Maître de conférences (encadrante)

et en collaboration avec le groupe de recherche de Jochen Triesch (Professeur, co-encadrant) du FIAS (Frankfurt institute of advanced studies).

Les travaux seront présentés devant le jury suivant :

- David Filliat, Professeur, Ensta ParisTech
- Ghilès Mostafaoui, Maître de Conférences HDR, Université de Cergy-Pontoise, ETIS
- Atilla Baskurt, Professeur, INSA Lyon, LIRIS
- Alain Dutech, Chargé de recherche HDR, INRIA Grand Est, LORIA


RESUMÉ

L'objet de la thèse consiste en l'apprentissage d'une tâche complexe de robotique de manipulation en utilisant très peu d'aprioris. Plus précisément, la tâche apprise consiste à atteindre un objet avec un robot série. L'objectif est de réaliser cet apprentissage sans paramètres de calibrage des caméras, modèles géométriques directs, descripteurs faits à la main ou des démonstrations d'expert. L'apprentissage par renforcement profond est une classe d'algorithmes particulièrement intéressante dans cette optique. En effet, l'apprentissage par renforcement permet d’apprendre une compétence sensori-motrice en se passant de modèles dynamiques pré-calculés. Par ailleurs, l'apprentissage profond permet de se passer de descripteurs faits à la main pour la représentation d'état. Cependant, spécifier les objectifs sans supervision humaine est un défi important qui n'est pas adressé de manière satisfaisante par l'état de l'art. Pour notre approche, nous nous inspirons du comportement des êtres humains. Ces derniers généralement regardent l'objet avant de le manipuler. Ainsi, nous décomposons la tâche d'atteinte en 3 sous tâches. La première tâche consiste à apprendre à fixer un objet avec un système de deux caméras pour le localiser dans l'espace. Cette tâche est apprise avec de l'apprentissage par renforcement profond et un signal de récompense faiblement supervisé. Pour la tâche suivante, deux compétences sont apprises en parallèle : la fixation d'effecteur et une fonction de coordination main-oeil. Comme la précédente tâche, un algorithme d'apprentissage par renforcement profond est utilisé avec un signal de récompense faiblement supervisé. Le but de cette tâche est d'être capable de localiser l'effecteur du robot à partir des coordonnées articulaires. La dernière tâche utilise les compétences apprises lors des deux précédentes étapes pour apprendre au robot à atteindre un objet. Cet apprentissage utilise principalement les mêmes aprioris que pour les tâches précédentes. En plus de la tâche d'atteinte, un predicteur d'atteignabilité d'objet est appris. La principale contribution de ces travaux est l'apprentissage d'une tâche de robotique complexe en n'utilisant que très peu de supervision.