Le défi des données spontanées pour améliorer les interactions humain-robot : le projet Peppermint
Lucien Tisserand  1@  , Frédéric Armetta  2@  , Heike Baldauf-Quilliatre  1@  , Mathieu Lefort  2@  , Julien Perier-Camby  2@  , Brooke Stephenson  3@  
1 : ICAR: Interactions, Corpus, Apprentissages, Représentations
CNRS : UMR5191, Université Lumière - Lyon 2, École Normale Supérieure (ENS) - Lyon
2 : Laboratoire d'InfoRmatique en Image et Systèmes d'information
CNRS, Université Claude Bernard - Lyon I
3 : ICAR, LIRIS
CNRS, Université Claude Bernard - Lyon I, École normale supérieure - Lyon (ENS Lyon)

Introduction
Notre présentation s'articule sous la forme d'un retour d'expérience d'une collaboration entre Analyse Conversationnelle (AC) et Intelligence Artificielle (IA), en particulier dans les domaines de la robotique sociale, de la multimodalité et de l'utilisation des Large Language Models. Cette collaboration a pour objectif d'améliorer la programmation et le design d'un robot commercial grand public - le modèle Pepper de Aldebaran - à partir d'objectifs et de critères d'évaluation établis grâce à l'analyse systématique d'un corpus d'interactions humain-robot (HRI) spontanées.

Malgré les récentes avancées en HRI studies, les "échecs" restent à la fois fréquents et difficiles à caractériser. Doit-on se baser sur les échelles de satisfactions rapportées post-hoc par les utilisateurs, caractériser les réponses de la machine comme bonnes ou mauvaises quand bien même l'utilisateur est satisfait d'un échec mis en scène, ou se baser sur des indices mesurables dans l'interaction ?
Plus fondamentalement, doit-on évaluer la machine selon les connaissances que nous avons du fonctionnement de l'interaction sociale dans une situation où l'humain sait qu'il ou elle s'adresse à une intelligence artificielle, ici incarnée coporellement par un robot humanoïde ? Et comment procéder ?

Au sein d'un projet interdisciplinaire de trois ans (2021-2024), financé par le LabEx ASLAN, nous avons essayé de caractériser (une partie de) des problèmes identifiés dans l'HRI et d'identifier des directions et solutions possibles afin de les éviter tout en s'alignant avec les orientations rendues manifestes par les utilisateurs tout-venant.

Objectifs et questions de recherche

Les HRI en situation de laboratoire font que l'utilisateur est invité à suivre strictement un scénario proposé par l'expérimentation. On pourrait alors croire que le suivi des règles d'un jeu informatique est la même chose que suivre les règles de l'interaction sociale. Or, dans une rencontre spontanée humain-robot, les usagers possèdent moins de connaissances d'arrière plan sur "l'objectif" du robot, son fonctionnement et le script à suivre. Ces personnes tout-venantes se réfugient donc dans des formats et normes d'action que celles-ci revendiquent comme adéquates afin de conduire une telle interaction. Ces pratiques réglées sont des ressources pour faire sens de leurs comportements en public, et non pas des règles au sens informatique du terme, c'est à dire, comme un jeu d'instructions.
En particulier, l'approche de l'AC, par l'analyse détaillée et multimodale de l'organisation de l'interaction permet de montrer le rapport qui est entretenu par les utilisateurs vis-à-vis des normes d'interaction avec une machine. Des pratiques normées spécifiques sont-elles mobilisées ? S'agit-il de transpositions des interactions sociales humaines, et le cas échéant, cela est-il problématisé ? Cela s'observe grâce au positionnement des silences, hésitations, accounts, rires, les réparations etc. dans l'interaction.


Nous avons donc proposé d'établir une recherche "dans le monde réel" (vs. en situation de laboratoire) afin de caractériser les échecs en fonction de ces rapports aux normes rendus visibles dans l'interaction. Dès lors notre démarche a permis de redéfinir les "échecs" ainsi que "ce qu'un système devrait faire" dans cette situation de façon empiriquement étayée en prenant en compte les attentes spécifiques liées à l'HRI et ce qu'il est possible de faire.

Méthodologie

Nous avons collecté un corpus vidéo d'interactions spontanées entre le robot Pepper et des usagers d'une bibliothèque universitaire dans le cadre d'un scénario crédible et représentatif de l'usage commercial répandu pour ce modèle: rendre des services basiques d'information. Dans cette perspective d'authenticité, le robot a été programmé selon les recommandations constructeur à partir d'une machine à états finis: l'automate détecte des mots-clefs (à des moments prévus pour les questions, salutations, remerciements, compliments des utilisateurs) et fournit des tours de parole scriptés en guise de réponse. Deux caméras grand angle et trois microphones ont permis de capter l'ensemble de la situation depuis le moment où les personnes s'approchent du robot. En effet, le robot fut placé dans un environnement passant à côté de la réception. Les usagers étaient libres d'interagir et repartir à tout moment, sans aucune instruction. Ainsi, plus de 700 interactions avec le robot ont été enregistrées, puis transcrites et alignées temporellement selon les conventions ICOR de transcription de l'oral.
Nous avons ensuite réalisé les analyses séquentielles approfondies d'une sélection de phénomènes récurrents. Ces analyses nous ont permis de déterminer un schéma d'annotation du corpus adossé aux transcriptions temporellement alignées, afin de recupérer systématiquement des occurrences de types de problèmes liés à la gestion de la séquentialité en tant que déploiement temporel continu (action, temporalité, réparation, valeur évaluative, enchâssements, addressage). Ces choix analytiques ont été réalisés en lien avec la possibilité de traiter informatiquement ces situations problématiques dans le cadre du projet et selon l'état de l'art en IA et HRI.

Revue de la littérature

Plusieurs études basées sur l'AC ont identifié un problème central dans le cas des interactions multipartites (constituant le cas le plus courant dans les espaces publics ouverts): le sens, la temporalité et les mécanismes basés sur la séquentialité des tours, lorsque ces derniers sont adressés à la machine, dépendent en réalité de l'interaction qui a d'abord lieu entre les utilisateurs et utilisatrices. Or, ces interactions reflètent la complexité des actions sociales dans le monde réel dont l'interprétation échappe spécifiquement à la formalisationbutton_simulacrum_1995. Alors qu'elles influencent les inputs addressés à la machine, on ne peut les prendre en compte telles quelles d'un point de vue informatique.
Cependant, les études détaillées des interactions avec les robots et autres agents conversationnels ont mis en avant deux aspects qui montrent que les personnes s'orientent vers une simplification de l'interaction avec la machine. Premièrement, elles mobilisent des pratiques spécifiques normées concernant l'addressage à une machine, telles que le formatage par mots-clefs (emphase prosodique ou isolation syntaxique) des tours de parole. Deuxièmement, il a été montré que les utilisateurs se réfèrent prioritairement aux "normes" interactionnelles que sont les paires adjacentes, et transposent une partie de ces "normes" comme le type d'action attendu. L'AC pourrait alors fournir des spécifications pour un système qui prendrait en charge ce système d'attentes, ce qui, dans notre cas, a débouché sur des pratiques d'annotations du corpus en fonction de ces "normes" d'interaction.
Dans les études HRI, si le séquençage entre action est considéré comme important pour la compréhension de la progression d'un dialogue, les méthodes pour modéliser explicitement la séquentialité commencent tout juste à être explorées, mais à notre connaissance, aucune étude n'a entrepris de modéliser la séquentialité en tant qu'actions déployées dans une temporalité continue.

Résultats issus de la recherche
Notre communication discutera les défis de la collaborations en se focalisant sur
1) les particularités de l'interaction humain-robot,
2) ce que l'annotation séquentielle du corpus permet de modéliser,
3) les défis pour l'apprentissage automatique de la reconnaissance multi-modale des interactions en environnement ouvert,
4) vers l'exploitation des régularité identifiées par un LLM pour une intéraction humain-robot plus naturelle.


Personnes connectées : 2 Vie privée
Chargement...