DESCRIPTION :
Ce stage s'inscrit dans le cadre du projet ECOBOT associant la Faculté de Médecine, l'association étudiante ECN, le Laboratoire lorrain de recherche en informatique et ses applications (LORIA) et le Laboratoire interuniversitaire des sciences de l'éducation et de la communication (LISEC).
L' objectif est de produire un système de verbalisation textuelle des comportements sociaux audiovisuels d'un étudiant en médecine dans le contexte des examens pratiques ECOS.
Le/la stagiaire sera co-encadré(e) par Tom Bourgeade (Post-doctorant, bourse Lorraine Université d'Excellence) et Emmanuel Vincent (Directeur de Recherche, Inria). Il/elle aura accès aux ressources de calcul du LORIA et aura l'opportunité d'interagir avec les autres membres du projet au LORIA et en dehors.
Mission confiée
Dans le cadre des Examens Cliniques Objectifs Structurés (ECOS) pour les étudiants en sixième année de médecine, le projet ECOBOT vise à simuler des patients et des examinateurs virtuels afin de permettre un accès plus large à cet exercice pratique. Lors des ECOS, les étudiants participent à des scénarios de sept minutes, représentant diverses interactions qu'un médecin peut avoir avec un patient, telles que des entretiens médicaux, des examens cliniques, l'annonce d'un résultat, etc. Le développement de patients et d'examinateurs virtuels repose sur des grands modèles de langue (Large Language Models, LLMs) locaux pour des raisons de latence et de protection des données. La formation aux compétences de communication associées, telles que l'empathie, nécessite que ces LLMs prennent en compte non seulement la modalité textuelle du dialogue mais aussi les comportements sociaux (hausser le ton, sourire, montrer une zone douleureuse, etc.) véhiculés par les modalités vocale,
faciale et gestuelle. Cependant, les LLM multimodaux locaux existants sont souvent limités aux données textuelles et aux images statiques et incapables d'analyser la voix ou les mouvements visuels.
En s'inspirant de travaux tels que MONAH, nous souhaitons explorer une approche par verbalisation, c'est-à-dire par encodage et décodage de la prosodie, des expressions faciales et de la gestuelle de l'étudiant-docteur et du patient virtuel sous forme de didascalies textuelles. Dans ce stage, nous nous intéresserons seulement à la partie encodage. En expérimentant différentes approches et modèles, tels que OpenFace pour la reconnaissance d'unités d'action et d'expressions du visage, ou bien en utilisant un LLM visuel [1 ; 2] avec le prompting adéquat, l'objectif sera d'insérer dans le flux narratif de la conversation dont le contenu verbal sera capturé par un module de reconnaissance de la parole tel que Whisper des didascalies correspondant à une verbalisation des comportements sociaux audiovisuels détectés., L'objectif de ce stage est de produire un système de verbalisation des comportements sociaux audiovisuels d'un étudiant en médecine dans le contexte des ECOS, en s'inspirant et en étendant l'approche MONAH à un plus large éventail de comportements. Ceux-ci pourront ensuite être utilisés pour enrichir les transcriptions en entrée des LLMs simulant le patient et l'examinateur virtuels du projet ECOBOT.
Les objectifs détaillés sont les suivants :
1. Catalogage et détection des comportements sociaux : Dans un premier temps, un catalogue des comportements sociaux utiles au projet et des méthodes pouvant être utilisées pour les détecter sera établi. Ce travail se basera sur les centaines d'enregistrements vidéo d'ECOS déjà collectés dans le cadre du projet, sur la présélection semi-automatique des enregistrements d'intérêt (à l'aide des retours effectués par les évaluateurs humains par exemple), et sur la discussion avec les médecins membres du projet.
2. Verbalisation des expressions : Afin d'étendre les fonctionnalités des approches comme MONAH basées sur des motifs et règles fixes, différentes méthodes plus dynamiques seront explorées. Par exemple, en employant un LLM visuel tel que Llava [1; 2] avec une stratégie de prompting adéquate, des instants-clés dans le flux vidéo pourraient être ainsi verbalisés. Différentes solutions pour l'identification de ces instants-clés seront envisagées et évaluées.
3. Évaluation : Les systèmes produits seront enfin évalués, à la fois qualitativement et quantitativement, au travers de différentes métriques. Pour cela, une petite partie des données pourra être annotée par les membres du projet ECOBOT. Une démarche d'apprentissage actif sera également considérée.
Code d'emploi : Stagiaire (h/f)
Niveau de formation : Bac+5
Temps partiel / Temps plein : Plein temps
Type de contrat : Stage/Jeune diplômé
Compétences : Vision par Ordinateur, Encodages, Python (Langage de Programmation), Reconnaissance de la Parole, Large Language Models, Anglais, Français, Sens de la Communication, Réceptif, Télécommunications, Techniques de Laboratoire, Multimédia, Compétences de Modélisation, Gestion de Catalogues, Transcription, Métrique, Protection des Données
Courriel :
tom.bourgeade@loria.fr
Téléphone :
0139635511
Type d'annonceur : Employeur direct