DESCRIPTION :
Chaque année, la Direction des Relations Internationales d'Inria propose quelques postes postdoctoraux afin de soutenir les collaborations internationales.
Le contrat postdoctoral aura une durée de 18 mois. La date de début est entre le 1er juillet et le 1er septembre, mais pas plus tard que le 1er septembre., Un chercheur postdoctoral potentiel intégrerait l'équipe Inria CEDAR tout en visitant l'équipe Human-Centered Data Analytics du CWI à Amsterdam. Ce projet est une collaboration avec les PI suivants :
Oana Balalau est chercheuse Inria au sein de l'équipe CEDAR, au centre Inria de l'Institut Polytechnique de Paris. Ses intérêts de recherche portent sur le traitement du langage naturel, en particulier sur la fouille d'argumentation, l'extraction d'informations et le data2text. Elle collabore avec des journalistes de plusieurs agences de presse : Radio France, Le Monde et AEF Info.
Davide Ceolin est chercheur au CWI au sein du groupe Human-Centered Data Analytics. Ses recherches portent sur la prévision transparente de multiples aspects de la qualité de l'information. Il est membre du laboratoire IA, médias et démocratie, un laboratoire multidisciplinaire qui étudie en profondeur les effets et les implications de l'IA pour les médias et la démocratie. Le laboratoire rassemble des chercheurs en informatique, droit et communication, ainsi que plusieurs partenaires de la société civile et industriels., Les candidats aux postes postdoctoraux sont recrutés après la fin de leur doctorat ou après un premier post-doctorat : pour les candidats ayant obtenu leur doctorat dans l'hémisphère Nord, la date de la soutenance de la thèse sera après le 1er septembre 2022 ; dans l'hémisphère Sud après le 1er avril 2022. Afin de favoriser la mobilité, le poste postdoctoral doit se dérouler dans un environnement scientifique véritablement différent de celui du doctorat (et, le cas échéant, du poste occupé depuis le doctorat) ; une attention particulière aux candidats français ou internationaux ayant obtenu leur doctorat à l'étranger.
Contexte : Des systèmes de recommandation aux grands modèles de langage, les outils d'IA ont montré différentes formes de limitations et de biais [BHA+21, MMS+21, NFG+20]. Les biais dans les outils d'IA peuvent provenir de plusieurs facteurs, notamment les biais dans les données d'entraînement des outils d'IA, les biais de l'algorithme et les personnes responsables de la conception des outils d'IA, et les biais dans l'évaluation et l'interprétation des résultats des outils d'IA [NFG+20 ]. Les limitations sont dues à des difficultés techniques dans la réalisation de tâches spécifiques [SB22]. Les médias utilisent différentes aides algorithmiques dans leur travail : extractions d'entités et de relations, extraction d'événements, analyse des sentiments, résumé automatique, production semi-automatique des nouvelles à l'aide de modèles de génération de texte, et la recherche guidée par l'IA, entre autres [TJM+ 22, UBM23]. Compte tenu de l'importance du secteur des
médias pour nos démocraties, des problemes dans les outils qu'ils utilisent pourraient avoir de graves conséquences., Quelles sont les sources potentielles de biais dans les applications de traitement du langage naturel (TAL) destinées au journalisme et comment pouvons-nous les mettre en évidence et atténuer leurs effets ?
Pour répondre à cette question, nous étudierons deux cas d'utilisation.
Biais et limites dans les tâches de classification. Nous avons développé une plateforme de vérification des faits grâce à laquelle les journalistes peuvent suivre les déclarations des hommes politiques sur les réseaux sociaux [BEG+22]. Les déclarations les plus susceptibles d'être vérifiables sont mises en évidence, et pour cela, nous avons utilisé un algorithme d'apprentissage automatique. Les affirmations vérifiables (en anglais checkworthy) sont définies comme des phrases factuelles dont le grand public voudra savoir si elles sont vraies [HAL+17]. Notons que cette définition s'appuie sur ce qu'un annotateur considère comme étant d'intérêt général. De plus, l'ensemble de données d'entraînement contient des déclarations politiques. Par conséquent, les annotateurs pourraient avoir introduit par inadvertance un biais politique dans leurs annotations, par exemple en qualifiant plus souvent des phrases dignes d'être vérifiées s'elles sont exprimées par une personne d'une
affiliation politique différente de la leur. Un deuxième modèle utilisé dans notre pipeline est la détection de la propagande, où la propagande est définie comme un ensemble de techniques de communication conçues pour influencer un lecteur et non pour l'informer. Les arguments fallacieux, qui sont des arguments incorrects que les vérificateurs de faits devraient démystifier, sont particulièrement intéressants. Alors que les définitions de la propagande sont plus précises en fonction du type exact de technique (par exemple, langage chargé, ad hominem), les ensembles de données annotés ont souvent un faible accord entre annotateurs [DSB+19]. En outre, les ensembles de données ne contiennent également que des déclarations politiques - encore une fois, un annotateur pourrait être plus enclin à qualifier de propagande le discours d'une personne ayant une opinion politique différente. Nous aimerions déterminer si ces ensembles de données et ces modèles sont
biaisés et, si tel est le cas, étudier comment il pourrait être possible de mettre en évidence ce biais. Une idée intéressante consiste à intégrer le désaccord dans une tâche de classification en fournissant une explication textuelle de la raison pour laquelle un certain paragraphe pourrait avoir deux ou plusieurs étiquettes différentes (également connue en ML sous le nom de classification multi-étiquettes) selon deux ou plusieurs opinions humaines différentes. Comme mentionné, le désaccord pourrait venir de la définition de la tâche mais aussi des convictions des annotateurs. Cela implique de repenser le processus d'annotation, la formation et l'évaluation d'un modèle TAL, ainsi que la manière dont un modèle est utilisé pour une application réelle. Nous notons que le problème de la variabilité et des biais dans l'annotation humaine retient de plus en plus l'attention dans la communauté TAL [P22, UFH+21].
Biais et limites dans les tâches génératives. De nos jours, les modèles linguistiques génératifs sont utilisés pour diverses tâches, notamment pour des essais ou des textes argumentatifs. Nous en avons discuté avec des journalistes, qui ont confirmé qu'ils utilisaient de tels outils pour accélérer leur travail. Nous souhaitons nous concentrer sur des textes argumentatifs, notamment sur des sujets controversés dans notre société. Pour étudier le biais potentiel des modèles argumentatifs lorsqu'on leur demande de fournir des informations sur de tels sujets, nous aimerions comparer les textes argumentatifs générés automatiquement avec des textes argumentatifs issus du crowdsourcing, tels que les textes hébergés sur les plateformes de débat. Ce projet peut être étendu à l'analyse de la manière dont les sujets controversés sont débattus dans la sphère publique, par exemple en se concentrant sur les débats des campagnes électorales en cours. Le premier défi technique de cette
tâche consiste à identifier des arguments similaires - lorsqu'un argument est composé d'une affirmation et des preuves à l'appui de cette affirmation. La même affirmation peut être étayée par différentes preuves, et il est également important de mettre en évidence ces différences, car une préférence pour un certain type de preuves pourrait montrer des tendances plus importantes. Par exemple, l'affirmation « L'avortement devrait être légal ». peut être soutenu par « Une femme devrait toujours avoir le choix sur son corps ». ou la phrase « Dieu nous a donné le libre arbitre et nous devons respecter le libre arbitre des autres ». Un deuxième défi technique consiste à mesurer le degré de persuasion d'un texte argumentatif, par exemple en mesurant le degré d'exhaustivité des preuves présentées [HG16]., * CV détaillé avec une description du doctorat et une liste complète des publications avec les deux plus significatives mises en évidence
* Lettre de motivation
* 2 lettres de recommandations
* Copie du passeport