Réunion du groupe de contact FNRS « Analyse critique et amélioration de la qualité de l’information numérique »

(Téléchargez l’introduction d’Isabelle Boydens et la présentation de Laurence Dierickx.)

La prochaine réunion du groupe de contact FNRS « Analyse critique et amélioration de la qualité de l’information numérique » se tiendra le mercredi 18 mai 2022 de 14H à 15H45, elle aura lieu en ligne (vous recevrez le lien afin de rejoindre l’événement, une fois inscrits, voir ci-dessous).

Pluridisciplinaire, le groupe se situe au confluent des sciences appliquées et des sciences humaines et politiques.

Le groupe, dont nous avons fêté les 25 ans en 2019, s’est réuni récemment en 2021

La  conférence cette année, « Apprentissage automatique : les challenges de la qualité des données dans la perspective d’une adéquation aux usages » examinera, sur la base d’exemples issus des sciences humaines et sociales, l’importance de la «qualité des données» dans le contexte du Machine Learning (« apprentissage automatique ») et les formes particulières de la qualité des données dans ce contexte. Plus d’information est disponible dans l’abstract ci-dessous.

La conférence sera présentée par Laurence Dierickx, Docteur en Sciences de l’Information, Laurence publie et effectue de la recherche dans le domaine de l’apprentissage automatique (études du journalisme et études des médias), avec un accent particulier sur la qualité des données, domaine qu’elle enseigne également dans le cadre de formations en datajournalisme (voir plus d’information dans l’abstract).

La réunion se terminera par une table ronde au cours de laquelle tous les participants qui le souhaitent seront invités à intervenir. L’accès à la rencontre, qui est financée par le Fonds National de la Recherche Scientifique, est gratuit ; il est toutefois indispensable de s’inscrire avant le 10 mai 2022 au plus tard à l’événement via le lien suivant, en indiquant votre nom, prénom et institution(s) d’appartenance(*). Vous recevrez par email une confirmation d’inscription avec le lien Teams vous permettant de rejoindre l’événement du 18 mai.

Programme

14h00 Introduction, par Isabelle Boydens, Présidente du groupe de contact FNRS « Analyse critique et amélioration de la qualité de l’information numérique », Professeur ordinaire à l’ULB et responsable du « Data Quality Competence Center » au sein du département Recherche de Smals

14h05  « Apprentissage automatique : les challenges de la qualité des données dans la perspective d’une adéquation aux usages » par Laurence Dierickx

15h15 Débat et table ronde. Modérateur : Sébastien de Valeriola, spécialiste en Digital Humanities, auteur de nombreuses publications et initiatives sur le sujet et chargé de cours au sein du département SIC de l’ULB.

Résumé

La qualité des données joue un rôle central dans le développement de technologies d’apprentissage automatique (machine learning), lesquelles s’appuient sur des familles d’algorithmes conçus pour formaliser et optimiser un processus nourri par de larges volumes de données. S’il est communément admis que des données de mauvaise qualité ne peuvent donner lieu à une information de qualité, la problématique de la qualité des données est ici d’autant plus complexe qu’elle concerne à la fois les données qui nourrissent le modèle, la représentation du modèle, les mesures d’évaluation et la précision du modèle, ainsi que les méthodes de recherche du meilleur modèle. L’évaluation de la qualité des données et leur validation s’opèrent donc en amont et en aval de ces processus, lesquels ne peuvent être envisagés autrement que dans le contexte de leur domaine d’application.

Cet exposé présentera les concepts et enjeux de la qualité des données rencontrés dans l’apprentissage automatique, en s’appuyant sur une sélection d’exemples, tous domaines d’application confondus. Il mettra cette approche en perspective en se basant sur deux études de cas : en premier lieu, dans le domaine de la génération automatique en langage naturel dans un contexte journalistique (données quantitatives) ; et, en second lieu, dans celui de la fouille de textes (text mining) de contenus générés par des utilisateurs via les réseaux sociaux (données textuelles). Cette pratique est notamment utilisée dans les domaines de la politique et du marketing, mais aussi dans la recherche en humanités numériques et en sciences humaines. Dans ce cadre, nous nous intéresserons également au langage R et aux packages dédiés à la préparation des données (data wrangling), dont certains sont susceptibles de donner lieu à des problèmes de qualité supplémentaires.

Intervenant

Laurence Dierickx est docteure en Sciences de l’Information et la Communication, auteure d’une thèse traitant de l’automatisation de la production d’informations, soutenue en 2020, et titulaire d’un master en Sciences et Technologies de l’Information et de la Communication. Elle est actuellement consultante indépendante en information numérique, collaboratrice scientifique du centre de recherche (ReSIC) et membre du Laboratoire des pratiques et identités journalistiques (LaPIJ) de l’Université Libre de Bruxelles. Elle enseigne également le journalisme de données dans le cadre du Master en Journalisme de l’ULB. Elle poursuit actuellement un post-doctorat à l’Université de Bergen, en Norvège, où ses recherches portent sur le fact-checking automatisé.

(*)Réglementation en matière de protection des données :

Vous accédez à cette page et ces informations vous sont demandées car vous êtes repris sur une ou plusieurs listes de distribution par lesquelles l’Université libre de Bruxelles vous informe sur ses activités et/ou parce que vous vous inscrivez à un événement organisé par l’Université libre de Bruxelles. Le Règlement général sur la protection des données personnelles est entré en application le 25 mai 2018. L’ULB se conforme à cette législation et attache une grande importance à la protection de vos données à caractère personnel.

Ainsi, il vous est notamment possible, à tout moment, de vous désinscrire de cette invitation en envoyant un email à Mathias.Coeckelbergs@ulb.be

Dans tous les cas, sachez que l’Université n’utilise vos données que pour vous informer sur ses activités et qu’elle ne les communique pas à des tiers à des fins commerciales ou de marketing. Toutes vos questions sur la protection de vos données par l’ULB peuvent être envoyées à la Déléguée à la protection des données : rgpd@ulb.ac.be.  Cette adresse est également celle par le biais de laquelle vous pouvez exercer vos droits en la matière : accès, rectification, effacement, limitation, opposition et portabilité.