Slides de la première réunion du groupe de contact FNRS « Les humanités des données »

Le lundi 7 novembre 2022 s’est tenue la première réunion d’un nouveau groupe de contact FNRS intitulé « Les humanités des données », dont Sébastien de Valeriola (ULB) est le président et Paul Bertrand (UCLouain) et Nicolas Ruffini-Ronzani (UNamur et AEN) sont secrétaires. Le programme était le suivant :

Les slides de l’exposé sont disponibles ici :

Réunion du groupe de contact FNRS « Analyse critique et amélioration de la qualité de l’information numérique »

(Téléchargez l’introduction d’Isabelle Boydens et la présentation de Laurence Dierickx.)

La prochaine réunion du groupe de contact FNRS « Analyse critique et amélioration de la qualité de l’information numérique » se tiendra le mercredi 18 mai 2022 de 14H à 15H45, elle aura lieu en ligne (vous recevrez le lien afin de rejoindre l’événement, une fois inscrits, voir ci-dessous).

Pluridisciplinaire, le groupe se situe au confluent des sciences appliquées et des sciences humaines et politiques.

Le groupe, dont nous avons fêté les 25 ans en 2019, s’est réuni récemment en 2021

La  conférence cette année, « Apprentissage automatique : les challenges de la qualité des données dans la perspective d’une adéquation aux usages » examinera, sur la base d’exemples issus des sciences humaines et sociales, l’importance de la «qualité des données» dans le contexte du Machine Learning (« apprentissage automatique ») et les formes particulières de la qualité des données dans ce contexte. Plus d’information est disponible dans l’abstract ci-dessous.

La conférence sera présentée par Laurence Dierickx, Docteur en Sciences de l’Information, Laurence publie et effectue de la recherche dans le domaine de l’apprentissage automatique (études du journalisme et études des médias), avec un accent particulier sur la qualité des données, domaine qu’elle enseigne également dans le cadre de formations en datajournalisme (voir plus d’information dans l’abstract).

La réunion se terminera par une table ronde au cours de laquelle tous les participants qui le souhaitent seront invités à intervenir. L’accès à la rencontre, qui est financée par le Fonds National de la Recherche Scientifique, est gratuit ; il est toutefois indispensable de s’inscrire avant le 10 mai 2022 au plus tard à l’événement via le lien suivant, en indiquant votre nom, prénom et institution(s) d’appartenance(*). Vous recevrez par email une confirmation d’inscription avec le lien Teams vous permettant de rejoindre l’événement du 18 mai.

Programme

14h00 Introduction, par Isabelle Boydens, Présidente du groupe de contact FNRS « Analyse critique et amélioration de la qualité de l’information numérique », Professeur ordinaire à l’ULB et responsable du « Data Quality Competence Center » au sein du département Recherche de Smals

14h05  « Apprentissage automatique : les challenges de la qualité des données dans la perspective d’une adéquation aux usages » par Laurence Dierickx

15h15 Débat et table ronde. Modérateur : Sébastien de Valeriola, spécialiste en Digital Humanities, auteur de nombreuses publications et initiatives sur le sujet et chargé de cours au sein du département SIC de l’ULB.

Résumé

La qualité des données joue un rôle central dans le développement de technologies d’apprentissage automatique (machine learning), lesquelles s’appuient sur des familles d’algorithmes conçus pour formaliser et optimiser un processus nourri par de larges volumes de données. S’il est communément admis que des données de mauvaise qualité ne peuvent donner lieu à une information de qualité, la problématique de la qualité des données est ici d’autant plus complexe qu’elle concerne à la fois les données qui nourrissent le modèle, la représentation du modèle, les mesures d’évaluation et la précision du modèle, ainsi que les méthodes de recherche du meilleur modèle. L’évaluation de la qualité des données et leur validation s’opèrent donc en amont et en aval de ces processus, lesquels ne peuvent être envisagés autrement que dans le contexte de leur domaine d’application.

Cet exposé présentera les concepts et enjeux de la qualité des données rencontrés dans l’apprentissage automatique, en s’appuyant sur une sélection d’exemples, tous domaines d’application confondus. Il mettra cette approche en perspective en se basant sur deux études de cas : en premier lieu, dans le domaine de la génération automatique en langage naturel dans un contexte journalistique (données quantitatives) ; et, en second lieu, dans celui de la fouille de textes (text mining) de contenus générés par des utilisateurs via les réseaux sociaux (données textuelles). Cette pratique est notamment utilisée dans les domaines de la politique et du marketing, mais aussi dans la recherche en humanités numériques et en sciences humaines. Dans ce cadre, nous nous intéresserons également au langage R et aux packages dédiés à la préparation des données (data wrangling), dont certains sont susceptibles de donner lieu à des problèmes de qualité supplémentaires.

Intervenant

Laurence Dierickx est docteure en Sciences de l’Information et la Communication, auteure d’une thèse traitant de l’automatisation de la production d’informations, soutenue en 2020, et titulaire d’un master en Sciences et Technologies de l’Information et de la Communication. Elle est actuellement consultante indépendante en information numérique, collaboratrice scientifique du centre de recherche (ReSIC) et membre du Laboratoire des pratiques et identités journalistiques (LaPIJ) de l’Université Libre de Bruxelles. Elle enseigne également le journalisme de données dans le cadre du Master en Journalisme de l’ULB. Elle poursuit actuellement un post-doctorat à l’Université de Bergen, en Norvège, où ses recherches portent sur le fact-checking automatisé.

(*)Réglementation en matière de protection des données :

Vous accédez à cette page et ces informations vous sont demandées car vous êtes repris sur une ou plusieurs listes de distribution par lesquelles l’Université libre de Bruxelles vous informe sur ses activités et/ou parce que vous vous inscrivez à un événement organisé par l’Université libre de Bruxelles. Le Règlement général sur la protection des données personnelles est entré en application le 25 mai 2018. L’ULB se conforme à cette législation et attache une grande importance à la protection de vos données à caractère personnel.

Ainsi, il vous est notamment possible, à tout moment, de vous désinscrire de cette invitation en envoyant un email à Mathias.Coeckelbergs@ulb.be

Dans tous les cas, sachez que l’Université n’utilise vos données que pour vous informer sur ses activités et qu’elle ne les communique pas à des tiers à des fins commerciales ou de marketing. Toutes vos questions sur la protection de vos données par l’ULB peuvent être envoyées à la Déléguée à la protection des données : rgpd@ulb.ac.be.  Cette adresse est également celle par le biais de laquelle vous pouvez exercer vos droits en la matière : accès, rectification, effacement, limitation, opposition et portabilité.

Offre de stage – KBR / Camille : Automatic treatment of texts

CAMille project – Research center and digital archives dedicated to the history of journalism in Belgium

CAMille builds a collection of digitized newspapers and press archives in order to facilitate research into the history of Belgian journalism. It also stimulates the development of digital research methods so as to make this corpus accessible for humanities researchers. Interns are invited to develop digital solutions (AI, data mining, topic modelling, named entity recognition,…) based on the corpus. They will do so in function of concrete research projects that are being carried out in CAMille and will thus contribute to increasing our knowledge of the history of Belgian journalism.

Contact: Brecht.Deseure@kbr.be

Offre de stage – KBR / Camille : Linked open data

CAMille project – Research center and digital archives dedicated to the history of journalism in Belgium

CAMille builds a prosopographic database of all Belgian journalists since 1830 until today. Building on an existing corpus in Excel format, the aim is to enrich the data by crossing them with external authority lists. Interns will develop solutions to extract relevant information from these data sets and integrate them into the CAMille database and/or the KBR authority files. They will also have the opportunity to prepare the creation of an actual database by thinking about appropriate data architecture, database features and software.

Contact: Brecht.Deseure@kbr.be

Offre de stage – Conception d’une base de données originale compatible avec le réseau des musées wallons et l’IRPA

Offre de stage – Bethléem verviétois

Conception d’une base de données originale compatible avec le réseau des musées wallons et l’Institut Royal du Patrimoine Artistique (établissement fédéral). Elle sera constituée à partir du Bethléem verviétois (proposé au classement comme chef-d’œuvre du Patrimoine immatériel de Wallonie), victime des inondations de juillet 2021. Les informations à gérer sont hétérogènes : matériaux, altérations, constats d’état, interventions, traitements, informations scientifiques (analyses issues des conservation sciences, stratigraphie, FTIR), documentation (y compris relevés 3D, documents historiques, photos, films), éléments « immatériels » etc, le tout dans la perspective du développement ultérieur d’algorithme décisionnels.

Le travail permettra d’interagir avec au carrefour de la conservation-restauration (ESA Saint-Luc de Liège), de l’université de Liège (UR Art, archéologie patrimoine), des musées de Verviers et de l’Institut Royal du Patrimoine Artistique. Le projet est promis à une médiatisation scientifique (publications, colloques) et permettra au candidat stagiaire d’aborder un monde peu connu et passionnant : celui de la conservation-restauration des œuvres et objets d’art.

Présentation de l’œuvre restaurée
Contact : muriel.verbeeck@uliege.be