Rencontre avec Véronique Mesguich à l’occasion de la sortie de son ouvrage "Les bibliothèques face au monde des données"

Après avoir fondé et codirigé pendant six ans un cabinet spécialisé en veille technologique, Véronique Mesguich a participé à la création de l’Infothèque du Pôle Universitaire Léonard de Vinci, puis pris la direction de cette Infothèque jusqu’en 2012. Elle a été co-présidente de l’ADBS (Association des professionnels de l’information) de 2012 à 2015 et exerce depuis 2013 une activité de consultante/formatrice spécialisée en veille stratégique et maitrise de l’information. Elle est auteure de plusieurs ouvrages sur la recherche d’informations stratégiques, la veille et les bibliothèques 2.0.

1/ Pourquoi ne pas avoir intitulé votre ouvrage Les bibliothèques dans le monde des données ?

Il est certain que les données ont depuis toujours été présentes dans les activités des bibliothèques, et les exemples en sont variés. Les professionnels des bibliothèques produisent ainsi des données concernant la fréquentation ou les prêts ; les catalogues et les ressources des bibliothèques regorgent de données ; les bibliothèques universitaires accompagnent les chercheurs dans la gestion des données de la recherche, etc. Mais si les bibliothèques sont donc bel et bien « dans » le monde des données, les professionnels se posent de nombreuses questions « face » à ce nouveau paysage en expansion constante. La notion de « transition bibliographique » traduit bien la nécessité d’une évolution (sur le temps long) destinée à rendre les données des catalogues plus visibles sur le web et plus interopérables avec d’autres données. Les bibliothèques sont également impactées par le mouvement initié depuis les années 2010 autour de l’ouverture des données publiques (open data). De façon plus globale, la transformation numérique des processus documentaires s’accompagne d’une nouvelle granularité de l’information : les professionnels gèrent et produisent non seulement des documents imprimés ou numériques, mais aussi des données de toutes natures. Le monde des données gravite ainsi autour des bibliothèques, mais il n’est pas simple à appréhender.

Dans ce contexte, j’ai souhaité proposer à travers mon ouvrage une vue d’ensemble du monde des données dans toute sa complexité, afin d’en faciliter la compréhension, et d’aider à en saisir toute la valeur. A mesure que les données gagnent en importance dans le fonctionnement des bibliothèques, il est essentiel pour les professionnels d’acquérir une solide culture des enjeux et du vocabulaire technique, ainsi qu’une compréhension des potentiels. L’ouvrage ne s’adresse pas qu’aux spécialistes des données, mais surtout à tout professionnel des bibliothèques et des services documentaires désireux d’explorer ces nouvelles frontières et de s’approprier ce monde. Sans mauvais jeu de mots, on peut dire que la donnée n’est pas « donnée » mais s’obtient, ou pour paraphraser Bruno Latour : « Décidément, on ne devrait jamais parler de “données” mais “d’obtenues” ».

2/ Vous évoquez souvent la notion de transition bibliographique comme inséparable de l'adaptation des bibliothèques au monde des données. La « datafication » des catalogues doit-elle nécessairement s'accompagner d'une migration vers le modèle conceptuel IFLA LRM ?

Je préfère l’expression « mise en données » au terme « datafication » qui comporte une connotation un peu péjorative (et ne sonne pas très joliment aux oreilles) … Le modèle IFLA LRM (Library Reference Model) constitue un changement de paradigme : les métadonnées des catalogues sont désormais structurées sous la forme d’entités (le fameux modèle OEMI : œuvre, expression, manifestation, item). Les nouvelles règles de description RDA (Resource Description and Access) vont permettre de réorganiser la structuration des métadonnées à cet effet. En France, la transition bibliographique s’appuie sur les règles RDA-FR et le format UNIMARC Entité Relations, conforme au modèle IFLA-LRM. Cette transition va se dérouler sur un temps long, et les fournisseurs de SGB (systèmes de gestion de bibliothèques) devront s’adapter.
Mais delà du modèle conceptuel IFLA LRM et de ses déclinaisons à l’international, la mise en données des catalogues et des ressources des bibliothèques peut générer des activités nouvelles à travers différents moyens : des traitements, des analyses, des datavisualisations, des extractions destinées à rendre visibles et valoriser les données. Je consacre un chapitre de l’ouvrage aux méthodes et outils d’analyse et de réutilisation des données, dont certains se sont invités au fil des années dans l’univers des bibliothèques. Selon l’expression du datajournaliste Kenneth Cukier, la mise en données va bien au-delà d’une simple numérisation, il s’agit de « numériser non plus des documents, mais tous les aspects de la vie ».

3/ Selon l'institut Pasteur, plus de 90% des publications scientifiques en « sciences dures » sont rédigées en anglais. Dans le cadre des débats autour de l’hégémonie de l’anglais et du multilinguisme dans la diffusion des connaissances, un modèle de structuration de l’information bibliographique adossé à l'espace international francophone est-il encore imaginable/pertinent aujourd'hui ?

Je pense que ce sujet dépasse largement la question de l’information bibliographique. Il apparait que dans le domaine de la diffusion des connaissances, l’hégémonie de l’anglais est favorisée par plusieurs facteurs : la domination d’universités, organismes de recherche ou sociétés savantes issues de pays anglo-saxons, le poids des géants américains du numérique, sans oublier les normes et standards (TEI, etc). Des initiatives intéressantes ont été lancées afin de valoriser l’importance du multilinguisme dans la recherche et la diffusion, comme par exemple l’initiative d’Helsinki en 2019.

A l’heure actuelle, la diffusion des connaissances n’est plus limitée aux bases de données documentaires et aux outils bibliographiques. Le développement de la « science ouverte » a favorisé la création d’infrastructures destinées à communiquer la recherche en langues nationales. La francophonie dispose de nombreuses plateformes ou outils spécialisés : l’archive ouverte HAL bien sûr, mais aussi le nouvel écosystème Recherche data.gouv, des prestataires privés comme Cairn, les plateformes ouvertes Persée, Erudit ou Open Edition, le moteur Isidore, le projet ScanR, etc.

De plus, la percée fulgurante des intelligences génératives va certainement apporter de nouvelles fonctionnalités de recherche et traitement multilingues des publications scientifiques. Je ne veux pas forcément parler que de ChatGPT, mais d’initiatives menées par exemple dans le domaine de la communication médicale, ou le projet Big Science lancé en 2021 avec le modèle de langage Bloom. Cette IA générative open source a été entraînée simultanément en 46 langues, réparties sur des sources très variées incluant des articles scientifiques. L’anglais ne représente que 30 % des langues utilisées pour l’entrainement de Bloom, la langue française atteignant près de 13%.

4/ Selon vous, la fonction principale d'un « data librarian » est-elle de favoriser la diffusion sur le web des données de recherche selon les principes FAIR (Findable, Accessible, Interoperable, Reusable) ?

Le périmètre d’action d’un « data librarian » peut varier d’un pays à l’autre, ou d’un établissement à l’autre. Sa principale mission consiste à apporter une expertise technique dans l'organisation, la gestion et le stockage des données au sein d’un l'établissement universitaire. Le data librarian met à profit son expertise pour conseiller et accompagner les chercheurs dans le choix de solutions adaptées à leurs besoins, allant de l'élaboration d'un plan de gestion des données selon les principes FAIR à la sélection de schémas de métadonnées ou de méthodes d'archivage. Ce rôle d'accompagnement peut également inclure la prestation de formations à la demande, notamment dans le cadre des "ateliers de la donnée". Cependant, son champ d'activité peut englober d’autres missions : la gestion de bases de données, la numérisation de documents, la gestion de collections de données numériques... Dans le cadre des humanités numériques, le data librarian peut également participer à la création de corpus numériques homogènes. Je cite dans le chapitre de l’ouvrage consacré aux métiers de la donnée une présentation plaisante de ces multiples rôles, due à Alex Ball lors d’un congrès de l’ADBU : le data librarian peut être tout à la fois un détective, un expert, un conseiller, un éditeur de données, un formateur…

5/ L'arrivée récente d'IA conversationnelles et de traitement d'images très performantes semble impacter fortement le monde des bibliothèques. Au-delà de cette actualité, et dans le contexte plus large de l'adaptation des bibliothèques au monde des données, quelle place l'IA est-elle amenée à prendre dans le métier de bibliothécaire ? Quels en sont les risques et les limites ?

L’engouement récent pour les intelligences génératives ne doit pas faire oublier que les innombrables applications de l’IA sont déjà très présentes dans nos vies numériques. L’IA constitue un volet important de la mise en données du monde, avec l’arrivée d’outils très puissants capables d’exploiter d’énormes masses de données pour produire de nouvelles connaissances ou aider à la décision. Dans le domaine des bibliothèques, les applications sont nombreuses et peuvent concerner la transcription automatique de textes, le dépôt légal des œuvres numériques, l’analyse automatisée et le traitement d’images, la reconnaissance d’entités nommées, etc.

La BnF (Bibliothèque nationale de France) est bien sûr pionnière dans ce domaine et s’est dotée en 2020 d’une feuille de route formalisant sa stratégie concernant l’intégration de l’IA tant dans la gestion et l’exploration des collections, que l’aide au catalogage, la valorisation et la médiation, ou enfin l’aide à la décision. L’un des projets les plus avancés est la fouille d’images dans Gallica afin de mieux valoriser et exploiter les contenus des images. Par exemple, il sera ainsi plus facile de retrouver la source des images publiées dans les journaux numérisés. Le baromètre français de la science ouverte utilise également des techniques d’apprentissage automatique pour pallier le manque de certaines métadonnées ouvertes dans les publications. L’IFLA s’est pour sa part positionné dès 2020 via un communiqué présentant des considérations sur l’utilisation des technologies de l’IA dans le monde des bibliothèques, et des suggestions concernant une utilisation responsable de ces technologies.

Car au-delà de ces expérimentations prometteuses, et de façon plus générale, les avancées technologiques dues à l'IA présentent de nombreux risques. Tout d’abord, sur l’emploi : la société de veille médiatique Onclusive a annoncé récemment sa volonté de se séparer de plus de la moitié des effectifs, pour laisser la place à des IA. Le deuxième risque concerne la propriété intellectuelle : comment définir des droits d’auteur pour des textes et images générés, parfois à partir éléments déjà existant, par des IA ? Et enfin, le troisième danger réside dans la prolifération de contenus textuels ou multimédias erronés, absurdes ou de piètre qualité. Les bibliothécaires ont là encore un rôle à jouer dans l’accompagnement des utilisateurs face à ce fléau.

Propos recueillis par Jérome Demolin
Le 16 octobre 2023