ISIDORE : un chantier bien avancé !
Le TGE ADONIS a lancé en octobre 2009 la réalisation de la plateforme de recherche ISIDORE qui a vocation à fédérer les données numériques de la recherche en SHS et à en offrir un accès unifié à la fois aux enseignants, chercheurs, doctorants et étudiants mais aussi à des portails web tiers dans un souci de transparence constant.
Que mettons-nous en place ?
La plate-forme de recherche ISIDORE se distingue des moteurs de recherche classiques en de nombreux points :
• Moissonnage ciblé des ressources disponibles en accès libre sur le Web ;
• Indexation des données non structurées (texte intégral, par exemple) et des données structurées (métadonnées, par exemple) ;
• Normalisation des métadonnées et enrichissement des données en s’appuyant sur des référentiels reconnus dans la communauté (thésaurus PACTOLS, vocabulaire RAMEAU, référentiels des auteurs de HAL…) ; • Interface graphique de recherche s’appuyant sur la richesse des données structurées et des référentiels pour faire de l’utilisateur un acteur de sa recherche ;
• Mise en exergue des sources de données indexées ;
• Mise à disposition de l’ensemble des métadonnées enrichies par le moteur pour sa réutilisation par tout un chacun ;
• Intégration possible du moteur de recherche ISIDORE dans un autre environnement par la mise à disposition d’API Web.
Pour ce faire, cette plate-forme de recherche utilise différentes façons de moissonner les données, ce qu’on appelle des connecteurs :
- moissonnage d’entrepôts OAI-PMH ;
- récupération des entrées dans les flux de syndication (RSS, ATOM) ;
- indexation ciblée de page Web d’un site via le flux XML de type « sitemap » et la présence de métadonnées encodées en RDFa.
Ces différents connecteurs permettent la récupération d'un ensemble de métadonnées et constituent des points d’entrée vers le texte intégral qui est lui aussi indexé quand cela est possible. La réexposition des métadonnées enrichies suit, quant à elle, les principes du Web de données dont se réclament les mouvements de mise à disposition des données publiques comme data.gov et data.gov.uk.
A ce titre, la plate-forme de recherche ISIDORE y contribue largement au titre de la recherche en SHS en France. Outre un gage de transparence des actions effectuées par le moteur pour aider à la recherche, cette composante s'avère essentielle, car, plus que de simples interfaces de recherche, ISIDORE, offre de par cette fonctionnalité, les moyens à l'ensemble de la communauté d'enrichir constamment ses propres données.
De plus, les interfaces de recherche offriront la possibilité d’étendre et de compléter sa recherche à des catalogues bibliographiques conjoint des grands réservoirs de données. De par sa vocation, ISIDORE privilégiera l'accès à des données produites par des organismes de recherche et de l’enseignement supérieur, des laboratoires, des équipes de recherche : édition électronique, bases de données documentaires, fonds numérisés de bibliothèques de recherche, carnets de recherche, annonces d’événements scientifiques...
Où en sommes-nous ?
Une importante équipe de réalisation a été créée au sein du TGE ADONIS pour développer et construire, avec un prestataire, ce projet. Elle regroupe une équipe de direction de projet (TGE ADONIS), une équipe de réalisation informatique avec un chef de projet (centre pour la communication scientifique directe, Lyon), une équipe en charge des interfaces (centre pour l'édition électronique ouverte, Marseille).
Après l'écriture du cahier des charges (rendu public en juillet 2009), avec l'assistance à maîtrise d'ouvrage d'Atos Consulting et la sélection du prestataire regroupant les sociétés Antidot, Sword et Mondeca, le projet est entré dans une phase de réalisation et de développement. En novembre 2010, une première version bêta de la plate-forme sera ouverte au public.
Afin d'anticiper l'indexation des données au sein de la plate-forme, le TGE ADONIS a, en parallèle, lancé et organisé plusieurs réunions avec les principaux producteurs de données SHS dont les données seront accessibles au travers d'ISIDORE. Ces réunions ont pour but de présenter le projet et de travailler ensemble sur le moissonnage en vue de leur indexation et de leur présentation dans les interfaces graphiques.
Ont déjà été rencontrés : HALSHS, CLEO / Revues.org, INIST, CAIRN, PERSEE. Sont rencontrés en mai/juin : l'Institut de recherche pour le développement (IRD), l'Agence Bibliographique de l’Enseignement Supérieur (ABES), Bibliothèque nationale de France. Il va de soi qu'un grand nombre de réservoirs de données (OAI-PMH) autres que ceux produits par ces producteurs seront moissonnés par ISIDORE (BU, bibliothèques de recherche et centres de documentation, centres de recherche, centres de ressources numériques, etc.). La liste, ouverte et évolutive, est accessible en ligne.N'hésitez pas à nous contacter pour plus d'informations.
C'est dire qu'au-delà de l'innovation technologique et des perspectives du Web de données, ISIDORE est d'abord un remarquable effort fédératif des très nombreux producteurs de données, de documents, de sites pour, non seulement souscrire aux mêmes standards, mais aussi s'unir pour l'intérêt collectif et le développement sans lisière des usages et des services que l'ensemble de la société attend des sciences humaines et sociales françaises ou francophones. En ce sens, ISIDORE est bien l'architecture distribuée d'accès que le TGE ADONIS a mission de mettre en place depuis trois ans.
Du point de vue de la réalisation en elle-même, le prestataire avance par itération successive sur les trois composantes qui composent la plate-forme : la collecte, le traitement et l'accès.
. La collecte
Ils finalisent actuellement les différents connecteurs décrits précédemment après avoir mis au point les différents critères pour renseigner les sources de données (URL du site, URL de l'entrepôt, format de la date...) et l'interface graphique ad hoc.
Le traitement
Le logiciel de gestion des référentiels, ITM, fourni par Mondeca est en place sur les plateformes informatiques ISIDORE du CCSD. Les différents référentiels prévus dès l'origine du projet sont intégrés ou en cours d'intégration (Rameau, Pactols, domaine scientifiques de l'archive ouverte HAL, les auteurs HAL...) et nous travaillons actuellement sur TermSciences (INIST). Les outils de normalisation des dates et des personnes sont en cours de finalisation et le modèle de données est à présent finalisé.
L'accès
Les interface web sont en cours de définition par le CLEO en relation avec le CCSD et le prestataire. Trois interfaces seront disponibles : via le site du TGE ADONIS, via un site générique en cours de réalisation, via des widgets et modules pour les partenaires. Par ailleurs, en vue de la réexposition des données selon les principes du Web de données, si les ressources indexées au sein d'ISIDORE ne possèdent pas déjà un identifiant normalisé, gage de pérennité et d'indépendance logicielle (ARK, DOI), délivré par leur producteur, elles se verront en attribuer selon le principe HANDLE. Choix ensuite aux producteurs de récupérer cet identifiant et de l'utiliser/exposer.
Que reste-t-il à faire ?
- Nouvelle rencontre avec l'ABES (référentiels auteurs, extension de recherche sur le SUDOC depuis ISIDORE) - Publication du guide sur l'OAI-PMH pour les laboratoires et « Comment être moissonné et indexé par le moteur de recherche ISIDORE ? ».
- Mise en place d'un prototype (version alpha) en juin 2010 à destination des premiers producteurs (voir ci-dessus).
- Réaliser les accès web et les widgets (juillet/septembre 2010).
- Mettre en place un groupe de travail sur l'utilisation des référentiels dans ISIDORE (juillet 2010).
- Développement du connecteur sitemap/RDFa (septembre 2010).
Quelles sont les perspectives ?
Cette plateforme d'accès ISIDORE, en mobilisant ainsi les données, métadonnées et référentiels des très nombreuses institutions et des diverses disciplines des SHS, de l'enseignement supérieur et de la recherche, a pour objectif d'être un entrepôt de données mutualisé et ouvert à partir duquel de très nombreux services et portails disciplinaires pourront se développer librement sur le Web. Il permettra de valoriser de façon exponentielle la richesse et l'extrême qualité des matériaux et productions scientifiques françaises. C'est dire que cette première étape, ouverte au public en novembre 2010, sera surtout un départ pour étendre ensuite le périmètre de la plate-forme à de nombreuses autres données qualifiées, éventuellement à des données dans d'autres langues avec des perspectives d'indexation multilingues, multi-culturelles ou institutionnelles, dans le cadre d'abord de la feuille de route ESFRI et de ses projets DARIAH, CLARIN ou CESSDA et aussi à accueillir sur l'infrastructure ADONIS déployée au sein du CCSD de nouveaux services mutualisables qui pourront ou non s'appuyer sur les données offertes par ISIDORE.
Laurent Capelli, Jean-Luc Minel, Stéphane Pouyllau, Gauthier Poupeau, Jean-Baptiste Génicot, Yannick Maignien