istex

Construire le socle de la bibliothèque scientifique numérique nationale.



Les objectifs

La plateforme ISTEX : le socle des ressources scientifiques

L’acquisition d’archives documentaires s’accompagne de la création d’une plateforme pour accueillir ces dernières. Cette plateforme hébergera ainsi l’ensemble des données acquises, soit plusieurs millions de documents numériques.

Rappel…

Le projet ISTEX a pour principal objectif d’offrir, à l’ensemble de la communauté de l’enseignement supérieur et de la recherche, un accès en ligne aux collections rétrospectives de la littérature scientifique dans toutes les disciplines en engageant une politique nationale d’acquisition massive de documentation : archives de revues, « bases de données », corpus de textes…

 

L’accès aux ressources documentaires se fera dans un premier temps via les plateformes des éditeurs, mais la plateforme ISTEX, gérée par l’INIST-CNRS, permettra d’héberger l’intégralité des données dans un réservoir unique et ce dans des formats normalisés.

Transparence

 

La plateforme ISTEX sera transparente pour les utilisateurs : elle s’intégrera en amont des outils de diffusion comme les Espaces Numériques de Travail, les portails thématiques du CNRS ou encore les outils de découverte (exemples : Primo, Summon, EDS…).

L’accès aux ressources ISTEX se fera donc par les mêmes points d’entrée que les abonnements courants et/ou les ressources en libre accès.

 

ISTEX crée ainsi un réservoir commun, unifié, normé et normalisé d’objets documentaires (article scientifique, chapitre de livre, entrée dans une encyclopédie, etc.) accessibles via des canaux multiples et variés (moissonnage OAI-PMH, widgets, API,…).

plateforme Istex

 

 

De nombreux avantages

 

Riche de plusieurs millions de documents numériques dans toutes les disciplines, la plateforme ISTEX offrira divers bénéfices aux utilisateurs :

 

Une ouverture sur un corpus unique et exceptionnel :

 

Ce réservoir de données unique en son genre se distinguera par 3 caractéristiques majeures :

–          Il sera le premier à regrouper  en un accès unique et dans des formats normalisés, un volume aussi conséquent de documents multidisciplinaires et multilingues (plusieurs millions de ressources) ;

–          Il contiendra des ressources complètes (texte intégral pour chaque élément) de typologies diverses et variées (des collections rétrospectives de revues ; des livres électroniques ; de grands corpus de documents patrimoniaux numérisés ; des bases de données…) ;

–          Ces ressources seront destinées à des usages multiples ; aussi bien à des fins de recherche documentaire qu’à des fins de matériau scientifique pour des travaux de recherche.

 

Un accès systématique vers le texte intégral du document :La plateforme ISTEX n’est pas une base de signalement contenant des métadonnées pointant vers des documents hébergés chez les éditeurs mais bien une base de données contenant l’intégralité des textes afin de répondre à des usages différents mais complémentaires :

  • ne plus être dépendant d’autorisations extérieures (ex : lien vers un portail d’un éditeur) pour accéder à un document en texte intégral ;
  • Accéder  aux documents sans limitation de durée
  • Permettre  des traitements transversaux (indexation automatique, catégorisation, extraction de connaissance) sur tout ou partie de la base ;
  • Pouvoir extraire des sous-corpus de la base complète selon des critères de discipline, de type de document, de datation, …

 

Un moteur de recherche puissant adapté aux besoins des scientifiques avec des facilités d’interrogation et de téléchargement :

En relation avec le volume conséquent de données et le niveau d’exigence de la recherche documentaire, le moteur de recherche se doit d’être performant, robuste mais aussi évolutif et ouvert.

De plus, le multilinguisme des documents impose des traitements automatiques du langage complexes et variés.

Le choix s’est porté sur un moteur de recherche open source (ElasticSearch) qui permet de bénéficier des outils développés par la communauté des utilisateurs du moteur. Il sera ainsi facile d’intégrer des fonctionnalités comme la lemmatisation[1] (traitement des flexions), le traitement intelligent des mots-vides et l’ajout de synonymes dans les requêtes ou dans les facettes.

 

Des services de traitement des données : extraction de données, fouille de textes, production de synthèses documentaires et de corpus terminologiques :

Cet immense réservoir de données textuelles pourra servir de matériau scientifique pour des travaux de recherche appliqués dans différents domaines comme le Traitement Automatique des Langues (TAL), mais aussi l’histoire des sciences, ou la production d’indicateurs…

Ce réservoir s’intègre totalement dans le paysage national et  permettra des échanges directionnels avec les autres projets inclus dans le périmètre ISTEX soit pour l’enrichissement ou la curation des ressources, soit pour leur exploitation…

écosystème et projets satellites

 

Une intégration à l’environnement numérique local permettant un confort de navigation entre les ressources courantes et les collections rétrospectives :

Ce réservoir de données rétrospectives  est connecté, aux ressources courantes, aux systèmes actuels de diffusion (Espace Numérique, Portails, Outils de découverte). La plateforme est donc un socle qui s’interfacera facilement avec les portails existants par exemple via des API ou des widgets qui pourront se « plugger » rapidement dans les Systèmes de Content Management (CMS) utilisés par les diffuseurs de ressources électroniques (SCD, CNRS, EPST…). Un effort sera fait pour que les métadonnées ISTEX soient versées dans les outils commerciaux (Outils de découverte[2], Résolveur de lien[3]) afin d’assurer une continuité de recherche et d’accès entre les abonnements courants et les archives.

 

Un accès à distance pour tous les membres des établissements de l’enseignement supérieur et de la recherche :

La gestion des accès sera opérée par les outils de diffusion des organismes appartenant à l’ESR selon les modalités de leur choix et les technologies qu’ils auront mises en place. Le contrôle d’accès aux ressources ISTEX entre les outils de diffusion (portail, ENT, ..) et le socle ISTEX opéré à l’INIST-CNRS se fera dans un premier temps par contrôle IP et dans un second temps par authentification. Un démonstrateur proposant une interface d’interrogation sera disponible pour les organismes ne disposant pas de leur propre moyen de diffusion et servira de portail par défaut.

 

Un accès pérenne aux données rétrospectives acquises : Un programme d’archivage pérenne permettra de conserver les données sur plusieurs décennies. Cette partie sera assurée  par un organisme public spécialisé dans ce domayne (ji"liothèques nationales européennes).

 

Des bénéfices pour l’Enseignement Supérieur et la Recherche

Cette plateforme multidisciplinaire est destinée aux chercheurs, enseignants et autres acteurs de la recherche et de l’enseignement supérieur.

Elle répondra aux besoins de plusieurs profils d’utilisateurs :

Des informaticiens souhaitant interroger les API[4] de la plateforme (REST[5], OAI-PMH[6], Sparql[7], …) dans un but d’extraction de corpus pour mener par exemple un projet de recherche.

besoins informaticiens

Des webmestres désirant intégrer la plateforme dans l’ENT de leur organisation à l’aide des widgets associés à la plateforme (facilement installables et directement câblés sur la plateforme à travers le Web).

image3
Des membres de l’ESR qui disposent déjà d’outils de découverte et de résolveurs de lien et qui accéderont aux ressources à travers ces logiciels.

besoins esr

Des membres de l’ESR (chercheurs, documentalistes …) désirant consulter les ressources de la plateforme à travers le démonstrateur proposé sur le site Web officiel de l’ISTEX.

besoins esr

[1]     Procédé permettant de regrouper toutes les formes lexicales d’un mot vers sa forme canonique (Ex : L’adjectif petit existe sous quatre formes petit, petite, petits et petites)
[2]    Méta moteur de recherche permettant une recherche transversale d’information dans plusieurs réservoirs

[3]    Outils documentaire permettant de faire le lien entre une source (généralement une métadonnée) et une cible (généralement un texte plein en ligne)

[4]    API : Interface de programmation permettant d’accéder à une fonctionnalité spécifique via le réseau.

[5]    Type d’architecture couramment utilisées dans le monde du web

[6]    Protocole pour échanger des métadonnées

[7]    Langage de requêtes permettant d’accéder à des données sur le web

investissement d'avenir

Financement : ANR-10-IDEX-0004-02