Nous mettons à votre disposition un ensemble de services proposant le stockage de ressources documentaires et scientifiques pour une utilisation dans différentes étapes du processus de recherche, que ce soit pour la bibliographie, comme données de recherche ou comme sujets d’études.
Base documentaire
La base documentaire regroupe des collections rétrospectives multilingues et multidisciplinaires de la littérature scientifique mondiale. Hébergée localement pour garantir la souveraineté des données, elle met à disposition plus de 30 millions de documents issus à la fois de grandes maisons d’édition internationales (Elsevier, Springer, Wiley, etc.) et de dépôts en libre accès (PLOS, SCIELO, etc.). Résolument tournée vers la qualité, la base est dédoublonnée et normalisée. Chaque objet documentaire est finement structuré, homogénéisé et enrichi via des métadonnées exclusives. Et contrairement à d’autres systèmes, la base contient pour chaque document le texte intégral disponible dans différents versions et formats (XML/TEI; texte au kilomètre, texte nettoyé)
Atouts
Des documents enrichis et de qualité, utilisables dans des outils et plateformes de l’enseignement supérieur et de la recherche, comme Gargantext, Cortext, Nooj.
Usagers
Dans le cadre de la politique de Science ouverte, toutes les métadonnées de la base sont en accès libre via une licence Etalab. Par contre, pour des raisons de droits, l’accès aux versions en texte intégral est réservé à tous les établissements français ayants droit et à leurs usagers : étudiants, doctorants, chercheurs, professionnels de la documentation (350 établissements sont concernés). L’accès à la base se fait principalement via son intégration dans les systèmes documentaires des bibliothèques des établissements (API, résolveurs de lien, etc.)
Partenaires
Le GIS Collex-Persée est le principal partenaire de la base documentaire, toute la documentation scientifique achetée dans le cadre du GIS est in fine déposée dans la base. Dans le cadre du nouveau GIS (en cours de montage), les données numérisées sont amenées à également être déposées dans la base.
Les plateformes d’édition scientifique française sont également partenaires de la base, à travers un dispositif qui permet le dépôt régulier des publications qu’elles produisent.
Le consortium Couperin, à travers les négociations des licences nationales, contribue également à l’alimentation de base par la signature d’un accord sur le versement glissant des archives Elsevier.
Code source ouvert
Différents composants de la base documentaire sont mis à disposition dans un entrepôt dédié https://github.com/istex
Retrouvez plus de détails sur :
Base terminologique - Loterre
Loterre (Linked open terminology resources) est une plateforme d’exposition et de partage de terminologies scientifiques multidisciplinaires et multilingues, conforme aux standards du web des données ouvertes et liées et répondant aux principes FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable).
Le service propose le stockage, la normalisation de ressources langagières en vue de les rendre accessibles pour la consultation, le partage et la libre réutilisation de terminologies scientifiques fiables et validées par des experts de chaque domaine couvert.
Au total, c’est plus de 2,5 millions de termes scientifiques regroupés dans 750 000 concepts qui sont consultables pour de l’indexation, de l’annotation et le référencement de publication et de jeux données, ou la recherche d’information, de la rédaction scientifique et de la traduction ou encore pour aider à la diffusion des savoirs lors de formation.
Atouts
(…)
Usagers
Dans le cadre de la politique de Science ouverte, toutes les données exposées dans Loterre sont accessibles gratuitement grâce à une licence qui autorise leur mise à disposition et leur réutilisation. L’accès est donc ouvert à tous sans aucune restriction.
Partenaires
Le stockage et l’exposition sont ouverts à tous partenaires en lien avec la recherche française ou internationale. Et si la majorité des terminologies ont été produites par le CNRS, 30% des ressources exposées ont été produites par des partenaires (Getty Research Institute, EMBL-EBI, MNHN, etc.)
Code source ouvert
Loterre utilise le logiciel libre Skosmos – https://github.com/NatLibFi/Skosmos
Pour en savoir plus sur l’accès aux ressources et leur utilisation : la base terminologique
Accès à ce service : Istex Loterre
Lac de publications - IALAC
Actuellement en cours de développement avec l’objectif d’ouverture fin 2026, le service lac de publications vise à répondre aux besoins spécifiques des chercheurs d’analyse d’information à l’aide de technologies d’IA. Le service reposera sur une plate-forme à deux niveaux; permettant d’une part l’intégration, le stockage et la normalisation de fonds de documents divers, larges et hétérogènes sans restriction documentaire à priori
(Preprint, Thèses, Brevets, etc.) et d’autre part d’offrir un accès direct aux données stockées selon un contrôle d’accès propres à chaque document. Le lac doit permettre aux équipes de recherche non seulement de directement effectuer des opérations de fouille de données mais aussi d’y brancher leurs propres services expérimentaux afin d’y stocker potentiellement le résultat de leur traitement pour chaque document.
L’ambition est d’éviter la dérive actuelle, où plusieurs opérateurs ou projets téléchargent les mêmes fichiers PDF pour les convertir et les traiter pour in fine ne garder que le résultat de la transformation utile à leur cas d’usage (détection de code logiciel, graphe de citation, extraction d’entités nommées, etc.). Le lac permettra d’agréger en un point unique l’ensemble des traitements réalisés par chacun au bénéfice de tous.
Atouts
Des masses de documents utilisables directement par des IAs dans des formats adaptés
Usagers
Toutes les données stockées dans le lac seront accessibles à tous dans le respect des licences et droits accordés.
Partenaires
Le stockage des données du lac sera assuré via un partenariat avec l’université de Lorraine pour un hébergement dans le datacenter labellisé ADAGE. L’usage de ce type d’infrastructure doit assurer la sécurité des données, notamment par une réplication des données dans un site distant (Strasbourg).
Code source ouvert
Le lac utilise différents outils open source comme la suite logicielle Grobid – https://github.com/kermitt2/grobid