L’infrastructure Istex est pleinement engagée dans une politique de science ouverte rendant ces ressources et services ouverts à tous par défaut, et en limitant les accès uniquement quand il est légalement impossible de le faire. Par cette politique, Istex applique au cœur de sa démarche le principe « aussi ouvert que possible, aussi fermé que nécessaire ». L’infrastructure concourt ainsi à favoriser l’accès ouvert immédiat aux publications scientifiques pour la fouille et l’analyse, et contribue au partage et à l’ouverture des outils et logiciels nécessaires à l’usage d’IA sur les documents scientifiques.
Favoriser l’accès aux ressources pour la fouille de textes et de données
Diffusion
Les ressources Istex sont qualifiées et préparées pour faciliter leur analyse et leur exploitation. Ces ressources sont issues de différentes sources, éditeurs scientifiques, entrepôt d’archives, aggrégateur thématique, etc., chacun appliquant ses propres conditions d’accès et de diffusion. Istex respecte le droit d’auteur et la législation des documents d’origine et s’engage à ouvrir et rendre accessible toutes les données et métadonnées produites une licence ouverte de type Etalab – https://etalab.gouv.fr/licence-ouverte-open-licence/
➡ Plus de 30 millions de notices de métadonnées de documents scientifique sont donc librement accessibles et réutilisables sans aucune restriction, ni contrôle d’accès
➡ Plus de 100 corpus et terminologies thématiques sont mis à disposition avec une licence autorisant la réutilisation sans aucune restriction, ni contrôle d’accès
Partage
Les ressources Istex sont également utilisées dans différents travaux de recherche, et à ce titre elles deviennent des données de la recherche. Istex encourage le partage et la valorisation des données utilisées à travers
Site public
Les corpus de ressources peuvent être transformés en site web public en libre accès en réutilisant les métadonnées des documents ou ressources utilisées.
Entrepôt de données
Des documents et ressources utilisés dans des travaux de recherche peuvent être regroupés et déposés dans des entrepôts de données spécialisés ou non.
Pour les chercheurs en traitement automatique des langues et fouille de textes, Istex recommande l’usage de la plateforme Ortolang. Il est recommandé d’ajouter Istex comme “Soutien institutionnel” (en tapant istex dans le champ de saisie) et d’ajouter un fichier de métadonnées nommé par exemple metadata.xml qui contiendrait à minima les informations suivantes :
<?xml version='1.0' encoding='UTF-8'?> <metadata xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:olac="http://www.language-archives.org/OLAC/1.1/" xmlns="http://dublincore.org/documents/dcmi-terms/"> <dcterms:type>Dataset</dcterms:type> <dcterms:contributor xsi:type="olac:role" olac:code="sponsor">ISTEX - Infrastructure de services pour la fouille de textes</dcterms:contributor> <dcterms:license xsi:type="dcterms:URI">https://www.istex.fr/licences/</dcterms:license> </metadata>
Pour tous les autres cas d’utilisation, le dépôt dans RDG – Recherche Data – https://recherche.data.gouv.fr/fr est à privilégier.
Usage de documents sous licence d’utilisation restreinte :
Dans le cas où le jeu de données contient des documents originaux (PDF) avec une licence restreinte de diffusion. Istex recommande de restreindre l’accès aux données aux membres de l’enseignement supérieur et de la recherche ou aux membres de l’espace de travail.
Ortolang propose les options : « Membres de l’ESR » & « Membres de l’espace de travail »
Cette contrainte s’applique uniquement aux documents originaux ou versions transformées susceptibles de facilement reproduire l’œuvre originale. Les versions “tokenisées”, “randomisées”, “indexées”, “post-traitées”, compilées (LLMs) ne sont donc pas concernées.
Corpus et terminologie référencées dans Ortolang : https://www.ortolang.fr/market/search?content=istex
Des terminologies sur la plateforme IA Hugging Face : https://huggingface.co/search/full-text?q=loterre
Archive Ouvertes
ISTEX recommande de rendre disponible en accès ouvert toute publication scientifique ayant utilisée les services ou ressources proposées en favorisant des revues nativement en accès ouvert et de déposer au moment de la publication, le texte intégral (manuscrit accepté pour publication ou version éditeur) dans l’archive ouverte HAL en mentionnant Istex – infrastructure de services pour la fouille de textes.
Documents référencés dans HAL : https://cnrs.hal.science/ISTEX
Contribuer à l’ouverture, au partage et à la réutilisation des outils de fouille de textes.
Tous les services de fouille développés par ISTEX sont open source et sont disponibles et consultables dans des forges logicielles. Ils sont diffusés avec une licence libre de type CeCILL https://opensource.org/license/CECILL-2.1
L’archivage du code est disponible dans Software Heritage. Plusieurs forges et dépôts sont utilisés comme https://github.com/Inist-CNRS ou https://github.com/istex Pour favoriser la visibilité, certains dépôts sont des miroirs de forge locale auto-hébergée.