Découvrez dans cette vidéo en quoi Istex est une ressource inégalée pour la fouille de textes ou Text and Datamining (TDM) :
Dans un projet de TDM, l’élaboration d’un corpus de qualité représente une première étape clé qui peut conditionner la réussite de ce projet.
L’équipe Istex vous accompagne dans chaque phase de constitution de votre corpus en mettant à votre disposition :
- des outils pour rechercher, télécharger, affiner votre corpus
- une expertise dans la définition de votre besoin et dans l’utilisation des différents outils associés à Istex
Rechercher des documents
L’interface Istex-DL vous permet de rechercher vos documents dans la base Istex au moyen d’une interface ergonomique interrogeant l’API Istex.
Celle-ci vous offre ainsi la possibilité :
- d’utiliser toute la richesse de requêtage du moteur de recherche Elastic Search
- de filtrer les résultats au moyen de facettes pré-définies
- d’accéder aux documents en texte intégral, à leurs métadonnées, ainsi qu’à leurs enrichissements lorsqu’ils existent, dans les différents formats disponibles
- de visualiser des indicateurs clés sur votre corpus

Accès à ce service : Istex-DL
Télécharger un corpus
Une fois votre corpus constitué, l’interface Istex-DL permet le téléchargement massif des résultats de votre recherche dans la base Istex.

Configurez votre téléchargement pour adapter votre corpus à votre usage :
- soit par une sélection manuelle des formats et types de données souhaités
- soit grâce à l’une de nos passerelles avec des outils du monde académique (Lodex, CorText, Gargantext) qui sélectionnent automatiquement les fichiers requis par ces outils et facilitent ainsi l’exploitation de vos résultats.
Définissez ensuite vos options de compression pour obtenir votre corpus sous forme d’archive compressée.
Spécificités d’Istex-DLAccès à ce service : Istex-DL
Affiner un corpus
Lodex est un outil open source dédié à la valorisation de données structurées.
Il vous permet d’importer votre corpus directement téléchargé depuis Istex-DL et de paramétrer à votre guise l’affichage de vos données afin de les exposer et les visualiser dans un site web dédié.
Vous pourrez ainsi naviguer dans le contenu de votre corpus au moyen de filtres et de graphiques qui vous offriront différents angles de vues sur les métadonnées et les enrichissements des documents le composant.
Cette exploration vous permettra d’analyser la pertinence de votre corpus par rapport à vos besoins et aux applications visées, et vous donnera ainsi des clés pour affiner votre requête et télécharger votre corpus définitif via Istex-DL au moyen d’une boucle itérative.
Les points forts de Lodex
Hébergement de corpus
Pour accéder à ce service, prenez contact avec l’équipe Istex.
Des corpus à la demande
Vous souhaitez créer votre propre corpus ? Tous les services, proposés dans l’encart “Accès rapide aux services”, sont là pour vous aider dans votre entreprise.
Si néanmoins vous souhaitez être accompagné sur l’une des étapes ou sur la totalité du parcours de constitution de votre corpus, pour qu’il corresponde à votre besoin et à l’application que vous souhaitez en faire, l’équipe Istex est disponible pour vous répondre.
Nous pouvons préciser ensemble le périmètre de votre demande, vous aider à construire une requête affinée en sélectionnant parmi toutes les astuces disponibles les plus adaptées, vous guider dans la prise en main des outils d’extraction de corpus et d’exploration des résultats, jusqu’à l’obtention d’un corpus que vous aurez validé en fonction des finalités poursuivies.
Que cet accompagnement se fasse par mail ou en visioconférence, que vous ayez besoin de quelques précisions ou d’un accompagnement plus poussé, voire d’une formation individuelle à l’un ou l’autre de nos services, n’hésitez pas à prendre contact avec l’équipe Istex !
Des corpus prêts à l’emploi
Vous disposez d’un outil de fouille de textes et souhaiteriez le tester sur un corpus de publications scientifiques ?
Vous avez besoin de vous inspirer de cas d’utilisation similaires à celui que vous envisagez ?
Retrouvez sur le site data.istex, à la rubrique Corpus scientifiques, nos collections de Corpus spécialisés issus de la base Istex.
Des corpus exemples
Thématiques ou non, s’intéressant à une problématique ou concernant une discipline scientifique donnée, conçus pour évaluer les performances d’un outil spécifique ou applicables à toute une gamme d’outils assurant certaines tâches, tous nos corpus spécialisés ont été réalisés pour répondre à des cas d’usages particuliers en fouille de textes.
Des corpus réutilisables
Grâce à l’outil Lodex, les pages data.istex consacrées à chaque collection vous offrent une description des corpus et une exploration de leur contenu. Elles vous proposent aussi le moyen de les utiliser tels quels ou en les adaptant à vos propres besoins de fouille, car tous nos corpus sont téléchargeables via l’application Istex-DL, aux formats qui vous intéressent. Pour vous simplifier la vie, ils sont aussi partageables avec vos pairs.
N’hésitez plus : explorez l’ensemble de nos collections en cliquant directement sur le service Corpus scientifiques !
Pour un usage avancé
Si le terme API n’a plus de secret pour vous, si le mot « moissonneur » ne vous fait pas peur, si vous êtes familier du monde GitHub, ou tout simplement curieux et désireux d’en savoir plus, explorez les possibilités techniques de la plateforme Istex pour appréhender et vous approprier ses usages avancés.