Dans un billet précédent, l’équipe Istex-Corpus vous présentait l’application conviviale de téléchargement de corpus: ISTEX-DL¹. Trois autres outils sont à votre disposition pour extraire un corpus de documents numériques de l’archive ISTEX, chacun possédant ses spécificités et ses avantages propres.

Vous interrogez déjà le réservoir ISTEX directement via son API ? Vous serez peut-être intéressés par l’utilisation de la fonction « extract».

Cette fonction du moteur de recherche de l’API s’ajoute simplement dans l’URL d’interrogation de l’API à la suite de la requête. En paramétrant un certain nombre de critères, vous pourrez moduler le corpus que vous téléchargerez sous forme d’archive compressée ZIP, choisir le mode de tri des résultats et recueillir, si besoin, les fichiers classés dans une arborescence à 4 niveaux. Cet outil est à retrouver à l’adresse : https://doc.istex.fr/tdm/extraction/extract-feature.html

Vous êtes à l’aise avec l’informatique ? Vous pouvez employer l’un ou l’autre de nos moissonneurs, utilitaires en ligne de commande à installer et à lancer depuis un terminal : istex-api-harvester ou harvestCorpus.

Ces deux outils permettent notamment de télécharger des corpus dépassant les 10 000 documents. Mais ils proposent bien d’autres fonctionnalités. Découvrez-les à ces adresses : https://doc.istex.fr/tdm/extraction/istex-api-harvester.html et https://doc.istex.fr/tdm/extraction/harvest-corpus.pl.html

Le programme harvestCorpus peut en outre vous aider dans deux cas particuliers :

Si votre requête est tellement longue qu’elle dépasse les limites techniques d’un certain nombre de composants logiciels (proxy, navigateur, etc.), harvestCorpus pourra néanmoins extraire votre corpus à partir de la liste des identifiants des publications souhaitées présentées sous forme d’un fichier « .corpus »².

Si vos travaux de fouille nécessitent des documents finement structurés, extraitXmlEditeur, autre utilitaire associé à harvestCorpus , vous procurera les fichiers XML fournis par les éditeurs.

[space_20]

Pour une vue d’ensemble des outils d’extraction de corpus ISTEX, connectez-vous à l’adresse : https://doc.istex.fr/tdm/extraction/
Pour toute question ou commentaire, n’hésitez pas à nous contacter via la liste de discussion users@listes.istex.fr ou la messagerie des équipes ISTEX contact@listes.istex.fr
Camille, pour l’équipe Istex-Corpus
[hr]

1 – Billet : « ISTEX-DL : Vous en rêviez, ISTEX l’a fait ! »

2 – Plus de détails sur les fichiers .corpus à cette adresse : https://github.com/istex/harvest-corpus#1—fichier-corpus

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale

    2 réponses à “Extraire un corpus ISTEX : 4 solutions”

    1. Thomas P dit :

      Bonjour,
      Merci pour ce billet.
      Le lien correct vers la doc du fichier .corpus est (note 2) https://github.com/istex/harvest-corpus#2—utilisation-du-fichier-corpus
      Thomas

      • Camille De Salabert dit :

        Bonjour,
        Merci beaucoup pour ce retour.
        Nous avons pu corriger l’erreur. WordPress transforme en effet les caractères # et nous perdions ainsi le lien vers l’ancre de la page github correspondant au paragraphe explicitant ce qu’est un fichier .corpus et permettant d’en visualiser un exemple.
        Bien cordialement,
        Camille