Un nouveau format « TXT Cleaned » – pour texte nettoyé – est disponible dorénavant dans Istex. Il contient le texte intégral en texte brut :

* sans mise en forme,

* sans image,

* sans tableau,

* sans formule.

 

Ainsi, seul le contenu textuel des paragraphes, compris entre le résumé et les références bibliographiques, est conservé.

Destiné à une utilisation en fouille de textes, ce format supplémentaire de texte intégral vise à éviter les problèmes que peuvent parfois entraîner pour les outils de TDM les figures, tableaux et formules présents dans les publications.

Sur 25 608 042 documents présents aujourd’hui dans la base Istex, 12 574 680 disposent d’un format « TXT Cleaned », soit 49% !

 

Pour quels documents ?

Pour savoir quels documents bénéficient de ce format de texte nettoyé, un nouvel indicateur – nommé tdmReady – a été ajouté à l’API, dont la valeur « true » permet de repérer ces documents.

Retrouvez-les donc en interrogant :

  • l’API Istex au moyen du champ qualityIndicators.tdmReady:"true"

Ex. : recherche du nombre de « TXT Cleaned » par Corpus éditeur

 https://api.istex.fr/document/?q=(qualityIndicators.tdmReady:"true")&facet=corpusName[*]&size=0

  • le démonstrateur et sa recherche avancée sur le champ qualityIndicators.tdmReady  

Identifiés par un nouveau logo, vous visualisez immédiatement les formats « TXT Cleaned » existants dans les résultats de votre recherche, leur contenu étant accessible par un simple clic sur l’icône :

 

Comment en disposer ?

Pour vos travaux de fouille de textes, téléchargez un corpus de publications au format « TXT Cleaned » en utilisant l’application Istex-DL !

A cette fin, deux solutions vous permettent de les sélectionner :

  • ajoutez le critère "AND qualityIndicators.tdmReady:true" à votre équation
  • cochez, dans l’option « Usage personnalisé », le format « CLEANED » de texte intégral.

Seules les publications possédant un format « TXT Cleaned » seront extraites.

 

Vous avez désormais à disposition une solution pour optimiser l’exploitation par des outils de TDM de votre corpus en texte intégral. Le « Text mining » sur les légendes de figures, les tableaux, etc. du texte intégral reste bien entendu toujours possible en utilisant le format TXT classique.

Bonne découverte de ce nouveau format et de son utilité !

Clément pour l’équipe Istex

 

_________________

En savoir plus :

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale

    2 réponses à “« TXT Cleaned » : un nouveau format au service du TDM dans Istex”

    1. Stéphane Gully dit :

      Bonjour et bravo pour les avancées !

      Ca me partait une très bonne chose car ces textes nettoyés pourront permettre de passer des outils de TDM en évitant du bruit. Et je me demandais comment vous avez procédé pour le nettoyer, êtes vous parti des PDF et quel outil avez vous utilisé ? en particulier avez vous nettoyé les bas de page, les numéros de pages etc qu’on trouve généralement dans les PDF ?

      Stéphane
      ps: bonjour à toute l’équipe !

      • Clément DREPTIN dit :

        Bonjour !
        Pour nettoyer le texte nous sommes partis du format TEI et plus particulièrement de sa balise <body>. Le contenu textuel de cette balise a été extrait après avoir retiré les descriptions d’images, tableaux et formules, pour être mis à plat dans un fichier. Les éléments de mise en page tels que le bas de page avec les numéros ne sont donc pas présents dans ce format. Plus d’informations dans ce paragraphe de la documentation.
        Clément pour l’équipe Istex