La page Publications sur Istex, qui recense tous les travaux mentionnant un usage des données Istex, s’enrichit d’un nouvel article !

Focus sur ce nouvel article

Dans leur publication Researchers and their data. A study based on the use of the word data in scholarly articles, paru dans Quantitative Studies chez MIT Press en 2022, Marion Maisonobe et Frédérique Bordignon se proposent d’analyser les occurrences du mot data dans les écrits scientifiques. Pour mener à bien cette étude, les chercheurs ont utilisé une quantité massive de données provenant d’Istex.

Firth, J. R. (1957). A synopsis of linguistic theory, 1930–1955. Oxford: Basil Blackwell.



Leur besoin initial ?

1.
des articles en texte intégral
2. provenant de différents éditeurs scientifiques
3. dans des formats attendus par les outils de text-mining

3 qualités que l'on retrouve dans l'archive Istex !

Grâce aux enrichissements effectués sur les ressources Istex, Marion Maisonobe et Frédérique Bordignon ont sélectionné des documents dont l’indicateur de qualité était supérieur à 5 (pour éviter de collecter des données dont l’OCR contenait quelques résidus). La catégorisation en domaines scientifiques a également rendu possible la comparaison de l’utilisation du mot data en Sciences Sociales et en Sciences Physiques. Au total, cette recherche a été menée sur 72 471 articles qui fournissent 896 159 occurrences de data. Ce corpus a ensuite été chargé dans le logiciel de textométrie TXM [1]. En quelques mots, l’analyse dans TXM reflète la polysémie du mot data, qui, s’il est utilisé seul, est assez ambigu. Les auteurs remarquent, par exemple, l’adjonction fréquente d’adjectifs permettant de spécifier la nature des données utilisées ou encore leur format. Nous n’en dirons pas plus et vous invitons à lire l’article ajouté sur data.istex pour embrasser l’ensemble des résultats de cette recherche quantitative.

Les données d’Istex : pour quelles recherches ?

La page Publications sur Istex contient les publications relatives aux projets menés par des équipes scientifiques pour tester et utiliser Istex depuis près d’une décennie. Ce sont essentiellement des actes de conférences et des articles scientifiques, mais vous y découvrirez également des thèses ou des posters.

L’objectif de ce recensement est de montrer comment l’exploitation des données d’Istex, et plus spécifiquement du texte intégral, peut fournir des apports en recherche. On y retrouve des thématiques scientifiques variées allant des analyses diachroniques, au Topic Modeling, en passant par les techniques d’océrisation ou encore la désambiguïsation d’entités nommées.

 

Appel à signalement

Vous avez utilisé les données d’Istex pour créer votre corpus ou souhaitez être accompagné pour sa constitution, contactez-nous !

 

Mathilde pour l’équipe Istex

——————————————————————————————————————————————————————————————

[1] Heiden Serge, Magué Jean-Philippe, & Pincemin Bénédicte. (2010). TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement. In JADT 2010 : 10th International Conference on the Statistical Analysis of Textual Data (pp. 12 p.). Rome, Italie.

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale