Vous avez peut-être constaté que la typologie attribuée aux documents de la base OpenAlex n’est pas toujours pertinente. En effet, la proportion de documents indexés comme article de recherche est sur-évaluée [1].

Pour remédier à ce biais, Nick Haupka, de l’université de Göttingen (Allemagne) et soutenu par le Federal Ministry of Education and Research (projet OpenBib, subvention n°16WIK2301E), a conçu oalDocTypeClass [2], et notre équipe l’a adapté en web service pour faciliter son utilisation.

Son objectif ? Il classe automatiquement les documents OpenAlex selon leur nature : document de recherche (article de journal, thèse, etc.) ou non.

La méthode ? Il repose sur un modèle de type KPPV (K Plus Proches Voisins). À partir d’un identifiant OpenAlex, le service récupère des métadonnées clés (références, nombre de pages, etc.) et génère une représentation vectorielle du document. Le modèle compare ensuite cette représentation à celles d’autres documents déjà classés, puis attribue une probabilité indiquant si le document est un article de recherche ou non.

Comment l’utiliser ?

Comme nos autres services, OALDocTypeClass est accessible :

– via Lodex : notre plateforme open source de visualisation et traitement de données, idéale pour importer, analyser et publier vos résultats.

– en ligne de commandes (pour les utilisateurs avancés, via curl, wget, etc.).

Une collaboration internationale pour enrichir notre catalogue

Après TAM (Tortured Abbreviations Miner) et TransliTAL, deux web services développés par des partenaires, nous sommes ravis d’héberger ce service développé par Nick Haupka.

Pour en savoir plus, consultez la fiche descriptive d’OALDocTypeClass et explorez nos autres services sur ISTEX TDM.

Léo Gaillard et Valérie Bonvallot pour l’équipe TDM (Text & Data Mining – Fouille de textes)

Références

[1] Culbert, J. H., Hobert, A., Jahn, N., Haupka, N., Schmidt, M., Donner, P., & Mayr, P. (2025). Reference coverage analysis of OpenAlex compared to Web of Science and Scopus. Scientometrics, 130(4), 2475-2492.

[2] Haupka, N. (2026). « Presenting a classifier to improve the identification of research journal publications in OpenAlex ». Scientometrics, 131, 925–941.

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale