Grobid : extraire et structurer des données provenant de publications scientifiques

Après datatableExtract et textExtract, nous vous proposons un nouveau service qui traite le PDF.
Vous avez besoin de structurer le contenu d’un article scientifique PDF ? Grobid (GeneRation Of BIbliographic Data) le fait pour vous.

Son objectif ? Ce logiciel libre, développé en 2008 par Patrice Lopez et adapté en web service, permet d’extraire le contenu d’un PDF scientifique et de le structurer automatiquement au format XML-TEI.

La méthode ? Il analyse le document PDF et identifie chaque élément clé : titre, résumé, auteurs, affiliations, texte intégral, références bibliographiques, etc. Chaque information est ensuite balisée pour faciliter son exploitation ultérieure.

Pourquoi l’utiliser ?

Automatiser la conversion de PDF en données structurées.
Améliorer l’interopérabilité des publications scientifiques.
Faciliter l’analyse et la réutilisation des contenus extraits.

Son utilisation ?

Il est utilisable de différentes manières :

via TDM Factory pour une utilisation sans installations ni paramétrages.
en ligne de commandes, pour des utilisateurs plus avancés et pour une intégration fluide dans vos workflows.

Pour plus de détails, consultez la fiche descriptive du web service.

N’oubliez pas que des outils sont à votre disposition pour indexer, annoter vos documents à l’aide des vocabulaires Loterre.

Venez consulter le catalogue des web services ISTEX TDM pour explorer tous les outils d’aide à l’analyse de données et de textes.

Léo Gaillard et Valérie Bonvallot pour l’équipe TDM (Text & Data Mining – Fouille de textes)

Partager cet article

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

Faq Documentation Tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Grobid : extraire et structurer des données provenant de publications scientifiques

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

Écrivez-nous