Skip to main content
Dataset

Monographies de langue française de Gallica : Texte océrisé

Présentation : Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.

Contenu du jeu de données Il contient le texte transcrit par OCR des monographies de langue française de Gallica (en ligne à la date de mars 2023), pour lesquelles le texte n'est pas l'objet de conditions d'usage restrictives, soit environ 300 000 ouvrages. La requête Gallica correspondant aux monographies de langue française avec OCR et en ligne à la date de mars 2023, est la suivante : https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve\\\&exactSearch=true\\\&collapsing=false\\\&version=1.2\\\&query=(dc.language%20all%20%22fre%22)%20and%20(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%221380%22)%20and%20(ocr.quality%20all%20%22Texte%20disponible%22)%20and%20(indexationdate%3C=%222023/04/28%22) Elle renvoie environ 395k documents, la différence entre les deux quantités correspondant en majorité au corpus du programme de numérisation des Indisponibles du XXe siècle, qui est référencé dans Gallica mais dont les textes sont soumis à une restriction d'usage.

Format du jeu de données : Le jeu initial a été créé en avril 2021. La fréquence de sa mise à jour deviendra annuelle à compter de 2024. Le jeu se compose pour chacune des extractions : 2021-04-01 et 2023-04-01 :

  • des métadonnées des monographies concernées, au format .csv,
  • de la liste des identifiants ARK des monographies disposant d'un OCR, au format .txt,
  • des textes bruts de l'OCR de ces documents, au format .txt. Le jeu initial a été créé en avril 2021. La fréquence de mise à jour sera annuelle à compter de 2024.

Contexte de production : Ce jeu a été produit par les créateurs de l'outil de lexicométrie Gallicagram, pour les besoins de ce dernier. L'extraction du corpus a été réalisée avec l'API document Gallica

European Union flag

The SSH Open Marketplace is maintained and will be further developed by three European Research Infrastructures - DARIAH, CLARIN and CESSDA - and their national partners. It was developed as part of the "Social Sciences and Humanities Open Cloud" SSHOC project, European Union's Horizon 2020 project call H2020-INFRAEOSC-04-2018, grant agreement #823782.

CESSDACLARINDARIAH-EU