7 septembre 2015 | Team ISTEX | API , Ingestion

Amélioration sur l’ensemble des corpus : nouveaux champs et normalisation


Bonjour à toutes et à tous,

Nous avons profité de l’été pour rajouter de nouveaux champs pour l’ensemble des corpus :

A noter :

– Les champs pages.total correspondent aux nombres de pages, informations fournies par l’éditeur, là où qualityIndicators.pdfPageCount est l’information récupérée par nos outils. Les champs pages.total sont cependant assez rare actuellement.

– Les champs volume, issue, pages.first et pages.last attendent des nombres. Cependant, plusieurs éditeurs nous fournissent d’autres formats, par exemple « Vol. 14 », « CLXV », « 178-c », « sep09″… Ces données sont tout de même indexées, mais ne peuvent pas être recherché directement dans l’API.

– Les différents champs publicationDate et copyrightDate ont été en grande partie normalisés au format année « yyyy ». En effet, ces champs posaient plusieurs problèmes au niveau des facettes. Cette normalisation n’a été effectué que sur les champs jusqu’ici bien formé (par exemple « 12-05-2012 » ou encore « 2012-05-12 » deviennent « 2012 »), les autres formats (ex : « 16e s. » ou « 20120512 ») demandant une curation. Le changement ne touche que l’indexation, le MODS et le XML conservent les dates dans leurs formats d’origine.

– Le corpus ECCO possède maintenant des PDF en format complémentaire. Le corpus EEBO suit, mais leur génération est très longue.

 

N’hésitez pas à nous laisser des commentaires et des suggestions !


1 thought on “Amélioration sur l’ensemble des corpus : nouveaux champs et normalisation

Comments are closed.