Sprint #29 d’ISTEX-API: « LI3: Les ingestions plus BRILLantes »

Sprint #29 d’ISTEX-API: « LI3: Les ingestions plus BRILLantes »


Bonjour, Nous venons d’entamer le 29e sprint de l’équipe ISTEX-API. Le but de ce sprint la finalisation du refactoring de loadistex dans sa 3e version (la chaîne d’ingestion de données). Nous en profiterons pour ingérer BRILL au travers de cette nouvelle chaîne. Cette nouvelle chaîne d’ingestion nous permettra de réduire notre dette technique, d’assurer une meilleure robustesse de l’ingestion pour […]

Amélioration sur l’ensemble des corpus : nouveaux champs et normalisation

Amélioration sur l’ensemble des corpus : nouveaux champs et normalisation


Bonjour à toutes et à tous, Nous avons profité de l’été pour rajouter de nouveaux champs pour l’ensemble des corpus :

A noter : – Les champs pages.total correspondent aux nombres de pages, informations fournies par l’éditeur, là où qualityIndicators.pdfPageCount est l’information récupérée par nos outils. Les champs pages.total sont cependant assez rare actuellement. – Les champs volume, issue, […]

Mise à jour des TEI en version 1.2

Mise à jour des TEI en version 1.2


Chers utilisatrices et utilisateurs, Nous effectuons en ce moment même les rechargements des différents corpus déjà ingérés. De fait, l’ensemble des TEI a été mis à jour en version 1.2. Les principaux changements effectués sont les suivants :

N’hésitez pas à commenter et à donner vos différentes remarques !

Nouveau corpus dans l’API : Oxford University Press (OUP)

Nouveau corpus dans l’API : Oxford University Press (OUP)


Bonjour à toutes et à tous,   L’API accueille aujourd’hui le corpus Oxford University Press (OUP). Cette première ingestion propose 1 444 219 objets documentaires supplémentaires. Les fichiers originaux de l’éditeur sont aux formats XML et PDF, et l’on retrouvera également les formats complémentaires TEI, MODS, ZIP et TXT.   Pour retrouver l’ensemble des documents disponibles, rendez-vous sur l’API : https://api.istex.fr/document/?q=*%20AND%20corpusName:oup&output=*   […]

Un caractère avec du caractère

Un caractère avec du caractère


Il y a quelques jours Laurent RASSINOUX a remonté un bug étrange dans le démonstrateur. Dans le même temps, Stéphane GULLY est tombé sur un comportement similaire dans ISTEX-SNU Après enquête il apparaît qu’il y a une entité HTML Line separator U+2028 dans la balise correspondenceTo ligne 47 du xml éditeur: Cette entité est encodée en caratère sous la forme hexa e2 […]