Mise à disposition de BRILL (journals) à travers l’API
Bonjour, Nous avons fini l’ingestion de BRILL (journals) désormais accessible au travers de l’API (env. 133k ressources).
Bonjour, Nous avons fini l’ingestion de BRILL (journals) désormais accessible au travers de l’API (env. 133k ressources).
Bonjour, Nous venons d’entamer le 29e sprint de l’équipe ISTEX-API. Le but de ce sprint la finalisation du refactoring de loadistex dans sa 3e version (la chaîne d’ingestion de données). Nous en profiterons pour ingérer BRILL au travers de cette nouvelle chaîne. Cette nouvelle chaîne d’ingestion nous permettra de réduire notre dette technique, d’assurer une meilleure robustesse de l’ingestion pour […]
Bonjour à toutes et à tous, Nous avons profité de l’été pour rajouter de nouveaux champs pour l’ensemble des corpus :
1 2 3 4 |
"qualityIndicators": { "pdfPageSize": Format des pages du PDF (ex : "612 x 828 pts"), "pdfPageCount": Nombre de pages dans le PDF } |
1 2 3 4 5 6 7 8 9 |
"host": { "volume": Numéro de volume au niveau journal/book, "pages": { "first": Numéro de la première page au niveau journal/book, "last": Numéro de la dernière page au niveau journal/book, "total": Nombre de pages au total }, "issue": Numéro de l'issue au niveau journal/book } |
1 2 3 4 5 6 7 8 9 |
"serie": { "volume": Numéro de volume au niveau collection, "pages": { "first": Numéro de la première page au niveau collection, "last": Numéro de la dernière page au niveau collection, "total": Nombre de pages au total }, "issue": Numéro de l'issue au niveau collection } |
A noter : – Les champs pages.total correspondent aux nombres de pages, informations fournies par l’éditeur, là où qualityIndicators.pdfPageCount est l’information récupérée par nos outils. Les champs pages.total sont cependant assez rare actuellement. – Les champs volume, issue, […]
Chers utilisatrices et utilisateurs, Nous effectuons en ce moment même les rechargements des différents corpus déjà ingérés. De fait, l’ensemble des TEI a été mis à jour en version 1.2. Les principaux changements effectués sont les suivants :
1 2 3 |
- Réécriture des codes langues - Ajout du numéro de version et de la date de création du fichier - Mise aux normes des données MODS v.3.6 (v.3.5 précédemment) |
N’hésitez pas à commenter et à donner vos différentes remarques !
Bonjour à toutes et à tous, L’API accueille aujourd’hui le corpus Oxford University Press (OUP). Cette première ingestion propose 1 444 219 objets documentaires supplémentaires. Les fichiers originaux de l’éditeur sont aux formats XML et PDF, et l’on retrouvera également les formats complémentaires TEI, MODS, ZIP et TXT. Pour retrouver l’ensemble des documents disponibles, rendez-vous sur l’API : https://api.istex.fr/document/?q=*%20AND%20corpusName:oup&output=* […]
Il y a quelques jours Laurent RASSINOUX a remonté un bug étrange dans le démonstrateur. Dans le même temps, Stéphane GULLY est tombé sur un comportement similaire dans ISTEX-SNU Après enquête il apparaît qu’il y a une entité HTML Line separator U+2028 dans la balise correspondenceTo ligne 47 du xml éditeur: Cette entité est encodée en caratère sous la forme hexa e2 […]