La nouvelle version d’ISTEX-DL repousse les limites


icone istex-dl

Après une longue phase de développements et de tests, nous sommes fiers de vous annoncer la mise en place d’une nouvelle version d’ISTEX-DL et de la fonctionnalité d’export au format Zip de l’API.

Rappel

Pour ceux qui ne connaîtraient pas encore ISTEX-DL, notre outil de téléchargement en masse de documents ISTEX, je vous invite à consulter le billet de blog publié précédemment, ou encore la documentation correspondante.

Les plus curieux d’entre vous pourront consulter directement la documentation de la fonction « extract » de l’API, sur laquelle s’appuie ISTEX-DL.

Nouveautés

La principale nouveauté de cette mise à jour est l’augmentation de la limite du nombre de documents téléchargeables, qui passe de 6 000 à 100 000 documents.

Pour permettre une telle augmentation, un gros travail de ré-écriture, d’optimisation et de test a été mené. Ainsi, cette nouvelle version est beaucoup plus stable, fiable et réactive qu’auparavant. Nous vous invitons vivement à la tester par vous-même et à nous faire part de vos retours.

D’autres nouveautés sont à noter :

  • La sélection fine des enrichissements est à présent pleinement fonctionnelle (auparavant, tous les types d’enrichissement étaient téléchargés, même si un seul d’entre eux était choisi).
  • Le format JSON n’est plus téléchargé par défaut : il faut cocher la case correspondante pour télécharger ce format.
  • Le format JSON ne contient plus le texte intégral (champ « fulltext »). La présence de cette information était l’une des causes des mauvaises performances de l’outil. Si vous avez besoin du texte intégral, vous pouvez vous tourner vers le format TXT qui contient le strict équivalent de l’ancien champ « fulltext ».
  • Pour vous simplifier la vie, le format OCR ne fait plus partie des options de sélection. En effet, il vous suffit désormais de choisir le format TXT : si le format OCR existe pour un document, c’est ce dernier qui sera extrait à la place du TXT de qualité plus médiocre.
  • Un bug sur le bouton « récupérer » a été corrigé.

ISTEX-DL est donc à présent disponible en version 4.19.0 sur https://dl.istex.fr (code source disponible sur Github). L’API ISTEX est quant à elle passée en version 5.7.0.

istex-dl interface
Téléchargement de 100 fichiers au format JSON

Note importante

Selon les formats de fichiers souhaités, le téléchargement d’une archive Zip peut prendre beaucoup de temps, et le fichier résultat être très volumineux (par exemple, plus de 350Go pour 14h de téléchargement en sélectionnant tous les formats). C’est ce qui nous a amené à fixer arbitrairement une limite à 100 000 objets documentaires, pour vous éviter des mauvaises surprises.

En fonction de vos besoins et de vos retours, cette limite pourrait être revue et augmentée, par exemple en fonction des formats sélectionnés.

To be continued…

L’interface ISTEX-DL va connaître d’autres évolutions ces prochains mois, pour vous offrir un usage encore plus facile et intuitif. Nous communiquerons plus largement sur ces futures nouveautés le moment venu.

Bons téléchargements à toutes et à tous sur https://dl.istex.fr .

Bien cordialement,

Claude, pour l’équipe ISTEX