Les dumps DATA ISTEX en ligne!


public dumps
Les dumps RDF téléchargeables

Depuis mi avril, le site data.istex.fr ne se contente plus d’exposer ses données via un SPARQL EndPoint.

En effet, suite à plusieurs demandes, nous avons décidé de fournir aussi les dumps RDF (au format N-Quads) des jeux sémantisés présents sur DATA ISTEX.

Nous ajoutons le sous-domaine public-dumps au domaine data.istex.fr, les dumps RDF sont donc téléchargeables sur le site https://public-dumps.data.istex.fr.

À ce jour, les dumps des jeux suivants sont disponibles :

 

Détails techniques

La plupart de nos jeux de données donnent lieu à deux graphes nommés dans le triple store.

Le premier est l’export strict des ressources en N-Quads. Il contient donc autant d’objets qu’en contient le jeu de données. L’ordre de grandeur de cet export est en général de plusieurs centaines d’objets. Le nom du fichier correspondant finit par _graph.nq.

Le deuxième est l’export des triplets faisant le lien entre chaque ressource d’un jeu et les documents ISTEX indexés par cette ressource. Cela en fait un fichier beaucoup plus volumineux, car  il contient souvent plusieurs millions  de triplets (un triplet par lien entre un document ISTEX et une ressource du jeu). C’est pourquoi nous l’appelons l’export étendu.

L’agrégation de tous les exports étendus, pour un document, permet de reconstituer une notice. C’est la raison pour laquelle les noms fichiers des exports étendus finissent par _notice_graph.nq.gz (ils sont compressés pour éviter de prendre trop de place).

 


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *