Triple Store: chargement des 43 millions de triplets


Logo data.istex.frPour la première fois, l’équipe ISTEX-LOD a chargé dans son Triple Store les triplets faisant le lien entre les ressources d’un jeu et les documents ISTEX correspondant.

En l’occurrence, il s’agit du jeu inist-category (contenant les valeurs de la facette categories.inist).

C’est le premier maillon d’une chaîne qui permettra, en faisant de même pour tous les jeux de données de data.istex.fr, de reconstituer des notices des documents via SPARQL.

Nous avons donc procédé à l’export étendu du jeu inist-category, au format N-Quads, puis au chargement de ces 43 millions de triplets dans le Triple Store (logiciel Virtuoso).

Requête qui compte les triplets dans le graphe nommé d’Inist-category

Pour voir un embryon de notice pour un document, on peut spécialiser la requête SPARQL, en mettant en sujet l’URI du document:

Requête qui renvoie toutes les propriétés d’un document

Les catégories Inist, exprimées par les propriétés istex:subjectInist, sont visibles sous forme d’URI, qu’on peut déréférencer (en cliquant sur le lien, ou en cherchant les propriétés de cet URI dans le Triple Store). Par exemple, le lien http://inist-category.data.istex.fr/ark:/67375/RZL-11ZFRTC3-3 renvoie vers cette fiche dans data.istex.fr:

Fiche d’une catégorie Inist dans data.istex.fr

En copiant l’URI du document dans un navigateur, on obtient sa fiche ISTEX au format JSON (y compris les liens vers le fulltext):

Voir https://data.istex.fr/triplestore/sparql/ pour essayer des requêtes, et https://data.istex.fr/sparql/ comme SPARQL endpoint, pour s’en servir par programmation.

François, pour l’équipe ISTEX.