T3 Indexation et lac de données

Responsable : Jérôme Darmont (ERIC)

Objectifs :
  • Conception et mise en œuvre d’un lac de données textuelles permettant un accès commun aux différents documents du corpus.

Équipes :
  • MARGE: C. Cote;
  • ERIC : J. Darmont, S. Loudche

Travaux à réaliser :
  • Stockage des données recueillies (au format clé-valeur HDFS, par exemple), en lien avec la MSH-LSE et le TGIR Huma-Num. Afin d’assurer la navigation, l’interrogation et l’analyse (T4) des données du lac, concevoir un système de gestion des métadonnées incluant les métadonnées au format WARC collectées en T2, une indexation basée sur le vocabulaire des documents et notre propre système de classement, issu de la taxonomie établie en T2, ainsi que les modèles issus de la fouille de donnée (T4).
  • La représentation conceptuelle prévue pour les métadonnées étant des graphes, nous prévoyons de nous appuyer pour le stockage physique des métadonnées sur un système de gestion de bases de données (SGBD) adéquat, tel que Neo4J. L’édition des métadonnées, que ce soit pour les tests et ensuite pour la généralisation des descriptions, implique de reprendre et d’adapter les outils existants, comme EDI, ENVplus, voir encore la réécriture de ROMA et JAVA [1].

    [1] http://edidemo.get-it.it/, http://showcase.eenvplus.eu/client/editor.htm, https://github.com/TEIC/romajs.

Délais et ressources :
  • Date de début / de fin: M7 à M45 ; durée : 39 mois
  • Ressources nécessaires :
    Ressources techniques : Espace de stockage MSH/HUMA-NUM puis HUMA-NUM
    RH : IGR ERIC recruté de M10 à M18 (T3) ; doctorant.e MARGE de M1 à M36 (T 2 et 3) ; doctorant.e ERIC recruté.e de M13 à M48 (T 3 et 4)

Livrables :
  • L.3.1. Publication du jeu de métadonnées pour l’indexation initiale.
  • L.3.2. Système de stockage des données
  • L.3.3. Modèle de métadonnées en (hyper)graphe
  • L.3.4. Système de stockage des métadonnées (complétion du lac de données)