T4 Fouille de données pour les réseaux complexes

Responsable : Julien Velcin (ERIC)

Objectifs :
  • Proposer des structurations originales de l’information pour enrichir l’expérience utilisateur

Équipes :
  • ERIC : J. Velcin, A. Guille, J. Jacques ;
  • MARGE : C. Cote, B. Hernandez-Marzal, A. Pantel, L. Perticoz

Travaux à réaliser :
  • Développement de modèles de catégorisation automatique des « entités » qui peuplent le Web littéraire francophone (ex. les auteurs, les sites Web, etc.). Ces modèles seront basés sur des techniques de classification non supervisées (clustering) à partir d’espaces de représentation adaptés, calculés à partir des données rendus disponibles par T3, à savoir la description des nœuds du graphe (méta-données et textes) et de leurs relations. Ces catégories seront rendues interprétables à l’aide d’une sélection automatisée des descripteurs (y compris textuels) jugés pertinents (DAVIDSON 2018).
  • Développement de modèles thématiques basés sur le contenu textuel des productions littéraires afin de découvrir les sujets de manière non supervisée et d’étudier leur diachronie. Les thématiques peuvent nourrir les modèles de catégorisation précédents et un effort est prévu pour les rendre compréhensibles par les utilisateurs de la plateforme grâce à des techniques d’étiquetage (VELCIN 2018).
  • Intégration de la sortie des différents modèles développés à l’entrepôt de données développé en T3 pour proposer des index originaux, donc de nouveaux modes de navigation dans le corpus.

Délais et ressources :
  • Date de début / fin : M10 à M45; durée : 36 mois
  • Ressources nécessaires :
    Ressources techniques: données et méta-données de T3
    RH : Doctorant.e. ERIC recruté.e de M13 à M48 (T3 et 4) et 2 stagiaires ERIC (6 mois)

Livrables :
  • L4.1 : revue de la littérature sur les derniers modèles et algorithmes permettant d’analyser des réseaux complexes à l’aide d’algorithmes de classification non supervisée (clustering) appliqués à des espaces de représentations adaptés
  • L4.2 : algorithme de détection de communauté adapté aux données hétérogènes du projet
  • L4.3 : algorithme de modélisation thématique adapté aux cas de données textuelles inscrites dans un graphe et description concise des thématiques découvertes
  • L4.4 : jeu de métadonnées déduit de la fouille de données.