T2 Corpus et collecte de données

Responsable : Christian Cote (MARGE)

Objectifs :
  • Identifier les ressources, collecter les données

Équipes :
  • MARGE : B. Hernandez-Marzal, A. Pantel, L. Perticoz, C. Cote ;
  • BnF : C. Genin, V. Tybin; ERIC: J.Jacques, A. Guille;
  • MSH Lyon-St-Etienne : Sonia Guerin-Hamdi

Travaux à réaliser :
  • Des enquêtes de pratiques pour questionner: 1) les pratiques des auteurs de littérature nativement numérique, 2) les usages pédagogiques que font les enseignants du secondaire de ce type de littérature et leurs attentes vis-à-vis de notre plateforme de micropublication et 3) les modalités d’insertion de la littérature nativement numérique dans le fonds des bibliothèques municipales et universitaires.
  • A partir des sites sélectionnés par la BnF dans le cadre du dépôt légal de l'internet, lancer une recherche web pour caractériser l’ensemble des ressources par auteur (à l’aide d’un protocole d’interrogation simple), voire découvrir d’autres auteurs à l’échelle de la francophonie.
  • À partir de ces URL identifiées, lancer des opérations de moissonnage en utilisant Heritrix (préalablement paramétré par l'équipe) voire NUTCH (résultats enregistrés en format WARC). Enrichir ces métadonnées par notre propre taxonomie, ce qui permettra une première structuration du corpus. Une collecte sera également effectuée en parallèle par la BnF, à des fins de conservation patrimoniale dans le cadre du dépôt légal.

Délais et ressources :
  • Date de début / de fin: M1 à M18 ; durée : 18 mois
  • Ressources nécessaires : Ressources techniques : Heritrix ; OPENREFINE /RH : IGR MARGE recruté de M3 à M15 (T2) ; Doctorant.e MARGE recruté.e de M1 à M36 (T2+3)

Livrables :
  • L2.1 Synthèse des enquêtes de pratiques des trois publics usagers identifiés
  • L.2.2. Méthodologie de collecte et premiers éléments de taxonomie