Projet LIFRANUM

LIttératures FRAncophones NUMériques : identification, indexation et analyse des productions littéraires nativement numériques dans l’aire francophone


Objectifs et hypothèses de recherche


Les questions que nous posons concernent les pratiques littéraires nativement numériques. Comment les écrivains se servent-ils des nouveaux médias et dispositifs numériques ? Comment identifier leurs productions dans un champ qui bouleverse les protocoles usuels d’édition et donc de légitimation ? Quels outils critiques bâtir pour une analyse littéraire de ces contenus ? Quelles nouvelles sociabilités littéraires se construisent dans et par Internet (sites, blogs, réseaux sociaux) ? Qu’est-ce qu’un auteur à l’ère numérique ? Répondre à ces questions nécessite de trouver des outils pour décrire la création littéraire en ligne et l’indexer d’une manière la moins biaisée possible dans un système d’information qui servira de support aux analyses réalisées par les chercheurs en littérature et en information-communication.

Notre objectif sera d’examiner l’impact des modifications des supports de l’écrit sur les pratiques littéraires, tant du point de vue de l’écriture que de la lecture. Pour ce faire, le projet LIFRANUM se propose d’identifier et de structurer le corpus des littératures francophones numériques. Nous mettrons ensuite en place un dispositif permettant la recherche sur ce corpus : nous allons réaliser, grâce aux compétences numériques et informatiques représentées dans l'équipe scientifique, une plateforme de micropublication et prise de notes collaboratives. La plateforme sera constituée dans le respect du droit d'auteur et de la propriété intellectuelle, avec l'autorisation des titulaires des droits pour toute réutilisation des contenus. Cette plateforme permettra de produire des mini-textes finement balisés qui puissent être reliés les uns aux autres de façon algorithmique. Il sera ainsi possible d'identifier un texte du corpus (par exemple un billet de blog), d'en récupérer les métadonnées, de le commenter, l'annoter, et de partager ces notes avec les autres chercheurs. Les techniques de fouille de données utilisées permettront également de nouvelles navigations originales. Notre travail sera l'un des premiers outils d'e-science littéraire, qui contribuera à la légitimation d’une approche résolument poétique des productions numériques. L’enjeu est d’affirmer la pertinence de l’expertise littéraire dans le champ des Humanités numériques, mais aussi d’envisager l'évolution de la littérature dans la société.
Symétriquement, l'écrivain présent sur Internet repense à nouveaux frais la "chaîne du livre" et contribue à reformuler son statut, au cœur de nouvelles sociabilités dont la littérature, dans sa bascule numérique, se donnerait les moyens d'être l'épicentre.

Ce projet vise par ailleurs à bâtir une vision renouvelée car décentrée de l’aire francophone, saisie par le prisme des publications Web. D’un point de vue informatique, les travaux concernant les lacs de données [1] se sont pour l’instant focalisés sur les données structurées et semi-structurées, dont les métadonnées sont quasi-standardisées. De même, l’interrogation des données d’un lac peut faire appel à des types de données hétérogènes (relationnelles, XML, clé-valeur…). En revanche, la gestion des métadonnées de documents textuels et leur interrogation conjointe avec d’autres types d’information (tel que les relations qu’ils tissent via un réseau) n’a été abordée que superficiellement et constitue donc une contribution originale. Concernant la fouille de données, nous identifions trois principaux verrous. Le premier concerne la prise en compte de données de nature hétérogène (site, auteur, contribution) dans la construction d’espaces de représentation adaptés aux problématiques du projet. Le second problème concerne l’articulation entre le résultat des modèles d’analyse (ex. une catégorisation originale des auteurs ou des textes en thématiques) avec la structure d’indexation mise en place grâce au lac de données afin de les rendre pleinement exploitables par les utilisateurs. Le troisième verrou concerne la mise en lumière des raisons qui ont permis ces nouveaux modes de navigation dans les données (par similarité entre les textes, par communauté), inscrivant ce travail dans l’idée de rendre interprétables la sortie des algorithmes.

[1] Un lac de données est un système qui stocke des données hétérogènes, issues de plusieurs sources, dans leur format originel (afin qu’elles demeurent reconnaissables et intelligibles à leurs producteurs et utilisateurs), et permet aux utilisateurs de les explorer, de les interroger et de les analyser (Dixon, 2010). L’efficacité de ce type d’outil est dépendant de la gestion de métadonnées, dont certaines peuvent être générées de manière automatique.