Modélisation de la structuration des textes : les séquences d’enchaînement

Ce projet interdisciplinaire s’inscrit dans le domaine de l’analyse textuelle et de l’exploration de grands corpus. Son originalité est double. Il s’agit d’une part d’intégrer une modélisation linguiste à des méthodes informatiques de fouille de données. D’autre part, les corpus visés sont des textes complexes, à savoir des textes à valeurs littéraires, sociologiques ou historiques.

Il s’agit de proposer une modélisation linguistique des schémas textuels, fondée sur les indices lexico-grammaticaux (constructions spécifiques, répétitions lexicales, densité lexicale, noms sous-spécifiés, réseaux phrastiques) ; cette modélisation linguistique doit pouvoir aider à comprendre la récursivité des séquences d’enchainement (Legallois, 2006), leur déploiement, la variation de la structure textuelle selon les genres (expositifs, argumentatifs, narratifs). Le projet consiste à enrichir les connaissances en linguistique textuelle, actuellement limitée à des unités réduites, en raison d’un manque d’outillage, tout en proposant des outils d’exploration des textes par leurs structures.

Porteurs : Dominique Legallois, maître de conférences HDR, Crisco, université de Caen Normandie ; Thierry Charnois, professeur en informatique, LIPN, Paris 13

Participants : Stéphane Ferrari, maître de conférences, Greyc, université de Caen Normandie ; Mathilde Salles, maître de conférences , Crisco, université de Caen Normandie ; Charlotte Roze, post-doctorante.

Temps

Lecture

1 minute