Ce projet interdisciplinaire s’inscrit dans le domaine de l’analyse textuelle et de l’exploration de grands corpus. Son originalité est double. Il s’agit d’une part d’intégrer une modélisation linguiste à des méthodes informatiques de fouille de données. D’autre part, les corpus visés sont des textes complexes, à savoir des textes à valeurs littéraires, sociologiques ou historiques.
Il s’agit de proposer une modélisation linguistique des schémas textuels, fondée sur les indices lexico-grammaticaux (constructions spécifiques, répétitions lexicales, densité lexicale, noms sous-spécifiés, réseaux phrastiques) ; cette modélisation linguistique doit pouvoir aider à comprendre la récursivité des séquences d’enchainement (Legallois, 2006), leur déploiement, la variation de la structure textuelle selon les genres (expositifs, argumentatifs, narratifs). Le projet consiste à enrichir les connaissances en linguistique textuelle, actuellement limitée à des unités réduites, en raison d’un manque d’outillage, tout en proposant des outils d’exploration des textes par leurs structures.
Porteurs : Dominique Legallois, maître de conférences HDR, Crisco, université de Caen Normandie ; Thierry Charnois, professeur en informatique, LIPN, Paris 13
Participants : Stéphane Ferrari, maître de conférences, Greyc, université de Caen Normandie ; Mathilde Salles, maître de conférences , Crisco, université de Caen Normandie ; Charlotte Roze, post-doctorante.