Traitement automatique des textes versifiés

  • Dernière modification de la publication :27 mars 2023
  • Post category: Projet en cours

Constitution d’un corpus électronique de textes poétiques et théâtraux du début XVIIe au début du XXe siècle

Richard Renault

De nouveaux textes seront ajoutés afin d’étendre le corpus. Le schéma de validation du corpus sera revu et étendu afin de prendre en compte les annotations de l’analyse automatique. Un manuel d’encodage XML-TEI de textes versifiés est en préparation.

Outils d’analyse

Richard Renault

Traitement automatique

Richard Renault, avec la participation de Stéphane Ferrari

Afin de permettre la diffusion des résultats de l’analyse automatique, indépendamment de la consultation du site web Métrique en ligne, tous les relevés métriques seront mis à disposition sur le serveur GitLab de l’université, ainsi que sur le site web. L’ensemble des programmes et ressources seront mis également à disposition sous licence libre sur le serveur GitLab de l’université.

Des mises à jour du site devront être faites en fonction de l’extension du corpus et de l’analyse des données.

L’intégration de nouvelles procédures statistiques permettra également d’avoir une vue globale des analyses.

Les différents modules statistiques seront testés et évalués sur l’ensemble du corpus.

Le moteur de recherche dans le corpus du site web Métrique en ligne devra également être amélioré pour permettre des recherches plus sophistiquées à partir des différentes propriétés métriques identifiées par le traitement automatique.

L’analyse de la périodicité des formes strophiques sera poursuivie afin de prendre en compte les modules de strophe ainsi que les cas plus complexes d’articulation entre différentes suites périodiques.

Par ailleurs, le découpage des poèmes en sections et sous-sections sera également intégré dans l’analyse de la périodicité.

Analyse de la convergence

Richard Renault et Stéphane Ferrari

Afin de pouvoir traiter la convergence/divergence entre les unités métriques et la structuration syntaxique du texte, un module d’analyse syntaxique est nécessaire. Nous nous proposons de tester, et d’évaluer les différents outils d’analyse syntaxique disponible (SPACY, NLTK, CoreNLP, HOPS…).
Indépendamment de l’analyse syntaxique,l’analyse de la ponctuométrie rapportée aux unités métriques, ainsi que l’analyse de la distribution des mots-outils (prépositions, conjonctions, déterminant, pronoms clitiques…) en fin d’unités métriques permettra de fournir une première approche de l’étude de la convergence/divergence. Nous nous proposons également d’élargir et d’implémenter l’approche de Dell et Benini (2020) dont l’étude de la convergence/divergence est limitée aux distiques du théâtre classique.