Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Présentation du projet HIGH-TECH par Rayan Ziane (Ingénieur d’études)

12 octobre 2023 · 14h00 15h30

Objectifs du séminaire

Le séminaire vise à présenter le projet RIN HIGH-TECH (11/21-10/23), porté par le Professeur Pierre Larrivée au CRISCO. Le projet a pour objectif d’améliorer la gestion des vastes ensembles de données historiques en développant des méthodes d’annotation textuelle avancées. La méthode développée a ensuite été utilisée pour annoter un corpus de chroniques normandes couvrant huit siècles d’évolution linguistique (corpus CHRONIQUES). 

  • Nous montrerons les principes du projet, tout d’abord l’approche hybride, mêlant méthodes par apprentissage statistique avec un analyseur syntaxique automatique et méthodes par règles, ensuite l’adaptabilité de la chaîne de traitement et enfin la nature itérative du processus. Cette approche permet un traitement approfondi du corpus tout en restant économique, couvrant à la fois l’annotation en parties du discours, la lemmatisation et même les premières fonctions syntaxiques.

La création du corpus s’est appuyée sur des ressources et des compétences issues de projets antérieurs, tout en tenant compte des exigences scientifiques et de la disponibilité des outils nécessaires pour traiter un grand corpus dans des délais raisonnables.

  • Le corpus CHRONIQUES, annoté au format XML-TEI, est visualisable et interrogeable via le portail TXM du CRISCO qui permet des requêtes en CQL (corpus query language) et via un nouveau site du projet actuellement en cours de développement. Nous présenterons les deux outils et les requêtes qui permettent d’étudier l’évolution des structures syntaxiques ainsi que du vocabulaire en s’appuyant sur les métadonnées présentes dans les fichiers annotés. Parmi d’autres exemples de l’utilisation du corpus, nous citerons la possibilité d’explorer les noms propres mentionnés dans les chroniques et d’analyser l’agentivité des différents personnages historiques. Le corpus outillé facilite donc le repérage des phénomènes recherchés ainsi que la production d’études statistiques sur la totalité du corpus ou des textes sélectionnés par l’utilisateur.

Dans l’esprit de nos collaborations et échanges avec les collègues de l’équipe MICLE et les autres collègues au CRISCO et ainsi qu’avec les stagiaires qui avaient travaillé sur le projet au cours des deux dernières années, le séminaire et l’atelier d’exploration des corpus CHRONIQUES et MICLE prévu pour le 19 octobre, encourageront la participation et les retours des participants pouvant conduire à des développements continus pour améliorer la qualité des données et de la méthodologie existantes.

  • La validation des annotations automatiques participe à la mise en lumière des erreurs tout en contribuant à la constitution d’une nouvelle base de réentrainement de modèles pour l’annotation de corpus en diachronie. En regardant vers l’avenir, le séminaire évoquera la nécessité d’évaluer les performances des outils existants afin d’améliorer nos processus, ce qui représentera un des objectifs du nouveau projet RIN AUTOMATED qui  débutera au CRISCO en décembre 2023. 

Lieu :

Caen, campus 1, CRISCO, salle de documentation

esplanade de la Paix
Caen, 14053 France