Chargement Évènements

« Tous les Évènements

L’intelligence artificielle pour l’analyse syntaxique : évaluation et adaptation de modèles

26 septembre 2024 · 14h00 16h00

Organisateur :

Crisco

Lieu :

Caen, campus 1, CRISCO, salle de documentation

esplanade de la Paix
Caen, 14053 France

Elisa Gouzonnat, Maxence Multin, Natasha Romanova et Rayan Ziane

Résumé du séminaire

En linguistique, la constitution de corpus annotés de taille moyenne et large, surtout en ce qui concerne les langues peu dotées et les langues en diachronie, représente toujours un défi considérable et souvent chronophage pour les chercheurs. L’avènement des outils d’apprentissage profond et de gros modèles de langues (LLM) a permis d’envisager la possibilité d’annotation de données massives de haute qualité à moindre coût. Notamment en syntaxe, les analyseurs automatiques (parsers) rendent possible une analyse en fonctions syntaxiques de haute qualité et l’adaptation de modèles à la langue, à la période, au genre textuel etc. du corpus traité.

Se basant sur les expériences récentes des projets High-Tech, MICLE et AUTOMATED menés au CRISCO depuis 2021 et sur les résultats d’un stage en M1 au printemps 2024, cette intervention va présenter, en premier lieu, les principes de l’utilisation des outils d’apprentissage profond pour la recherche en linguistique, ainsi que les premiers résultats de l’évaluation des différents parsers et systèmes de parsing menés par les stagiaires en M1. Deuxièmement, nous allons nous attarder sur l’analyse du processus de l’adaptation d’un modèle entraîné sur un corpus de français médiéval constitué de textes littéraires (Profiterole Old-French@2.14 et Profiterole Middle-French@2.14) pour l’annotation d’un texte juridique du 16ème.

Nous allons conclure sur une série de recommandations pour les linguistes et les étudiants qui seraient intéressés par l’intégration du parsing automatique ou d’autres outils d’apprentissage profond dans leur pratique de chercheurs.

A consulter avant le séminaire :

Outil d’analyse syntaxique automatique user-friendly UDPipe : https://lindat.mff.cuni.cz/services/udpipe/run.php

Le projet Universal Dependencies: https://universaldependencies.org/

Site Grew-Match (collection requêtable de corpus annotés en Universal Dependencies): https://universal.grew.fr/

Bibliographie

Grobol, L., & Crabbé, B. (2021). Analyse en dépendances du français avec des plongements contextualisés (French dependency parsing with contextualized embeddings). Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, 106-114. https://aclanthology.org/2021.jeptalnrecital-taln.9

Miletic A., Fabre C. & Stosic D. (2018). De la constitution d’un corpus arboré à l’analyse syntaxique du serbe. Revue TAL : traitement automatique des langues,.59 (3). pp.15-39. ⟨hal-02007248⟩

Peng Z., Gerdes K. & Guiller K. (2022). Pull your treebank up by its own bootstraps. Journées Jointes des Groupements de Recherche Linguistique Informatique, Formelle et de Terrain (LIFT) et Traitement Automatique des Langues (TAL), Nov 2022, Marseille, France. pp.139-153. ⟨hal-03846834⟩