Retour à l'accueil - Logo CRISCO

Centre de recherches inter-langues sur la signification en contexte · CRISCO · EA4255

Accueil > Manifestations scientifiques > Manifestations passes


"Treebanks comme outils de description des langues" de Rayan ZIANE

le 29 septembre 2022
A 14 h
Par Rayan ZIANE (Ingénieur d'étude, CRISCO)


 

La construction et l’enrichissement d’un corpus est une tâche délicate, surtout quand il s’agit d’une langue privée de ressources et d’outils qui en facilitent le traitement. Mon idée principale est de démocratiser l'utilisation de la banque d'arbres syntaxique ou treebank comme un outil pratique et méthodologique pour la description de langue.

À l’heure actuelle, la majeure partie des recherches sur les banques d’arbres syntaxiques se fondent sur les langues très dotées, souvent contemporaines et écrites. Avec la diffusion de framework comme Universal Dependencies (UD), davantage de langues peuvent désormais être intégrées dans la démarche et on voit de plus en plus d’initiatives allant en ce sens. Dans ce cadre, nous proposons une chaîne de traitement pour le développement de treebank pour les langues peu dotées.  

Après une présentation générale du cadre de travail, je montrerai à travers les exemples de l’arabe tunisien, du bedja et de l'ancien/moyen français comment jouer avec le cadre, parfois en s'éloignant légèrement, afin de satisfaire différents besoins. 

Par exemple, cette chaîne de traitement peut revisiter l’unité minimale de recherche en syntaxe grâce à une segmentation morphologique. De nombreux linguistes de terrain disposent de données déjà analysées en gloses interlinéaires et sont prêts à enrichir leur corpus avec une annotation syntaxique. Il est de facto nécessaire d'offrir la possibilité d'une annotation, pouvant être basée sur les morphèmes, qui leur permettrait de conserver cette structure. D'autres chercheurs disposent d'enregistrements simplement transcrits ou de manuscrits numérisés. Je m'attarderai donc également sur l'étape primordiale qui est celle de la sélection de l’unité maximale d'analyse. Enfin, nous aspirons au dépassement de l’arbre syntaxique comme objet fermé pour mettre en valeur les dynamiques du discours. J'exposerai une piste d'annotation des chevauchements et des coénonciations en bénéficiant du système de métadonnées libre d’UD et de relations de dépendance entre les phrases/énoncés.

La présentation sera accompagnée d'un survol d'outils libres, ouverts, récents et maintenus permettant l'annotation et l'interrogation des ressources.

  
Lieu(x)
Caen - campus 1
Salle de documentation du CRISCO 

Télécharger la page

Dernière modification : 13 octobre 2022



Université de Caen Normandie
Laboratoire CRISCO
Esplanade de la Paix | CS 14032 | 14032 Caen cedex 5