Induire des grammaires à partir de treebanks
10 octobre 2024 · 14h00 – 16h00
Organisateur :
Crisco
Lieu :
Conférence de Sylvain Kahane (Modyco, Université Paris Nanterre & CNRS / IUF)
Travail en collaboration avec Santiago Herrera, Caio Corro, Bruno Guillaume et tous les membres du projet Autogramm
Résumé de la conférence
Les treebanks ou corpus arborés annotés, autrefois si utile comme moyen pour développer des outils de Traitement Automatique de Langues (TAL), restent toujours un élément majeur pour la linguistique théorique et la documentation des langues. Dans cette perspective, nous présenterons un des usages que nous faisons des treebanks, celui de l’extraction automatique d’observations quantitatives et de motifs grammaticaux. Ce questionnement sur l’induction de grammaires descriptives à partir de corpus annotés est au centre du projet ANR Autogramm (Modyco, Lacito, Lisn, Loria-Sémagram). Nous montrerons comment formaliser des règles de grammaires pour les extraire d’un treebank. Nous verrons aussi qu’il est possible d’extraire des grammaires contrastives, c’est-à-dire des règles ou des tendances qui caractérise un treebank (et donc une langue ou un état de langue) parmi un ensemble de langues. Nous montrerons également les limites de telles approches.