Retour à l'accueil - Logo CRISCO

Centre de recherches inter-langues sur la signification en contexte · CRISCO · EA4255

Accueil > Manifestations scientifiques > Manifestations passées


Les modèles de sémantique distributionnelle peuvent-ils aider à détecter et interpréter les expressions polylexicales à partir de grands corpus ?

le 8 février 2018

par Guillaume DESAGULIER (Paris 8 - UMR 7114 moDyCo)


Les vecteurs lexicaux ont-ils leur place en linguistique de corpus ?
 

Deux modèles de sémantique distributionnelle fondés sur l’apprentissage profond et les réseaux neuronaux ont récemment suscité l’intérêt des linguistes : word2vec (Mikolov, Chen, et al. 2013 ; Mikolov, Yih, et al. 2013) et GloVe (Pennington et al. 2014). Sur la base d’un apprentissage réalisé sur de très grands corpus, ces algorithmes parviennent à générer des représentations lexicales distribuées de grande qualité. Ces représentations prennent la forme de vecteurs.

J’évalue dans quelle mesure les vecteurs lexicaux issus de l’intelligence artificielle peuvent se substituer aux formes traditionnelles d’annotation sémantique de jeux de données de grande taille. Je propose une étude de cas centrée sur l’annotation d’adjectifs dans des corpus de l’anglais. Je compare l’annotation vectorielle à l’annotation manuelle et semi-automatique.

Bien que les vecteurs lexicaux permettent de résoudre certains problèmes d’annotation sémantique à l’échelle du mot, leur utilisation est bien plus problématique à l’échelle des expressions pluri-lexicales. J’aborde deux problèmes sémantiques, i.e. la polysémie et la non-compositionnalité, et je propose des pistes pour leurs résolutions.

La présentation s’appuie sur une publication à paraître dans le courant de l’année 2018 : https://halshs.archives-ouvertes.fr/halshs-01657591/document
Lieu(x)
Caen - campus 1
SALLE DE DOCUMENTATION DU CRISCO A 14 H

Télécharger la page

Dernière modification : 21 décembre 2018



Université de Caen Normandie
Laboratoire CRISCO
Esplanade de la Paix | CS 14032 | 14032 Caen cedex 5