Retour à l'accueil - Logo CRISCO

Centre de recherches inter-langues sur la signification en contexte · CRISCO · EA4255

Accueil > La recherche > Axe 2 :recherche linguistique appliquée à des pratiques et à la production de ressources électroniques


Thématique 2 : recherche linguistique appliquée à des pratiques et à la production de ressources électroniques

Cet axe de recherche se consacre à la production, à l’exploitation et à la valorisation de ressources électroniques au service de l’analyse en Sciences du langage, en lien avec les humanités numériques ou le Traitement Automatique des Langues (TAL). Il réunit différents projets portés par les membres du laboratoire, et les outils développés et disponibles en ligne. Il est coordonné par Mathieu Goux (post-doctorant).

(Dernière mise à jour : septembre 2022)

1. Le Dictionnaire Électronique des Synonymes (DES)


Présentation générale (lien).
 
Créé en 1994, le Dictionnaire Électronique des Synonymes (accès direct)  est un moteur de recherche permettant de trouver facilement les synonymes de plus de 50 000 entrées, pour plus de 200 000 relations synonymiques réciproques
Sa mise à jour régulière est notamment assurée par Laurette Chardon, Ingénieure du CRISCO, qui augmente et améliore la base de données, corrige les erreurs résiduelles et ajoute après étude les propositions des utilisateurs.
Des améliorations et modifications sont en cours : en particulier, (i) un travail sur l’ajout des catégories grammaticales et du « nettoyage » des relations synonymiques pour améliorer la finesse des résultats ; (ii) une interface graphique en refonte grâce aux équipes du CERTIC (lien) ; (iii) des procédures de visualisation d’espace sémantique en trois dimensions pour l’exploitation des données.
Le DES possède de nombreux documents de présentation (vidéos, tutoriels, ...) utilisés lors de la Fête de la Science et publie une lettre d’actualités (lien), à laquelle il est possible de s’abonner pour être tenu au courant des mises à jour régulières du site.

Projet MULTIDES


Le projet MULTIDES, porté par Chris Smith en association avec les équipes du laboratoire, envisage d’étendre le champ de recherche du DES à la langue anglaise dans un premier temps, à d’autres langues par la suite. Des tests préliminaires ont été conduits, et devraient se poursuivre au cours des prochains mois et des prochaines années. Nous vous renvoyons notamment vers cet article paru en 2020 dans la revue Syntaxe et Sémantique pour en apprendre plus sur les développements du projet.

2. Traitement automatique des langues


Traitement automatique de textes versifiés


Le projet, porté par Richard Renault avec la collaboration de Stéphane Ferrari, propose un corpus de textes versifiés, des programmes d'analyse métrique et une base de données de relevés métriques générés automatiquement par ces programmes. Le corpus est au format XML-TEI et comporte environ 20 000 poèmes et 140 pièces de théâtre analysés. Le développement actuel du projet porte sur l'intégration d'un analyseur syntaxique afin de permettre le traitement de la convergence/divergence entre les unités métriques et la structuration syntaxique. Une première approche de cette problématique, fondée sur la ponctuométrie et sur la distribution des mots-outils, est également en préparation.
  • Site web du projet : accès direct.
  • Serveur GitLab du projet : accès direct.
  • Descriptif détaillé : document PDF (également dans la colonne à droite, sur cette page : "Renault_DescriptifProjetMetrique.pdf")

Analyse des décalages rythme/sens en poésie français


Ce projet, porté par Éliane Délente, également en collaboration avec Stéphane Ferrari, s’intéresse aux relations rythme / sens, et dans un premier temps, aux décalages tels que le rejet.
L’approche théorique se caractérise par : 1 - une analyse privilégiant les expressions elles-mêmes (métriques, prosodiques ou syntaxiques) à leur frontière ;  2 - un traitement temporel de l’information, unité après unité, progressivement, ce qui implique de rendre compte de légers ré-ajustement interprétatifs.

La méthode d’analyse se développe en deux temps :
  1. À partir du corpus Malherbe (lien), constitution de sous-corpus ciblés grâce à l’extraction automatique d’éventuels décalages en s’appuyant sur la distribution des signes de ponctuation. Deux auteurs sont en cours d’analyse : Boileau, bon représentant d’une tendance contraignante à éviter les décalages ; Chénier, (ré-)introducteur après le classicisme, de décalages parfois brutaux, souvent aussi, atténués. Ultérieurement, seront ajoutés : Hugo qui, dans une intention déclarée, multiplie ces décalages et Verlaine qui exploite systématiquement toutes sortes de décalages aux frontières extrêmes du cadre 6+6. Un travail est en cours pour améliorer l'automatisation en étudiant d'autres indices que les signes de ponctuation.
  2. Élaboration d’une base de données de ces décalages. L’étude de leur force implique :
  • une description des paramètres à l’oeuvre : période, genre, auteur, longueur métrique des vers, mètre, distribution dans la strophe, longueur rythmique du rejet, relations entre le rejet et son amont (contiguïté ou non du rejet avec le début, en amont, de son constituant ou de celui avec lequel il est le plus directement lié), relations entre le rejet et son aval (intégration ou non, dans son vers, de l’élément rejeté, et nature de l’intégration (syntaxique, prosodique, énonciative, sémantique, discursive, rhétorique, thématique, etc.)
  • un croisement de certains de ces paramètres.

Modélisation graphique des notices historiques du TLFi


Jacques François et Justine Reynaud (GREYC), en association avec Laurette Chardon, portent ce projet depuis plusieurs années (voir « Pour un retraitement informatisé et dynamique des notices historiques du TLFi », Cahiers de lexicologie Varia, n° 117, 2020 – 2, p. 55-92 / J. François 2021, « Les fluctuations historiques de la polysémie lexicale ». Travaux de linguistique n°81, p. 57-98. Ed. De Boeck supérieur).
En relation avec l’ATILF, il s’agit de reprendre l’annotation des métadonnées des fiches historiques du TLFi (lien) afin de normaliser et de convertir les informations en un format exploitable. Cette modélisation débouchera sur plusieurs formes de visualisation des données, permettant d’observer graphiquement les évolutions sémantiques des mots de la langue.
À terme, ces données pourraient être versées à la base de données du DES pour compléter son volet historique / étymologique.
 

Portail TXM


Le laboratoire s’est doté d’un portail TXM (accès direct), autorisant l’exploration textométrique de différents corpus. Le corpus ConDÉ (lien) y est notamment disponible, et d’autres corpus structurés en XML-TEI échoueront progressivement sur le portail.

Projet PIAMOT

 
Le projet PIAMOT (lien) élabore un nouveau clavier informatique dédié à la frappe rapide. Un projet de collaboration avec les équipes, dans le cadre de la production et de la valorisation de corpus d’entraînement pour enrichir la frappe prédictive du logiciel, est en discussion.

----

Ci-dessous, les projets de l'axe arrivés à complétion :

Télécharger la page

Dernière modification : 23 septembre 2022


Documents à télécharger :


Université de Caen Normandie
Laboratoire CRISCO
Esplanade de la Paix | CS 14032 | 14032 Caen cedex 5