Thématique 2 : recherche linguistique appliquée à des pratiques et à la production de ressources électroniques

Cet axe de recherche se consacre à la production, à l’exploitation et à la valorisation de ressources électroniques au service de l’analyse en Sciences du langage, en lien avec les humanités numériques ou le Traitement Automatique des Langues (TAL) ainsi que la didactique des langues. Il réunit différents projets portés par les membres du laboratoire, et les outils développés et disponibles en ligne. Il est coordonné par Natasha Romanova (post-doctorante), et organise régulièrement des journées d’études évoquant les projets en cours.

Le Dictionnaire électronique des synonymes (DÉS)

Présentation générale

Créé en 1994, le Dictionnaire Électronique des Synonymes (accès direct)  est un moteur de recherche permettant de trouver facilement les synonymes de plus de 50 000 entrées, pour plus de 200 000 relations synonymiques réciproques.

Sa mise à jour régulière est notamment assurée par Laurette Chardon, Ingénieure du CRISCO, qui augmente et améliore la base de données, corrige les erreurs résiduelles et ajoute après étude les propositions des utilisateurs.

Des améliorations et modifications sont en cours : en particulier, (i) un travail sur l’ajout des catégories grammaticales et du « nettoyage » des relations synonymiques pour améliorer la finesse des résultats ; (ii) une interface graphique en refonte grâce aux équipes du CERTIC ; (iii) des procédures de visualisation d’espace sémantique en trois dimensions pour l’exploitation des données.

Le DÉS possède une collection HAL (70 publications) ainsi que de nombreux documents de présentation (vidéos, tutoriels, …) utilisés lors de la Fête de la Science et publie une lettre d’actualités, à laquelle il est possible de s’abonner pour être tenu au courant des mises à jour régulières du site.

Projet MULTIDES

Le projet MULTIDES, porté par Chris Smith en association avec les équipes du laboratoire, envisage d’étendre le champ de recherche du DÉS à la langue anglaise dans un premier temps, à d’autres langues par la suite. Des tests préliminaires ont été conduits, et devraient se poursuivre au cours des prochains mois et des prochaines années.

En apprendre plus sur les développements du projet

Le projet MultiDES : premières réflexions sur la synonymie et étude de cas de synonymie translangue, 2020, Syntaxe et Sémantique

Traitement automatique des langues

Traitement automatique de textes versifiés

Le projet, porté par Richard Renault avec la collaboration de Stéphane Ferrari, propose un corpus de textes versifiés, des programmes d’analyse métrique et une base de données de relevés métriques générés automatiquement par ces programmes. Le corpus est au format XML-TEI et comporte environ 20 000 poèmes et 140 pièces de théâtre analysés. Le développement actuel du projet porte sur l’intégration d’un analyseur syntaxique afin de permettre le traitement de la convergence/divergence entre les unités métriques et la structuration syntaxique. Une première approche de cette problématique, fondée sur la ponctuométrie et sur la distribution des mots-outils, est également en préparation.

Analyse des décalages rythme/sens en poésie française

Ce projet, porté par Éliane Délente, également en collaboration avec Stéphane Ferrari, s’intéresse aux relations rythme / sens, et dans un premier temps, aux décalages tels que le rejet.

L’approche théorique se caractérise par : 1 – une analyse privilégiant les expressions elles-mêmes (métriques, prosodiques ou syntaxiques) à leur frontière ;  2 – un traitement temporel de l’information, unité après unité, progressivement, ce qui implique de rendre compte de légers ré-ajustement interprétatifs.

La méthode d’analyse se développe en deux temps :

  1. À partir du corpus Malherbe, constitution de sous-corpus ciblés grâce à l’extraction automatique d’éventuels décalages en s’appuyant sur la distribution des signes de ponctuation. Deux auteurs sont en cours d’analyse : Boileau, bon représentant d’une tendance contraignante à éviter les décalages ; Chénier, (ré-)introducteur après le classicisme, de décalages parfois brutaux, souvent aussi, atténués. Ultérieurement, seront ajoutés : Hugo qui, dans une intention déclarée, multiplie ces décalages et Verlaine qui exploite systématiquement toutes sortes de décalages aux frontières extrêmes du cadre 6+6. Un travail est en cours pour améliorer l’automatisation en étudiant d’autres indices que les signes de ponctuation.
  2. Élaboration d’une base de données de ces décalages. L’étude de leur force implique :
    • une description des paramètres à l’œuvre : période, genre, auteur, longueur métrique des vers, mètre, distribution dans la strophe, longueur rythmique du rejet, relations entre le rejet et son amont (contiguïté ou non du rejet avec le début, en amont, de son constituant ou de celui avec lequel il est le plus directement lié), relations entre le rejet et son aval (intégration ou non, dans son vers, de l’élément rejeté, et nature de l’intégration (syntaxique, prosodique, énonciative, sémantique, discursive, rhétorique, thématique, etc.)
    • un croisement de certains de ces paramètres.

Modélisation graphique des notices historiques du TLFi

Jacques François et Justine Reynaud (GREYC), en association avec Laurette Chardon, portent ce projet depuis plusieurs années (voir « Pour un retraitement informatisé et dynamique des notices historiques du TLFi », Cahiers de lexicologie Varia, n° 117, 2020 – 2, p. 55-92 / J. François 2021, « Les fluctuations historiques de la polysémie lexicale ». Travaux de linguistique n°81, p. 57-98. Ed. De Boeck supérieur).

En relation avec l’ATILF, il s’agit de reprendre l’annotation des métadonnées des fiches historiques du TLFi afin de normaliser et de convertir les informations en un format exploitable. Cette modélisation débouchera sur plusieurs formes de visualisation des données, permettant d’observer graphiquement les évolutions sémantiques des mots de la langue.

À terme, ces données pourraient être versées à la base de données du DÉS pour compléter son volet historique / étymologique.

Portail TXM

Le laboratoire s’est doté d’un portail TXM, autorisant l’exploration textométrique de différents corpus. Le corpus ConDÉ y est notamment disponible, ainsi que les versions bêta du corpus High-Tech (corpus de chroniques et traités historiques normands) et de la partie française du corpus MICLE (corpus diachronique de textes juridiques).

Projet CAENNAIS

Le projet CAENNAIS (Corpus Audio d’Étudiants Natifs et non-Natifs en InteractionS) est un projet pédagogique prévu pour la période d’octobre 2023 à septembre 2024 et réalisé par une équipe de recherche constituée de membres du Laboratoire CRISCO et des masterants de l’Université de Caen Normandie. Retrouvez-en les détails sur la page dédié.

Projet HIGH-TECH

Le projet HIGH-TECH, High-level text annotation across historical texts: improving semi-automatisation of big data management, porté par le CRISCO, est dirigé par Pierre Larrivée, il s’intéresse à l’importante tradition des chroniques normandes s’étendant sur six siècles. L’établissement d’une version numérique de ces textes est l’occasion d’optimiser la chaîne de traitement XML-TEI et d’annotation développée pour d’autres projets. En particulier, on entend faire avancer l’automatisation de l’annotation syntaxique et diffuser le protocole ainsi affiné pour accélérer son adoption par la communauté scientifique. L’ingénieur d’études du projet, Rayan Ziane, a présenté les tenants et aboutissants du projet au cours du conférence, dont on peut retrouver la vidéo ici. Le site d’interrogation a été déployé en novembre 2023, et est accessible à cette adresse.

Projet PIAMOT

Le projet PIAMOT élabore un nouveau clavier informatique dédié à la frappe rapide. Un projet de collaboration avec les équipes, dans le cadre de la production et de la valorisation de corpus d’entraînement pour enrichir la frappe prédictive du logiciel, est en discussion.

Projet VOVA

Le projet Vova, développé par Catharine Mason, est une plate-forme d’échange et de valorisation à la croisée de la linguistique, de l’anthropologie, de la musique et de la littérature.

Didactique des langues

La thématique “Didactique des langues” s’intéresse à la façon dont l’organisation du langage est au cœur de son enseignement et de son apprentissage. Elle définit lors de ce contrat un axe prioritaire d’action collective autour de l’enseignement actionnel de la grammaire. Elle est coordonnée par Pierre Larrivée (professeur).

Alors que l’approche actionnelle préconisée depuis plus de dix ans a été intégrée par les discours didactiques, son utilisation sur le terrain est rien moins que manifeste. Le travail collectif se réalise par la production de matériel pour l’enseignement actionnel de la grammaire à différents niveaux et pour différentes langues (français, anglais, espagnol, russe, allemand) ; par l’évaluation de ces matériaux par les membres du groupe, en lien avec les étudiants de Masters, les doctorants et les partenaires du monde de l’enseignement ; par la vérification de son efficacité sur différents terrains ; par la diffusion des démarches dans des publications de recherches-actions structurées, et dans des manuels d’enseignement (prévus initialement pour le russe et l’espagnol). Il s’appuie sur les conférences CRISCO, les chercheurs invités et le groupe de discussion se réunissant au moins trois fois par année. Il envisage une Journée d’étude et une conférence majeure sur la période.

Ce programme contribue à rapprocher les travaux didactiques des membres du laboratoire ; à encourager l’établissement et le partage de bonnes pratiques en promouvant l’adaptation dans les autres langues de matériaux développés pour le français, l’anglais, l’espagnol, le russe, l’allemand. Il actualise l’appui à la recherche à l’interne (rapport avec le département des Sciences de l’Éducation, le Carré International et l’INSPÉ) et internationalement (en lien avec d’autres laboratoires où la didactique est représentée, ainsi que les partenaires du projet Tempus). L’interaction avec les praticiens en didactique et le monde associatif est assurée par la diffusion des productions sur le site internet du laboratoire, et on se propose de contribuer à la formation des enseignants en exercice via le programme du Rectorat. Les résultats de ces interventions pourront être illustrés auprès du grand public en saisissant les opportunités de diffusion qui se dégageront lors du prochain contrat (Fête de la Science, grande presse).

Projets arrivés à complétion

Journées d’études de la thématique 2

Retrouver sur cette page le descriptif des journées d’études organisées par la thématique 2.