Thématique 2 : recherche linguistique appliquée à des pratiques et à la production de ressources électroniques

Mis à jour le 8 juillet 2025

Cet axe de recherche se consacre à la production, à l’exploitation et à la valorisation de ressources électroniques au service de l’analyse en Sciences du langage, en lien avec les humanités numériques ou le Traitement Automatique des Langues (TAL) ainsi que la didactique des langues. Il réunit différents projets portés par les membres du laboratoire, et les outils développés et disponibles en ligne. Il est coordonné par Natasha Romanova (post-doctorante), et organise régulièrement des journées d’études évoquant les projets en cours.

Le Dictionnaire électronique des synonymes (DÉS)
Traitement automatique des langues
Projet VOVA
Didactique des langues
Projets arrivés à complétion
Journées d’études de la thématique 2

Le Dictionnaire électronique des synonymes (DÉS)

Présentation générale

Créé en 1994, le Dictionnaire Électronique des Synonymes (accès direct) est un moteur de recherche permettant de trouver facilement les synonymes de plus de 50 000 entrées, pour plus de 200 000 relations synonymiques réciproques.

Sa mise à jour régulière est notamment assurée par Laurette Chardon, Ingénieure du CRISCO, qui augmente et améliore la base de données, corrige les erreurs résiduelles et ajoute après étude les propositions des utilisateurs.

Des améliorations et modifications sont en cours : en particulier, (i) un travail sur l’ajout des catégories grammaticales et du « nettoyage » des relations synonymiques pour améliorer la finesse des résultats ; (ii) une interface graphique en refonte grâce aux équipes du CERTIC ; (iii) des procédures de visualisation d’espace sémantique en trois dimensions pour l’exploitation des données.

Le DÉS possède une collection HAL (70 publications) ainsi que de nombreux documents de présentation (vidéos, tutoriels, …) utilisés lors de la Fête de la Science et publie une lettre d’actualités, à laquelle il est possible de s’abonner pour être tenu au courant des mises à jour régulières du site.

En savoir plus sur le DÉS

Projet MULTIDES

Le projet MULTIDES, porté par Chris Smith en association avec les équipes du laboratoire, envisage d’étendre le champ de recherche du DÉS à la langue anglaise dans un premier temps, à d’autres langues par la suite. Des tests préliminaires ont été conduits, et devraient se poursuivre au cours des prochains mois et des prochaines années.

En apprendre plus sur les développements du projet

Le projet MultiDES : premières réflexions sur la synonymie et étude de cas de synonymie translangue, 2020, Syntaxe et Sémantique

Traitement automatique des langues

Traitement automatique de textes versifiés

Le projet, porté par Richard Renault avec la collaboration de Stéphane Ferrari, propose un corpus de textes versifiés, des programmes d’analyse métrique et une base de données de relevés métriques générés automatiquement par ces programmes. Le corpus est au format XML-TEI et comporte environ 20 000 poèmes et 140 pièces de théâtre analysés. Le développement actuel du projet porte sur l’intégration d’un analyseur syntaxique afin de permettre le traitement de la convergence/divergence entre les unités métriques et la structuration syntaxique. Une première approche de cette problématique, fondée sur la ponctuométrie et sur la distribution des mots-outils, est également en préparation.

Site web du projet

Serveur GitLab du projet

Descriptif détaillé

Analyse des décalages rythme/sens en poésie française

Ce projet, porté par Éliane Délente, également en collaboration avec Stéphane Ferrari, s’intéresse aux relations rythme / sens, et dans un premier temps, aux décalages tels que le rejet.

L’approche théorique se caractérise par : 1 – une analyse privilégiant les expressions elles-mêmes (métriques, prosodiques ou syntaxiques) à leur frontière ; 2 – un traitement temporel de l’information, unité après unité, progressivement, ce qui implique de rendre compte de légers ré-ajustement interprétatifs.

La méthode d’analyse se développe en deux temps :

À partir du corpus Malherbe, constitution de sous-corpus ciblés grâce à l’extraction automatique d’éventuels décalages en s’appuyant sur la distribution des signes de ponctuation. Deux auteurs sont en cours d’analyse : Boileau, bon représentant d’une tendance contraignante à éviter les décalages ; Chénier, (ré-)introducteur après le classicisme, de décalages parfois brutaux, souvent aussi, atténués. Ultérieurement, seront ajoutés : Hugo qui, dans une intention déclarée, multiplie ces décalages et Verlaine qui exploite systématiquement toutes sortes de décalages aux frontières extrêmes du cadre 6+6. Un travail est en cours pour améliorer l’automatisation en étudiant d’autres indices que les signes de ponctuation.
Élaboration d’une base de données de ces décalages. L’étude de leur force implique :
- une description des paramètres à l’œuvre : période, genre, auteur, longueur métrique des vers, mètre, distribution dans la strophe, longueur rythmique du rejet, relations entre le rejet et son amont (contiguïté ou non du rejet avec le début, en amont, de son constituant ou de celui avec lequel il est le plus directement lié), relations entre le rejet et son aval (intégration ou non, dans son vers, de l’élément rejeté, et nature de l’intégration (syntaxique, prosodique, énonciative, sémantique, discursive, rhétorique, thématique, etc.)
- un croisement de certains de ces paramètres.

Modélisation graphique des notices historiques du TLFi

Jacques François et Justine Reynaud (GREYC), en association avec Laurette Chardon, portent ce projet depuis plusieurs années (voir « Pour un retraitement informatisé et dynamique des notices historiques du TLFi », Cahiers de lexicologie Varia, n° 117, 2020 – 2, p. 55-92 / J. François 2021, « Les fluctuations historiques de la polysémie lexicale ». Travaux de linguistique n°81, p. 57-98. Ed. De Boeck supérieur).

En relation avec l’ATILF, il s’agit de reprendre l’annotation des métadonnées des fiches historiques du TLFi afin de normaliser et de convertir les informations en un format exploitable. Cette modélisation débouchera sur plusieurs formes de visualisation des données, permettant d’observer graphiquement les évolutions sémantiques des mots de la langue.

À terme, ces données pourraient être versées à la base de données du DÉS pour compléter son volet historique / étymologique.

Portail TXM

Le laboratoire s’est doté d’un portail TXM, autorisant l’exploration textométrique de différents corpus. Le corpus ConDÉ y est notamment disponible, ainsi que les versions bêta du corpus High-Tech (corpus de chroniques et traités historiques normands) et de la partie française du corpus MICLE (corpus diachronique de textes juridiques).

Projet VOLI

Le projet VOLI (Voices from Online Labour: Inequalities in Digital Earning Activities Across Countries) est un projet de recherche pluridisciplinaire de quatre ans, financé par l’Agence Nationale de la Recherche (ANR) et lancé en 2024. Dirigé par Paola Tubaro (CREST/CNRS), il s’intéresse à l’impact du micro-travail numérique — de petites tâches en ligne telles que l’enregistrement vocal, l’annotation de données ou la transcription — sur les inégalités sociales liées au genre, à la race et à la localisation géographique. Ce projet rassemble des spécialistes en sociologie, linguistique et intelligence artificielle afin d’étudier les liens entre les plateformes de travail en ligne et les inégalités sociales. Yaru Wu (Unicaen-CRISCO) est partenaire de ce projet. Le rôle de CRISCO porte sur l’analyse phonétique des variations dans la parole des micro-travailleurs.

Projet CAENNAIS

Le projet CAENNAIS (Corpus Audio d’Étudiants Natifs et non-Natifs en InteractionS) est un projet pédagogique prévu pour la période d’octobre 2023 à septembre 2024 et réalisé par une équipe de recherche constituée de membres du Laboratoire CRISCO et des masterants de l’Université de Caen Normandie. Retrouvez-en les détails sur la page dédié.

Projet HIGH-TECH

Le projet HIGH-TECH, High-level text annotation across historical texts: improving semi-automatisation of big data management, porté par le CRISCO, est dirigé par Pierre Larrivée, il s’intéresse à l’importante tradition des chroniques normandes s’étendant sur six siècles. L’établissement d’une version numérique de ces textes est l’occasion d’optimiser la chaîne de traitement XML-TEI et d’annotation développée pour d’autres projets. En particulier, on entend faire avancer l’automatisation de l’annotation syntaxique et diffuser le protocole ainsi affiné pour accélérer son adoption par la communauté scientifique. L’ingénieur d’études du projet, Rayan Ziane, a présenté les tenants et aboutissants du projet au cours du conférence, dont on peut retrouver la vidéo ici. Le site d’interrogation a été déployé en novembre 2023, et est accessible à cette adresse.

Projet PIAMOT

Le projet PIAMOT élabore un nouveau clavier informatique dédié à la frappe rapide. Un projet de collaboration avec les équipes, dans le cadre de la production et de la valorisation de corpus d’entraînement pour enrichir la frappe prédictive du logiciel, est en discussion.

Projet VOVA

Le projet Vova, développé par Catharine Mason, est une plate-forme d’échange et de valorisation à la croisée de la linguistique, de l’anthropologie, de la musique et de la littérature.

Didactique des langues

La thématique « Didactique des langues » s’intéresse à la façon dont l’organisation du langage est au cœur de son enseignement et de son apprentissage. Elle définit lors de ce contrat un axe prioritaire d’action collective autour de l’enseignement actionnel de la grammaire. Elle est coordonnée par Pierre Larrivée (professeur).

Alors que l’approche actionnelle préconisée depuis plus de dix ans a été intégrée par les discours didactiques, son utilisation sur le terrain est rien moins que manifeste. Le travail collectif se réalise par la production de matériel pour l’enseignement actionnel de la grammaire à différents niveaux et pour différentes langues (français, anglais, espagnol, russe, allemand) ; par l’évaluation de ces matériaux par les membres du groupe, en lien avec les étudiants de Masters, les doctorants et les partenaires du monde de l’enseignement ; par la vérification de son efficacité sur différents terrains ; par la diffusion des démarches dans des publications de recherches-actions structurées, et dans des manuels d’enseignement (prévus initialement pour le russe et l’espagnol). Il s’appuie sur les conférences CRISCO, les chercheurs invités et le groupe de discussion se réunissant au moins trois fois par année. Il envisage une Journée d’étude et une conférence majeure sur la période.

Ce programme contribue à rapprocher les travaux didactiques des membres du laboratoire ; à encourager l’établissement et le partage de bonnes pratiques en promouvant l’adaptation dans les autres langues de matériaux développés pour le français, l’anglais, l’espagnol, le russe, l’allemand. Il actualise l’appui à la recherche à l’interne (rapport avec le département des Sciences de l’Éducation, le Carré International et l’INSPÉ) et internationalement (en lien avec d’autres laboratoires où la didactique est représentée, ainsi que les partenaires du projet Tempus). L’interaction avec les praticiens en didactique et le monde associatif est assurée par la diffusion des productions sur le site internet du laboratoire, et on se propose de contribuer à la formation des enseignants en exercice via le programme du Rectorat. Les résultats de ces interventions pourront être illustrés auprès du grand public en saisissant les opportunités de diffusion qui se dégageront lors du prochain contrat (Fête de la Science, grande presse).

Projets arrivés à complétion

le projet Ressources linguistiques pour le finnois ;
l’outil de synthèse vocale Kali sur l’anglais, le français et le wolof.

Journées d’études de la thématique 2

Retrouver sur cette page le descriptif des journées d’études organisées par la thématique 2.

Cookie	Type	Durée	Description
__Secure-YEC	tiers	13 mois	Le cookie « __Secure-YEC » est utilisé pour détecter les spams, les fraudes et les abus afin de garantir que les annonceurs ne soient pas facturés à tort pour des impressions ou des interactions frauduleuses ou invalides avec les publicités, et que les créateurs YouTube participant au programme Partenaire YouTube soient rémunérés de manière équitable.
_pk_id.*	persistant	1 an 27 jours	Utilisé par Matomo pour stocker des informations sur l’utilisateur, telles que l’identifiant unique du visiteur.
_pk_ref*	persitant	6 mois	Utilisé par Matomo pour stocker les informations d’attribution, le référent initialement utilisé pour visiter le site Web.
_pk_ses.*	session	30 minutes	Cookies de courte durée utilisés par Matomo pour stocker temporairement les données de la visite.
_pk_testcookie_domain	session	moins d'une minute	Utilisé par Matomo pour vérifier si le navigateur du visiteur prend en charge les cookies.
affluenceswebapi_ga	tiers	session	Les widgets web (webAPI) ont pour objectif de diffuser les informations d'affluence (taux d'occupation, horaires, temps d'attente) sur des sites web tiers. Un tag Google Analytics est intégré à cette webAPI afin de mesurer le nombre de consultations des outils pour assurer leur bon fonctionnement et pertinence. - Aucune donnée personnelle n'est traitée, consultée ou stockée via l'utilisation des webAPIs et du tag Google Analytics - Les adresses IP des utilisateurs sont anonymisées afin de garantir leur confidentialité
affluenceswebapi_ga_0DZGM777JP	tiers	session	Les widgets web (webAPI) ont pour objectif de diffuser les informations d'affluence (taux d'occupation, horaires, temps d'attente) sur des sites web tiers. Un tag Google Analytics est intégré à cette webAPI afin de mesurer le nombre de consultations des outils pour assurer leur bon fonctionnement et pertinence. - Aucune donnée personnelle n'est traitée, consultée ou stockée via l'utilisation des webAPIs et du tag Google Analytics - Les adresses IP des utilisateurs sont anonymisées afin de garantir leur confidentialité
BIGipServer*	session	session	Le cookie BIGipServer* est principalement utilisé pour l'équilibrage de charge. Lorsqu'un utilisateur accède à un site web ou à une application qui utilise des dispositifs F5 BIG-IP, ce cookie aide à diriger les requêtes de l'utilisateur vers le même serveur backend pour la durée de la session. Cela assure la cohérence et la continuité de la session utilisateur.
cli_user_preference	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. L'objectif de ce cookie est d'enregistrer si l'utilisateur a donné ou non son consentement à l'utilisation des cookies. Il ne stocke aucune donnée personnelle.
cookielawinfo-checkbox-fonctionnel	persistant	1 an	Le cookie est défini par le consentement du cookie GDPR pour enregistrer le consentement de l'utilisateur pour les cookies dans la catégorie «Fonctionnel».
cookielawinfo-checkbox-necessaire	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-publicite	persistant	1 an	Défini par le plugin de consentement aux cookies GDPR, ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie «Publicité».
CookieLawInfoConsent	persistant	1 an	CookieYes définit ce cookie pour enregistrer l'état du bouton par défaut de la catégorie correspondante et le statut du CCPA. Il fonctionne uniquement en coordination avec le cookie principal.
csrftoken	tiers	1 an	Ce cookie est associé à la plate-forme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes entre sites.
dmvk	tiers	session	Clé vidéo aléatoire utilisée pour empêcher l’interruption de la vidéo regardée par un utilisateur final lorsqu’il navigue entre les réseaux de différents fournisseurs d’accès Internet.
PHPSESSID	session	session	Ce cookie est natif des applications PHP. Le cookie est utilisé pour stocker et identifier l'identifiant de session unique d'un utilisateur dans le but de gérer la session utilisateur sur le site Web. Le cookie est un cookie de session et est supprimé lorsque toutes les fenêtres du navigateur sont fermées.
pll_language	persistant	1 an	Le cookie pll _language est utilisé par Polylang pour se souvenir de la langue sélectionnée par l'utilisateur lorsqu'il revient sur le site web, et également pour obtenir des informations sur la langue lorsqu'elles ne sont pas disponibles d'une autre manière.
ts	tiers	13 mois	Il s'agit d'un cookie mis en place par Dailymotion. Cookie de segment de trafic utilisé principalement pour le déploiement progressif, une fonctionnalité technique critique qui empêche les pannes de service massives pendant la mise en œuvre de nouveaux développements ou de nouvelles fonctionnalités.
usprivacy	tiers	13 mois	Il s'agit d'un cookie de consentement mis en place par Dailymotion pour stocker la chaîne de consentement CCPA (informations obligatoires sur le fait qu'un utilisateur final est ou n'est pas un consommateur californien et qu'il exerce ou n'exerce pas son droit statutaire).
v1st	tiers	13 mois	Il s’agit de votre identifiant numérique unique sur le Service Dailymotion. Il est utilisé pour délivrer le Service Dailymotion, et, en particulier pour : – la détection et la prévention des fraudes ; – la sécurité du Service Dailymotion ; – le respect des obligations légales (par exemple, l’obligation de réponse aux réquisitions judiciaires en matière d’accès aux vidéos) ; – l’identification de l’âge d’un utilisateur final
viewed_cookie_policy	persistant	1 an	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
VISITOR_PRIVACY_METADATA	tiers	6 mois	YouTube définit ce cookie pour enregistrer le consentement de l'utilisateur à l'utilisation de cookies pour le domaine actuel.
wordpress_test_cookie	session	session	Ce cookie est utilisé par WordPress pour vérifier si les cookies sont activés dans le navigateur de l’utilisateur.
wp_lang	session	session	Pour enregistrer les paramètres linguistiques.

Cookie	Type	Durée	Description
__Secure-ROLLOUT_TOKEN	tiers	6 mois	__Secure-ROLLOUT_TOKEN est utilisé par YouTube pour gérer le déploiement progressif de nouvelles fonctionnalités et mises à jour. Ce cookie permet d'affecter les utilisateurs à des groupes de test spécifiques pour des fonctionnalités expérimentales, telles que des modifications de l'interface utilisateur ou du lecteur vidéo. Le préfixe __Secure- indique que le cookie est uniquement transmis via une connexion HTTPS sécurisée, ce qui renforce la sécurité des données.
test_cookie	tiers	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
VISITOR_INFO1_LIVE	tiers	5 mois 27 jours	Un cookie mis en place par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	tiers	session	Le cookie YSC est mis en place par Youtube et est utilisé pour suivre les vues des vidéos intégrées sur les pages Youtube.
yt.innertube::nextId	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.
yt.innertube::requests	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.

Cookie	Type	Durée	Description
_42b19	session	session	Il permet de stocker des informations temporaires spécifiques à la session de l'utilisateur, telles que les préférences de navigation, les choix ou les paramètres spécifiques, afin de fournir une expérience utilisateur cohérente et personnalisée. Ce cookie est essentiel pour assurer le bon fonctionnement de certaines fonctionnalités du site web pendant la session active et est supprimé automatiquement lorsque l'utilisateur ferme son navigateur.
activeCollapseAside	session	session	Le cookie activeCollapseAside permet de sauvegarder l'état d'un panneau latéral ou d'une barre latérale.
NEXT_LOCALE	persitant	1 an	Il permet de stocker la langue locale préférée de l'utilisateur et de la récupérer lors de ses visites ultérieures sur le site.
yt-remote-cast-available	tiers	session	Le cookie yt-remote-cast-available est utilisé pour enregistrer les préférences de l'utilisateur concernant la disponibilité de la fonction de diffusion sur son lecteur vidéo YouTube.
yt-remote-cast-installed	tiers	session	Le cookie yt-remote-cast-installed est utilisé pour stocker les préférences de l'utilisateur en matière de lecteur vidéo à l'aide d'une vidéo YouTube intégrée.
yt-remote-connected-devices	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-device-id	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-fast-check-period	tiers	session	Le cookie yt-remote-fast-check-period est utilisé par YouTube pour enregistrer les préférences de l'utilisateur concernant le lecteur vidéo pour les vidéos YouTube intégrées.
yt-remote-session-app	tiers	session	Le cookie yt-remote-session-app est utilisé par YouTube pour stocker les préférences de l'utilisateur et les informations relatives à l'interface du lecteur vidéo YouTube intégré.
yt-remote-session-name	tiers	session	Le cookie yt-remote-session-name est utilisé par YouTube pour enregistrer les préférences de l'utilisateur concernant le lecteur vidéo à l'aide d'une vidéo YouTube intégrée.
ytidb::LAST_RESULT_ENTRY_KEY	tiers	jamais	Le cookie ytidb::LAST_RESULT_ENTRY_KEY est utilisé par YouTube pour stocker le dernier résultat de recherche sur lequel l'utilisateur a cliqué. Ces informations sont utilisées pour améliorer l'expérience utilisateur en fournissant des résultats de recherche plus pertinents à l'avenir.