Retour à l'accueil - Logo CRISCO

Centre de recherches inter-langues sur la signification en contexte · CRISCO · EA4255

Accueil > Le DES > Présentation du DES


Présentation du DES

Introduction

Le Dictionnaire Electronique des Synonymes du CRISCO (DES) contient aujourd’hui plus de 50 000 entrées et 209 000 relations synonymiques réciproques. La base de départ a été constituée à partir de sept dictionnaires classiques. Un premier travail, réalisé par l’INALF (Institut National de la Langue Française), a permis d’en extraire les relations synonymiques. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concaténé, homogénéisé et symétrisé les données. Depuis 1994, un important travail de correction se perpétue par l’ajout ou la suppression de liens synonymiques et antonymiques.
Bref historique du DES


Le principe du DES

Le DES est un ensemble de mots et de liens ou relations de synonymie entre ces mots, quelles que soient les nuances d’emploi régissant ces relations. Autrement dit, les liens sont neutres et ont tous la même valeur.
Le DES est symétrique et contextuel : cela signifie que si un mot est synonyme d’un autre dans un contexte donné (une phrase), la réciproque est vraie. En d’autres termes, les liens ne sont pas orientés. Cette propriété découle de la définition de la synonymie en tant que substituabilité en contexte.


Le lien vers le TLFi

Le DES propose une définition du mot recherché à l’aide d’un lien vers le TLFi, ressource librement consultable elle aussi.
Le lien sur "définition" reste sur le même onglet, il suffit de revenir en arrière pour retrouver le DES. Le lien sur le logo du CNRTL crée un nouvel onglet, qui reste le même ensuite.


Les cliques

Une clique - terme emprunté à la théorie des graphes - est un ensemble maximal de mots tous synonymes entre eux.
L’intérêt des cliques est qu’elles sont plus proches des concepts que les mots, car elles neutralisent partiellement la polysémie de ceux-ci, ne retenant idéalement qu’un sens donné, commun à tous les mots de la clique.
Les cliques permettent de situer des mots inconnus ou peu connus de l’utilisateur dans des unités de sens plus faciles à appréhender.
Des cliques voisines, qui ne diffèrent parfois que par un mot, peuvent présenter des nuances très fines. Certaines cliques sont tellement voisines que leur nuance n’apparaît pas pertinente, dans ce cas, elles suggèrent des liens oubliés entre les mots qui les différencient. C’est une des méthodes utilisées pour compléter le DES. Pour en savoir, consulter la section "espace sémantique".


L’ordre des synonymes

Les premiers synonymes sont classés par ordre de score, censé représenter la proximité avec la vedette. Le score calculé pour chaque synonyme est le taux de cliques auxquelles lui et la vedette appartiennent, par rapport à l’ensemble de leurs cliques. Les premiers synonymes sont donc par principe ceux qui partagent le plus de sens élémentaires avec la vedette.
Le calcul retenu, depuis 2015, se base sur le fait que la proximité sémantique entre un synonyme (S) et sa vedette (V) doit être la même que celle entre S' et V' avec S' conrrespondant à V et V' à S. La formule est donc :

Nb de cliques communes S et V (soit C ce nombre)
___________________________________________
Nb total de cliques de V + Nb total de cliques de S -  C


La visualisation de l’espace sémantique

L’espace sémantique à n dimensions est projeté sur un plan par une méthode de calcul matriciel (analyse en composantes principales). Les cliques sont représentées par des points et les mots par des ensembles de points (les cliques auxquelles le mot appartient). Il est possible de modifier les axes de projection, afin de différencier les sens qui se trouveraient projetés trop près l’un de l’autre.
Projet DidacDES : utilisation pédagogique de la visualisation en classes de CM1 et CM2.

En savoir plus


Les rectifications orthographiques de 1990

Ces rectifications ont fait leur entrée dans le DES en avril 2012. Pour l’heure, nous avons fait passer 83 formes du statut de variante orthographique à celui de forme de référence. Il s’agit des plus populaires : principalement modifications é en è, ajout d’accents sur quelques e, régularisation d’exceptions.
Voir article et liste des formes traitées


L’absence de catégories grammaticales

Il serait intéressant de différencier les catégories grammaticales pour mieux regrouper les synonymes. Mais la réalisation de cette opération n’est pas simple : si les verbes sont assez faciles à séparer des autres catégories, (synonymes de boucher par exemple), la distinction adjectif / substantif est beaucoup plus délicate. Les risques d’erreurs sont importants. D’une part, un très bon catégoriseur est nécessaire pour effectuer la majorité du travail automatiquement : un oubli (une catégorie peu probable par exemple) risque de casser des liens synonymiques pourtant réels. D’autre part de nombreux problèmes peuvent surgir, notamment lorsque deux synonymes sont à la fois substantif et adjectif, ce qui est très fréquent : par exemple, faible (substantif) est synonyme de penchant (substantif), faible (adjectif) est synonyme de réduit (adjectif), mais faible (adjectif) n’est pas synonyme de penchant (adjectif) et faible (substantif) n’est pas synonyme de réduit (substantif). Quel traitement automatique peut le deviner ? Chaque cas doit donc être étudié et validé manuellement. Et ce n’est qu’un exemple du travail de titan qui est nécessaire avant de mettre en ligne cette fonctionnalité.
Pour l’heure, notre parti pris est de fournir un maximum de synonymes et de laisser à l’utilisateur le soin d’effectuer le tri.

La féminisation

Comme dans les autres dictionnaires, nous utilisons la forme canonique qui est l'infinitif pour les verbes et le masculin singulier pour les adjectifs. Ceci dit,  pour les noms, un problème se pose lorsqu'ils ont un rapport avec les personnes, notamment lorsqu'ils désignent une profession, une fonction, un titre, un grade. Certains de ces termes sont épicènes mais la plupart existent généralement au masculin et au féminin. Lire la suite


Comment le DES est-il mis à jour ?

L’évolution du DES se fait de deux manières :
  • D’une part grâce à la collaboration des utilisateurs, facilitée aujourd’hui par une interface de proposition. Avant sa mise en service, les suggestions représentaient un peu plus de 100 liens par an, auxquels s’ajoutaient par déduction environ 300 liens. L’interface de proposition a nettement augmenté ces chiffres, ce qui explique notre retard dans le traitement des propositions. La facilité d’utilisation de cette interface a eu pour conséquence négative une diminution du taux de propositions retenues, à 67 % contre 95 % avant sa mise en service. Malgré cette réduction du score, si l’on tient compte des liens déduits, l’interface de proposition nous permet d’ajouter environ 1000 liens par an. Les suggestions de suppression de lien – en petit nombre – sont plus rarement acceptées, car correspondant souvent à l’oubli d’un contexte par l’utilisateur.
  • D’autre part à partir du graphe du DES par un programme de calcul des liens manquants probables, basé sur une évaluation de la proximité sémantique (liée au taux de synonymes partagés par chaque paire de candidats). Une liste ordonnée est produite, commençant par les liens manquants les plus probables. Chaque suggestion est ensuite étudiée et validée ou non selon des critères lexicographiques. Les liens probables calculés par programme donnent un excellent résultat avec plus de 80 % de succès.

Voir la page statistiques des propositions et bilan des mises à jour.

Publications portant sur le DES ou ses dérivés

 

 


Télécharger la page

Dernière modification : 30 janvier 2023



Université de Caen Normandie
Laboratoire CRISCO
Esplanade de la Paix | CS 14032 | 14032 Caen cedex 5