Présentation du dictionnaire électronique des synonymes

Le Dictionnaire électronique des synonymes du CRISCO (DÉS) contient aujourd’hui plus de 50 000 entrées et 209 000 relations synonymiques réciproques. La base de départ a été constituée à partir de sept dictionnaires classiques. Un premier travail, réalisé par l’INALF (Institut National de la Langue Française), a permis d’en extraire les relations synonymiques. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concaténé, homogénéisé et symétrisé les données. Depuis 1994, un important travail de correction se perpétue par l’ajout ou la suppression de liens synonymiques et antonymiques.

Après livraison des données de l’INALF, ce projet a démarré à l’ELSAP sous la responsabilité de Bernard VICTORRI, directeur de recherche, et Sabine PLOUX, ingénieure de recherche, qui ont défini et mis au point les principes de fonctionnement du dictionnaire : union des différentes ressources, symétrisation (générant plus de 50 % de relations supplémentaires), algorithme de calcul des cliques. La représentation spatiale de l’espace sémantique et sa projection sur un plan par calcul matriciel ont également été conçues et réalisées. Dans le même temps, de nombreuses corrections étaient apportées au DÉS par des salariés temporaires : Jean-Yves LACROIX, Nathalie MARY et Elsa MERMBERG.

De 1998 à 2007, le DÉS fut sous la responsabilité de Jean-Luc MANGUIN, ingénieur de recherche, qui l’a mis en ligne et a dirigé son évolution. Durant cette période, Corinne OZOUF a participé à l’enrichissement du DÉS en incluant de nouvelles entrées. Isma DIAB et Aminata NIANG ont développé les programmes de calcul des coordonnées de la visualisation. Jérôme GRIMAUD puis Erwan CALVEZ ont conçu l’interface Java de visualisation des espaces sémantiques. Cette partie du projet a été soutenue par le Comité Régional pour l’Imagerie et les Technologies de l’Information et de la Communication de Basse-Normandie qui a notamment financé les salariés.

De 2008 à 2017, le DÉS fut sous la responsabilité de Michel MOREL, ingénieur de recherche, jusqu’à sa retraite. Durant cette période, une nouvelle interface a été mise en place avec l’aide de Benoît BRARD et de plusieurs stagiaires : Fabien CUNY, Anthony PROVINI et Morgan BRASSEUR. Un programme de calcul des liens manquants probables à partir du graphe ainsi qu’une interface de proposition ont également été réalisés (voir suite de la Présentation du DÉS).

Depuis septembre 2017, le DÉS est sous la responsabilité de Laurette CHARDON, nouvelle ingénieure de recherche du CRISCO. Elle a enrichi la base de données en introduisant des dates d’insertion, développé le graphe d’adjacence en y insérant des algorithmes de regroupement en 2D et 3D, initié une nouvelle version avec le service développement du CERTIC, réécrit les programmes de maintenance en langage Python et développé de nouveaux pour la recherche et relancé la liste de diffusion des actualités (s’abonner).

Principe du DÉS

Le DÉS est un ensemble de mots et de liens ou relations de synonymie entre ces mots, quelles que soient les nuances d’emploi régissant ces relations. Autrement dit, les liens sont neutres et ont tous la même valeur.

Le DÉS est symétrique et contextuel : cela signifie que si un mot est synonyme d’un autre dans un contexte donné (une phrase), la réciproque est vraie. En d’autres termes, les liens ne sont pas orientés. Cette propriété découle de la définition de la synonymie en tant que substituabilité en contexte.

Lien vers le TLFi

Le DÉS propose une définition du mot recherché à l’aide d’un lien vers le TLFi, ressource librement consultable elle aussi.

Le lien sur “définition” reste sur le même onglet, il suffit de revenir en arrière pour retrouver le DÉS. Le lien sur le logo du CNRTL crée un nouvel onglet, qui reste le même ensuite.

Cliques

Une clique – terme emprunté à la théorie des graphes – est un ensemble maximal de mots tous synonymes entre eux. L’intérêt des cliques est qu’elles sont plus proches des concepts que les mots, car elles neutralisent partiellement la polysémie de ceux-ci, ne retenant idéalement qu’un sens donné, commun à tous les mots de la clique.

Les cliques permettent de situer des mots inconnus ou peu connus de l’utilisateur dans des unités de sens plus faciles à appréhender.

Des cliques voisines, qui ne diffèrent parfois que par un mot, peuvent présenter des nuances très fines. Certaines cliques sont tellement voisines que leur nuance n’apparaît pas pertinente, dans ce cas, elles suggèrent des liens oubliés entre les mots qui les différencient. C’est une des méthodes utilisées pour compléter le DÉS.

Ordre des synonymes

Les premiers synonymes sont classés par ordre de score, censé représenter la proximité avec la vedette. Le score calculé pour chaque synonyme est le taux de cliques auxquelles lui et la vedette appartiennent, par rapport à l’ensemble de leurs cliques. Les premiers synonymes sont donc par principe ceux qui partagent le plus de sens élémentaires avec la vedette.
Le calcul retenu, depuis 2015, se base sur le fait que la proximité sémantique entre un synonyme (S) et sa vedette (V) doit être la même que celle entre S’ et V’ avec S’ correspondant à V et V’ à S. La formule est donc :

Nb de cliques communes S et V (soit C ce nombre)
—————————————————————–
Nb total de cliques de V + Nb total de cliques de S –  C

Visualisation de l’espace sémantique

L’espace sémantique à n dimensions est projeté sur un plan par une méthode de calcul matriciel (analyse en composantes principales). Les cliques sont représentées par des points et les mots par des ensembles de points (les cliques auxquelles le mot appartient). Il est possible de modifier les axes de projection, afin de différencier les sens qui se trouveraient projetés trop près l’un de l’autre.

Rectifications orthographiques de 1990

Ces rectifications ont fait leur entrée dans le DÉS en avril 2012. Pour l’heure, nous avons fait passer 83 formes du statut de variante orthographique à celui de forme de référence. Il s’agit des plus populaires : principalement modifications é en è, ajout d’accents sur quelques e, régularisation d’exceptions.

Orientées vers la simplification et la suppression d’exceptions, particulièrement ambitieuses, ces rectifications concernent des centaines de mots ; dans le DÉS, nous avons compté 614 entrées susceptibles d’être touchées. Cette réforme controversée et finalement restée facultative n’a guère été suivie d’effets, que ce soit par les éditeurs de manuels scolaires, les lexicographes, les journalistes ou les écrivains. Néanmoins, elle entre peu à peu dans les habitudes et certaines formes sont devenues majoritaires : asséner, réfréner, clé, cuillère, règlement, etc. (voir articles de Wikipédia, Orthonet et l’Office québécois de la langue française).

Concernant le DÉS, en avril 2012, nous avons fait passer 56 formes du statut de variante orthographique à celui de forme de référence : principalement modifications é en è, ajout d’accents sur quelques e, régularisation d’exceptions. Nous avons ajouté 23 oublis en février 2013 puis les 4 formes touchant au tréma (arguer/argüer, ambiguïté/ambigüité, etc.) en 2016, soit 83 formes traitées à ce jour.

Pour les autres règles, notamment la suppression des accents circonflexes sur les i et les u et l’agglutination des mots composés, mis à part quelques cas, nous resterons prudents et n’interviendrons que si l’usage les valide. La suppression de nombreux accents circonflexes aurait d’importantes conséquences sur l’édition : on ne pourrait guère écrire de page sans que plusieurs rectifications s’appliquent. Quant à l’agglutination des mots composés, trop généralisée, elle risquerait d’aboutir à une perte de lisibilité. Le mot composé avec trait d’union indique déjà un figement lexical, retirer le trait d’union ne peut qu’enlever de l’information.

Entrée ancienneEntrée modifiée
abrégementabrègement
afféterieaffèterie
allégrementallègrement
ambiguïtéambigüité
amoncellementamoncèlement
arguerargüer
assenerasséner
belugabéluga
besiclesbésicles
bonhomiebonhommie
boursoufléboursoufflé
boursouflementboursoufflement
boursouflerboursouffler
boursouflureboursoufflure
cahutecahutte
chariotcharriot
clefclé
clef de voûteclé de voûte
combatifcombattif
combativitécombattivité
contiguïtécontigüité
contre-balancementcontrebalancement
contre-braquercontrebraquer
crémelécrèmelé
crémeriecrèmerie
cuillercuillère
dissousdissout
entre-jambeentrejambe
événementévènement
événement heureuxévènement heureux
événementielévènementiel
événementsévènements
exiguïtéexigüité
frisottantfrisotant
frisottéfrisoté
frisottementfrisotement
frisotterfrisoter
frisottisfrisotis
frou-froufroufrou
hébétementhébètement
hydro-électriquehydroélectrique
imbécillitéimbécilité
impresarioimprésario
interpellerinterpeler
joaillierjoailler
levrautlevreau
marguilliermarguiller
mariollemariole
mediamédia
nénupharnénufar
nénuphar blancnénufar blanc
papeteriepapèterie
persiflagepersifflage
persiflerpersiffler
persifleurpersiffleur
placeboplacébo
porte-clefsporte-clés
prud’hommeprudhomme
prud’homesqueprudhommesque
prud’homieprudhommie
punch (boisson)ponch
ravioli (pl.)raviolis
refrénéréfréné
refrénerréfréner
réglementrèglement
réglementairerèglementaire
réglementairementrèglementairement
réglementationrèglementation
réglementérèglementé
réglementerrèglementer
relaisrelai
revolverrévolver
sconcesconse
sécheressesècheresse
senestresénestre
seniorsénior
serpillièreserpillère
sorghosorgo
sotiesottie
speculumspéculum
toquadetocade
vénerievènerie
vetovéto
Liste des entrées modifiées

Absence de catégories grammaticales

Il serait intéressant de différencier les catégories grammaticales pour mieux regrouper les synonymes. Mais la réalisation de cette opération n’est pas simple : si les verbes sont assez faciles à séparer des autres catégories, (synonymes de boucher par exemple), la distinction adjectif / substantif est beaucoup plus délicate. Les risques d’erreurs sont importants. D’une part, un très bon catégoriseur est nécessaire pour effectuer la majorité du travail automatiquement : un oubli (une catégorie peu probable par exemple) risque de casser des liens synonymiques pourtant réels. D’autre part de nombreux problèmes peuvent surgir, notamment lorsque deux synonymes sont à la fois substantif et adjectif, ce qui est très fréquent : par exemple, faible (substantif) est synonyme de penchant (substantif), faible (adjectif) est synonyme de réduit (adjectif), mais faible (adjectif) n’est pas synonyme de penchant (adjectif) et faible (substantif) n’est pas synonyme de réduit (substantif). Quel traitement automatique peut le deviner ? Chaque cas doit donc être étudié et validé manuellement. Et ce n’est qu’un exemple du travail de titan qui est nécessaire avant de mettre en ligne cette fonctionnalité.

Pour l’heure, notre parti pris est de fournir un maximum de synonymes et de laisser à l’utilisateur le soin d’effectuer le tri.

Féminisation

Comme dans les autres dictionnaires, nous utilisons la forme canonique qui est l’infinitif pour les verbes et le masculin singulier pour les adjectifs. Ceci dit,  pour les noms, un problème se pose lorsqu’ils ont un rapport avec les personnes, notamment lorsqu’ils désignent une profession, une fonction, un titre, un grade. Certains de ces termes sont épicènes mais la plupart existent généralement au masculin et au féminin.

Comme dans les autres dictionnaires, nous utilisons la forme canonique qui est l’infinitif pour les verbes et le masculin singulier pour les adjectifs. Ceci dit, pour les noms, un problème se pose lorsqu’ils ont un rapport avec les personnes, notamment lorsqu’ils désignent une profession, une fonction, un titre, un grade. Certains de ces termes sont épicènes mais la plupart existent généralement au masculin et au féminin.

Dans les débuts du dictionnaire électronique des synonymes, certains de ces termes ne possédaient pas les mêmes synonymes au masculin et au féminin, avec une tendance machiste très nette, reflet du passé des dictionnaires d’origine. Par exemple, infirmier et infirmière ne partageaient pas un seul synonyme, alors qu’il s’agit bien du même métier.

Une première solution pouvait être de compléter les synonymes des deux genres, mais elle aurait conduit à une sorte de millefeuille, avec beaucoup de doublons et probablement beaucoup d’oublis. Nous avons préféré regrouper les synonymes masculins et féminins en choisissant dans un premier temps le masculin pour la vedette. Le résultat était déjà bien meilleur (mais il subsiste encore beaucoup de mots féminins dégradants, que nous traitons progressivement). Et depuis 2016, nous avons commencé à transformer l’orthographe pour faire apparaître les deux genres.

Comme vous l’avez deviné, ce n’est que le début, l’opération étant d’assez grande ampleur. Nous nous inspirons du guide d’aide à la féminisation des noms de métiers, titres, grades et fonctions de 1999, très étoffée et très réfléchie, que vous connaissez probablement. Pour chaque mot traité, nous établissons un lien permettant d’obtenir la réponse à partir de la forme masculine et de la forme féminine.

Mise à jour

L’évolution du DÉS se fait de deux manières.

D’une part grâce à la collaboration des utilisateurs, facilitée aujourd’hui par une interface de proposition. Avant sa mise en service, les suggestions représentaient un peu plus de 100 liens par an, auxquels s’ajoutaient par déduction environ 300 liens. L’interface de proposition a nettement augmenté ces chiffres, ce qui explique notre retard dans le traitement des propositions. La facilité d’utilisation de cette interface a eu pour conséquence négative une diminution du taux de propositions retenues, à 67 % contre 95 % avant sa mise en service. Malgré cette réduction du score, si l’on tient compte des liens déduits, l’interface de proposition nous permet d’ajouter environ 1000 liens par an. Les suggestions de suppression de lien – en petit nombre – sont plus rarement acceptées, car correspondant souvent à l’oubli d’un contexte par l’utilisateur.

D’autre part à partir du graphe du DÉS par un programme de calcul des liens manquants probables, basé sur une évaluation de la proximité sémantique (liée au taux de synonymes partagés par chaque paire de candidats). Une liste ordonnée est produite, commençant par les liens manquants les plus probables. Chaque suggestion est ensuite étudiée et validée ou non selon des critères lexicographiques. Les liens probables calculés par programme donnent un excellent résultat avec plus de 80 % de succès.

Validation des propositions

% retenues par année

Bilan des mises à jour

Total ajout, modif. par année

prop. = propositions des utilisateurs (+ CRISCO) et déductions
calc. = utilisation du logiciel de calcul des liens manquants probables

Validation des propositions

Bilan des mises à jour

Nous remercions toutes les personnes qui ont contribué au DÉS, les 908 personnes qui ont laissé leur nom, un pseudonyme ou anonymes.