Présentation du dictionnaire électronique des synonymes
Présentation du dictionnaire électronique des synonymes
Le Dictionnaire électronique des synonymes du CRISCO (DÉS) contient aujourd’hui plus de 50 000 entrées et 209 000 relations synonymiques réciproques. La base de départ a été constituée à partir de sept dictionnaires classiques. Un premier travail, réalisé par l’INALF (Institut National de la Langue Française), a permis d’en extraire les relations synonymiques. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concaténé, homogénéisé et symétrisé les données. Depuis 1994, un important travail de correction se perpétue par l’ajout ou la suppression de liens synonymiques et antonymiques.
Après livraison des données de l’INALF, ce projet a démarré à l’ELSAP sous la responsabilité de Bernard VICTORRI, directeur de recherche, et Sabine PLOUX, ingénieure de recherche, qui ont défini et mis au point les principes de fonctionnement du dictionnaire : union des différentes ressources, symétrisation (générant plus de 50 % de relations supplémentaires), algorithme de calcul des cliques. La représentation spatiale de l’espace sémantique et sa projection sur un plan par calcul matriciel ont également été conçues et réalisées. Dans le même temps, de nombreuses corrections étaient apportées au DÉS par des salariés temporaires : Jean-Yves LACROIX, Nathalie MARY et Elsa MERMBERG.
De 1998 à 2007, le DÉS fut sous la responsabilité de Jean-Luc MANGUIN, ingénieur de recherche, qui l’a mis en ligne et a dirigé son évolution. Durant cette période, Corinne OZOUF a participé à l’enrichissement du DÉS en incluant de nouvelles entrées. Isma DIAB et Aminata NIANG ont développé les programmes de calcul des coordonnées de la visualisation. Jérôme GRIMAUD puis Erwan CALVEZ ont conçu l’interface Java de visualisation des espaces sémantiques. Cette partie du projet a été soutenue par le Comité Régional pour l’Imagerie et les Technologies de l’Information et de la Communication de Basse-Normandie qui a notamment financé les salariés.
De 2008 à 2017, le DÉS fut sous la responsabilité de Michel MOREL, ingénieur de recherche, jusqu’à sa retraite. Durant cette période, une nouvelle interface a été mise en place avec l’aide de Benoît BRARD et de plusieurs stagiaires : Fabien CUNY, Anthony PROVINI et Morgan BRASSEUR. Un programme de calcul des liens manquants probables à partir du graphe ainsi qu’une interface de proposition ont également été réalisés (voir suite de la Présentation du DÉS).
Depuis septembre 2017, le DÉS est sous la responsabilité de Laurette CHARDON, nouvelle ingénieure de recherche du CRISCO. Deux projets sont en cours :
l’un concernant un affichage plus moderne de l’espace sémantique (l’affichage actuel en java n’est plus toujours possible selon la politique de sécurité des navigateurs web) réalisé par Arthur BATY.
l’autre concernant un développement sous android du DÉS par Boris DELACOUR.
Principe du DÉS
Le DÉS est un ensemble de mots et de liens ou relations de synonymie entre ces mots, quelles que soient les nuances d’emploi régissant ces relations. Autrement dit, les liens sont neutres et ont tous la même valeur.
Le DÉS est symétrique et contextuel : cela signifie que si un mot est synonyme d’un autre dans un contexte donné (une phrase), la réciproque est vraie. En d’autres termes, les liens ne sont pas orientés. Cette propriété découle de la définition de la synonymie en tant que substituabilité en contexte.
Lien vers le TLFi
Le DÉS propose une définition du mot recherché à l’aide d’un lien vers le TLFi, ressource librement consultable elle aussi.
Le lien sur “définition” reste sur le même onglet, il suffit de revenir en arrière pour retrouver le DÉS. Le lien sur le logo du CNRTL crée un nouvel onglet, qui reste le même ensuite.
Cliques
Une clique – terme emprunté à la théorie des graphes – est un ensemble maximal de mots tous synonymes entre eux. L’intérêt des cliques est qu’elles sont plus proches des concepts que les mots, car elles neutralisent partiellement la polysémie de ceux-ci, ne retenant idéalement qu’un sens donné, commun à tous les mots de la clique.
Les cliques permettent de situer des mots inconnus ou peu connus de l’utilisateur dans des unités de sens plus faciles à appréhender.
Des cliques voisines, qui ne diffèrent parfois que par un mot, peuvent présenter des nuances très fines. Certaines cliques sont tellement voisines que leur nuance n’apparaît pas pertinente, dans ce cas, elles suggèrent des liens oubliés entre les mots qui les différencient. C’est une des méthodes utilisées pour compléter le DÉS.
Les premiers synonymes sont classés par ordre de score, censé représenter la proximité avec la vedette. Le score calculé pour chaque synonyme est le taux de cliques auxquelles lui et la vedette appartiennent, par rapport à l’ensemble de leurs cliques. Les premiers synonymes sont donc par principe ceux qui partagent le plus de sens élémentaires avec la vedette. Le calcul retenu, depuis 2015, se base sur le fait que la proximité sémantique entre un synonyme (S) et sa vedette (V) doit être la même que celle entre S’ et V’ avec S’ correspondant à V et V’ à S. La formule est donc :
Nb de cliques communes S et V (soit C ce nombre) —————————————————————– Nb total de cliques de V + Nb total de cliques de S – C
Visualisation de l’espace sémantique
L’espace sémantique à n dimensions est projeté sur un plan par une méthode de calcul matriciel (analyse en composantes principales). Les cliques sont représentées par des points et les mots par des ensembles de points (les cliques auxquelles le mot appartient). Il est possible de modifier les axes de projection, afin de différencier les sens qui se trouveraient projetés trop près l’un de l’autre.
Ces rectifications ont fait leur entrée dans le DÉS en avril 2012. Pour l’heure, nous avons fait passer 83 formes du statut de variante orthographique à celui de forme de référence. Il s’agit des plus populaires : principalement modifications é en è, ajout d’accents sur quelques e, régularisation d’exceptions.
Orientées vers la simplification et la suppression d’exceptions, particulièrement ambitieuses, ces rectifications concernent des centaines de mots ; dans le DÉS, nous avons compté 614 entrées susceptibles d’être touchées. Cette réforme controversée et finalement restée facultative n’a guère été suivie d’effets, que ce soit par les éditeurs de manuels scolaires, les lexicographes, les journalistes ou les écrivains. Néanmoins, elle entre peu à peu dans les habitudes et certaines formes sont devenues majoritaires : asséner, réfréner, clé, cuillère, règlement, etc. (voir articles de Wikipédia, Orthonet et l’Office québécois de la langue française).
Concernant le DÉS, en avril 2012, nous avons fait passer 56 formes du statut de variante orthographique à celui de forme de référence : principalement modifications é en è, ajout d’accents sur quelques e, régularisation d’exceptions. Nous avons ajouté 23 oublis en février 2013 puis les 4 formes touchant au tréma (arguer/argüer, ambiguïté/ambigüité, etc.) en 2016, soit 83 formes traitées à ce jour.
Pour les autres règles, notamment la suppression des accents circonflexes sur les i et les u et l’agglutination des mots composés, mis à part quelques cas, nous resterons prudents et n’interviendrons que si l’usage les valide. La suppression de nombreux accents circonflexes aurait d’importantes conséquences sur l’édition : on ne pourrait guère écrire de page sans que plusieurs rectifications s’appliquent. Quant à l’agglutination des mots composés, trop généralisée, elle risquerait d’aboutir à une perte de lisibilité. Le mot composé avec trait d’union indique déjà un figement lexical, retirer le trait d’union ne peut qu’enlever de l’information.
Entrée ancienne
Entrée modifiée
abrégement
abrègement
afféterie
affèterie
allégrement
allègrement
ambiguïté
ambigüité
amoncellement
amoncèlement
arguer
argüer
assener
asséner
beluga
béluga
besicles
bésicles
bonhomie
bonhommie
boursouflé
boursoufflé
boursouflement
boursoufflement
boursoufler
boursouffler
boursouflure
boursoufflure
cahute
cahutte
chariot
charriot
clef
clé
clef de voûte
clé de voûte
combatif
combattif
combativité
combattivité
contiguïté
contigüité
contre-balancement
contrebalancement
contre-braquer
contrebraquer
crémelé
crèmelé
crémerie
crèmerie
cuiller
cuillère
dissous
dissout
entre-jambe
entrejambe
événement
évènement
événement heureux
évènement heureux
événementiel
évènementiel
événements
évènements
exiguïté
exigüité
frisottant
frisotant
frisotté
frisoté
frisottement
frisotement
frisotter
frisoter
frisottis
frisotis
frou-frou
froufrou
hébétement
hébètement
hydro-électrique
hydroélectrique
imbécillité
imbécilité
impresario
imprésario
interpeller
interpeler
joaillier
joailler
levraut
levreau
marguillier
marguiller
mariolle
mariole
media
média
nénuphar
nénufar
nénuphar blanc
nénufar blanc
papeterie
papèterie
persiflage
persifflage
persifler
persiffler
persifleur
persiffleur
placebo
placébo
porte-clefs
porte-clés
prud’homme
prudhomme
prud’homesque
prudhommesque
prud’homie
prudhommie
punch (boisson)
ponch
ravioli (pl.)
raviolis
refréné
réfréné
refréner
réfréner
réglement
règlement
réglementaire
règlementaire
réglementairement
règlementairement
réglementation
règlementation
réglementé
règlementé
réglementer
règlementer
relais
relai
revolver
révolver
sconce
sconse
sécheresse
sècheresse
senestre
sénestre
senior
sénior
serpillière
serpillère
sorgho
sorgo
sotie
sottie
speculum
spéculum
toquade
tocade
vénerie
vènerie
veto
véto
Liste des entrées modifiées
Absence de catégories grammaticales
Il serait intéressant de différencier les catégories grammaticales pour mieux regrouper les synonymes. Mais la réalisation de cette opération n’est pas simple : si les verbes sont assez faciles à séparer des autres catégories, (synonymes de boucher par exemple), la distinction adjectif / substantif est beaucoup plus délicate. Les risques d’erreurs sont importants. D’une part, un très bon catégoriseur est nécessaire pour effectuer la majorité du travail automatiquement : un oubli (une catégorie peu probable par exemple) risque de casser des liens synonymiques pourtant réels. D’autre part de nombreux problèmes peuvent surgir, notamment lorsque deux synonymes sont à la fois substantif et adjectif, ce qui est très fréquent : par exemple, faible (substantif) est synonyme de penchant (substantif), faible (adjectif) est synonyme de réduit (adjectif), mais faible (adjectif) n’est pas synonyme de penchant (adjectif) et faible (substantif) n’est pas synonyme de réduit (substantif). Quel traitement automatique peut le deviner ? Chaque cas doit donc être étudié et validé manuellement. Et ce n’est qu’un exemple du travail de titan qui est nécessaire avant de mettre en ligne cette fonctionnalité.
Pour l’heure, notre parti pris est de fournir un maximum de synonymes et de laisser à l’utilisateur le soin d’effectuer le tri.
Féminisation
Comme dans les autres dictionnaires, nous utilisons la forme canonique qui est l’infinitif pour les verbes et le masculin singulier pour les adjectifs. Ceci dit, pour les noms, un problème se pose lorsqu’ils ont un rapport avec les personnes, notamment lorsqu’ils désignent une profession, une fonction, un titre, un grade. Certains de ces termes sont épicènes mais la plupart existent généralement au masculin et au féminin.
Comme dans les autres dictionnaires, nous utilisons la forme canonique qui est l’infinitif pour les verbes et le masculin singulier pour les adjectifs. Ceci dit, pour les noms, un problème se pose lorsqu’ils ont un rapport avec les personnes, notamment lorsqu’ils désignent une profession, une fonction, un titre, un grade. Certains de ces termes sont épicènes mais la plupart existent généralement au masculin et au féminin.
Dans les débuts du dictionnaire électronique des synonymes, certains de ces termes ne possédaient pas les mêmes synonymes au masculin et au féminin, avec une tendance machiste très nette, reflet du passé des dictionnaires d’origine. Par exemple, infirmier et infirmière ne partageaient pas un seul synonyme, alors qu’il s’agit bien du même métier.
Une première solution pouvait être de compléter les synonymes des deux genres, mais elle aurait conduit à une sorte de millefeuille, avec beaucoup de doublons et probablement beaucoup d’oublis. Nous avons préféré regrouper les synonymes masculins et féminins en choisissant dans un premier temps le masculin pour la vedette. Le résultat était déjà bien meilleur (mais il subsiste encore beaucoup de mots féminins dégradants, que nous traitons progressivement). Et depuis 2016, nous avons commencé à transformer l’orthographe pour faire apparaître les deux genres.
Comme vous l’avez deviné, ce n’est que le début, l’opération étant d’assez grande ampleur. Nous nous inspirons du guide d’aide à la féminisation des noms de métiers, titres, grades et fonctions de 1999, très étoffée et très réfléchie, que vous connaissez probablement. Pour chaque mot traité, nous établissons un lien permettant d’obtenir la réponse à partir de la forme masculine et de la forme féminine.
Mise à jour
L’évolution du DÉS se fait de deux manières.
D’une part grâce à la collaboration des utilisateurs, facilitée aujourd’hui par une interface de proposition. Avant sa mise en service, les suggestions représentaient un peu plus de 100 liens par an, auxquels s’ajoutaient par déduction environ 300 liens. L’interface de proposition a nettement augmenté ces chiffres, ce qui explique notre retard dans le traitement des propositions. La facilité d’utilisation de cette interface a eu pour conséquence négative une diminution du taux de propositions retenues, à 67 % contre 95 % avant sa mise en service. Malgré cette réduction du score, si l’on tient compte des liens déduits, l’interface de proposition nous permet d’ajouter environ 1000 liens par an. Les suggestions de suppression de lien – en petit nombre – sont plus rarement acceptées, car correspondant souvent à l’oubli d’un contexte par l’utilisateur.
D’autre part à partir du graphe du DÉS par un programme de calcul des liens manquants probables, basé sur une évaluation de la proximité sémantique (liée au taux de synonymes partagés par chaque paire de candidats). Une liste ordonnée est produite, commençant par les liens manquants les plus probables. Chaque suggestion est ensuite étudiée et validée ou non selon des critères lexicographiques. Les liens probables calculés par programme donnent un excellent résultat avec plus de 80 % de succès.
Validation des propositions
% retenues par année
Bilan des mises à jour
Total ajout, modif. par année
prop. = propositions des utilisateurs (+ CRISCO) et déductions calc. = utilisation du logiciel de calcul des liens manquants probables
Ce site utilise des cookies pour améliorer votre expérience d'utilisateur.
En cliquant sur « je refuse », seuls les cookies nécessaires au bon fonctionnement du site seront activés. En cliquant sur « j'accepte », vous acceptez également des cookies à des fins statistiques, de fonctionnalité, de publicité, et des cookies tiers.
Ce site utilise des cookies pour améliorer votre expérience lorsque vous naviguez.
Les cookies classés comme nécessaires sont stockés sur votre navigateur. Ils sont essentiels au fonctionnement des fonctionnalités de base. Nous utilisons également des cookies tiers pour analyser et comprendre comment vous utilisez ce site. Ils ne seront stockés dans votre navigateur qu’avec votre consentement. La désactivation de ces cookies peut détériorer votre expérience de navigation.
Les cookies nécessaires sont absolument indispensables au bon fonctionnement du site. Cette catégorie comprend uniquement les cookies qui assurent les fonctionnalités de base et les fonctionnalités de sécurité du site Web. Ces cookies ne stockent aucune information personnelle.
Cookie
Type
Durée
Description
_pk_id.*
persistant
1 an 27 jours
Matamo utilise ce cookie pour stocker l'identifiant unique de l'utilisateur.
_pk_ses.*
session
30 minutes
Ce cookie est utilisé pour stocker un identifiant de session unique afin de recueillir des informations sur la manière dont les utilisateurs se servent du site web.
cli_user_preference
persistant
6 mois
Ce cookie est défini par le plugin GDPR Cookie Consent. L'objectif de ce cookie est d'enregistrer si l'utilisateur a donné ou non son consentement à l'utilisation des cookies. Il ne stocke aucune donnée personnelle.
cookielawinfo-checkbox-analytique
persistant
1 an
Défini par le plugin GDPR Cookie Consent, ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Analytique".
cookielawinfo-checkbox-fonctionnel
persistant
1 an
Le cookie est défini par le consentement du cookie GDPR pour enregistrer le consentement de l'utilisateur pour les cookies dans la catégorie «Fonctionnel».
cookielawinfo-checkbox-necessaire
persistant
1 an
Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-performance
persistant
1 an
Ce cookie est défini par le plugin GDPR Cookie Consent. Le cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Performance».
cookielawinfo-checkbox-publicite
persistant
1 an
Défini par le plugin de consentement aux cookies GDPR, ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie «Publicité».
CookieLawInfoConsent
persistant
1 an
CookieYes définit ce cookie pour enregistrer l'état du bouton par défaut de la catégorie correspondante et le statut du CCPA.Il fonctionne uniquement en coordination avec le cookie principal.
csrftoken
tiers
1 an
Ce cookie est associé à la plate-forme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes entre sites.
PHPSESSID
session
session
Ce cookie est natif des applications PHP. Le cookie est utilisé pour stocker et identifier l'identifiant de session unique d'un utilisateur dans le but de gérer la session utilisateur sur le site Web. Le cookie est un cookie de session et est supprimé lorsque toutes les fenêtres du navigateur sont fermées.
pll_language
persistant
1 an
Le cookie pll _language est utilisé par Polylang pour se souvenir de la langue sélectionnée par l'utilisateur lorsqu'il revient sur le site web, et également pour obtenir des informations sur la langue lorsqu'elles ne sont pas disponibles d'une autre manière.
usprivacy
tiers
1 an 1 mois
Il s'agit d'un cookie de consentement mis en place par Dailymotion pour stocker la chaîne de consentement CCPA (informations obligatoires sur le fait qu'un utilisateur final est ou n'est pas un consommateur californien et qu'il exerce ou n'exerce pas son droit statutaire).
viewed_cookie_policy
persistant
1 an
Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
Les cookies publicitaires sont utilisés pour fournir aux visiteurs des publicités et des campagnes marketing pertinentes. Ces cookies suivent les visiteurs sur les sites Web et collectent des informations pour fournir des publicités personnalisées.
Cookie
Type
Durée
Description
DEVICE_INFO
tiers
5 mois 27 jours
Le cookie est mis en place par Youtube. Il est utilisé pour suivre l'interaction de l'utilisateur avec le contenu intégré.
IDE
tiers
1 an 24 jours
Les cookies DoubleClick IDE de Google sont utilisés pour stocker des informations sur la façon dont l'utilisateur utilise le site web afin de lui présenter des annonces pertinentes en fonction de son profil d'utilisateur.
test_cookie
tiers
15 minutes
Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
VISITOR_INFO1_LIVE
tiers
5 mois 27 jours
Un cookie mis en place par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC
tiers
session
Le cookie YSC est mis en place par Youtube et est utilisé pour suivre les vues des vidéos intégrées sur les pages Youtube.
yt-remote-connected-devices
tiers
jamais
YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-device-id
tiers
jamais
YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt.innertube::nextId
tiers
jamais
Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.
yt.innertube::requests
tiers
jamais
Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.
Les cookies fonctionnels aident à exécuter certaines fonctionnalités telles que le partage du contenu du site Web sur les plateformes de médias sociaux, la collecte de commentaires et d’autres fonctionnalités tierces.
Cookie
Type
Durée
Description
ts
tiers
13 mois
Il s'agit d'un cookie mis en place par Dailymotion.
Cookie de segment de trafic utilisé principalement pour le déploiement progressif, une fonctionnalité technique critique qui empêche les pannes de service massives pendant la mise en œuvre de nouveaux développements ou de nouvelles fonctionnalités.
Les cookies analytiques sont utilisés pour comprendre comment les visiteurs interagissent avec le site Web. Ces cookies aident à fournir des informations sur les métriques du nombre de visiteurs, du taux de rebond, de la source du trafic, etc.
Cookie
Type
Durée
Description
_gcl_au
tiers
3 mois
Fourni par Google Tag Manager pour expérimenter l'efficacité publicitaire des sites web utilisant leurs services.
CONSENT
tiers
2 ans
YouTube installe ce cookie par le biais de vidéos youtube intégrées et enregistre des données statistiques anonymes.
dmvk
tiers
session
Le cookie dmvk est mis en place par Dailymotion pour enregistrer des données sur le comportement des visiteurs sur le site web.
v1st
tiers
13 mois
Il s'agit de votre identifiant numérique unique sur le Service Dailymotion. Il est utilisé pour :
- la détection et la prévention des fraudes ;
- la sécurité du Service Dailymotion ;
- le respect des obligations légales (par exemple, le respect des décisions de justice relatives à l'accès à la vidéo) ;
- l'identification de l'âge de l'utilisateur final.