.
En complément de ce qui a été précisé dans la dernière lettre, un autre point que je souhaite exprimer concerne la nature des liaisons synonymiques. En effet, qu'elles soient proposées par les utilisateurs ou calculées par programme, elles doivent bien sûr être présentes dans les dictionnaires mais également ne pas être trop spécifiques, vieillies ou rares. En effet, les mots trop spécifiques, vieillis ou rares vont très souvent être reliés à un seul autre mot plus courant et ils sont très souvent des synonymes isolés. Or l'
étude sur les synonymes isolés détaillée dans la lettre d'actualité précédente nous montre que 35.000 entrées (70% du total) ont entre 1 et 25 synonymes isolés. Plus précisément 58,9 % des entrées ont 1 synonyme isolé, 21,35% ont 2 synonymes isolés et respectivement 8,94%, 4,33% et 2,36 % ont 3,4 et 5 synonymes isolés. Si dans certains cas, le synonyme isolé d'une vedette peut être rattaché à un autre synonyme de cette vedette, il existe aussi des cas où ce n'est pas possible car le sens est trop spécifique, vieilli ou rare. Or, il est important de ne pas avoir une trop grande proportion de synonymes isolés car les graphes sont "pauvres" et les calculs qui en découlent, que ce soit l'espace sémantique ou d'autres méthodes de regroupement de sens, ne sont pas optimaux.
Sur la seconde série d'étude des synonymes isolés portant sur une partie des entrées possédant 4 synonymes isolés (
voir la lettre d'actualité précédente) où 406 synonymes isolés de 102 vedettes ont été traités, 225 ont été reliés à au moins un des cinq synonymes proposés par calcul (soit 55%) et 94 ont été supprimés, dû entre autres à leur caractère spécifique, vieilli ou rare. Quant aux 87 restants, ils ont trouvé un synonyme ailleurs que dans la liste proposée.
►Les relations litigieuses
Ces relations, comme cela est explique sur
cette page qui est également accessible à partir de l'interface du DES ( lien :
"Avant toute consultation, merci de lire cet avertissement") sont particulières dans le sens où un des deux termes de la relation a une connotation familière voire péjorative. Ces relations introduites assez récemment (par rapport à la date de création du projet dans les années 1990) font partie de la langue française car elles sont référencées comme telles dans les dictionnaires, en particulier le CNRTL et le Grand Robert. Cela dit, elles représente 0,08% de l'ensemble des relations synonymiques (environ 187 sur un total de 210.366). Nous avons néanmoins corrigé certaines de ses liaisons suite à quelques retours et aussi parce que le contexte actuel nous amène à en revoir certaines en particulier liées aux personnes. L'objectif du projet de recherche du DES au départ n'était pas lié à ces liaisons particulières donc nous ne souhaitons pas que nos intentions soient interprétées comme volontairement discriminantes.
Enfin, ces liaisons sont maintenant accompagnées d'un
point d'exclamation "!" plus approprié ( et non plus d'une étoile "*").
► Focus sur NATION et CULTURE
Jacques François, membres associé du CRISCO s'est penché sur l'évolution des sens de ces 2 mots dans le temps ...

► Les mots les plus recherchés : quelques statistiques
Depuis deux ans, les requêtes sur le DES font l'objet d'un traitement mensuel de façon à extraire des logs journaliers les requêtes et les mots recherchés. Une étude complète est en cours. En attendant sa mise en ligne, voici quelques éléments en avant première.
Un premier graphique dynamique nous renseigne sur le
nombre de requêtes journalières sur l'année 2019. L'aspect dynamique du graphique (comme le suivant) permet de zoomer sur certaines parties et d'obtenir plus d'informations ( voir à la fin de cette page quelques conseils pour naviguer dans le graphique).
En 2019, chaque jour, le DES a reçu de 124.000 (7 juillet 2019) à plus de 800.000 requêtes (14 juin 2019). Ouvrir le graphique dans un nouvel ongletCes requêtes sont classées en 3 catégories:
- en bleu foncé, les requêtes de mots valides ( = existants dans le DES)
- en bleu moyen, les requêtes des variantes ( par exemple des mots sans accents ceder -> céder dépecher -> dépêcher ou des erreurs courantes : aporter -> apporter )
- en bleu clair, les requêtes de mots invalides (qui peuvent être générés ou saisis de façon incorrecte)
Les traits verticaux de couleur magenta correspondent au dimanche de chaque semaine.
Une très grande majorité de requêtes portent sur des mots valides (traits bleu foncé). On remarque toutefois, que le vendredi 14 juin 2019 plusieurs requêtes de mots invalides sont détectées (430k) pour un nombre de requêtes valides et variantes de 379 K (340 + 39k).
De même que le mercredi 30 janvier 2019, un pic de requêtes invalides (320K) a lieu de nouveau à rapport à 310K de requêtes valides et 38K de requêtes variantes.
Si nous enlevons toutes les requêtes de mots invalides, nous arrivons à un nombre de requêtes valides et variantes allant de 110K+4,8K (7 juillet 2019) à plus de 460k le mercredi 27 novembre.
A combien de mots différents correspondent toutes ces requêtes ?
Ce
second graphique va nous éclairer.
Ouvrir le graphique dans un nouvel ongletLe nombre de mots recherchés valides et différents par jour varie de 26.000 ( 23K mots valides +3.1K variantes le lundi 18 fév 2019) à plus de 60.000 (vendredi 14 juin 2019).Si on calcule le rapport nombre de mots valides par le nombre de requêtes valides, à la fois avec les valeurs minimales et maximales, nous en concluons qu'un
mot valide est demandé en moyenne de 4 à 7 fois par jour ( (23+3.1)/(110+4,8)) et 460/60)
De même qu'on peut s'appuyer sur le même raisonnement pour les mots absents (très majoritairement invalides) : de 2.600 requêtes invalides le 28 août à 431.307 le 14 juin 2019 , et pour les mots absents, de 2.475 le 28 août à 286.665 le 14 juin 2019. Cela donne
une moyenne de 1 à 1,5 mots invalides par requêtes invalides. La valeur faible de cette moyenne confirme bien l'invalidité du mot demandé. Voici quelques exemples de mots absents: "Decontrctee" , "ojbet de" , "itimadoulet" , "m'adébarber", "avant-creuseto" ..
►Mots les plus recherchés : les nuages du mois de janvier
Les nuages de mots journaliers et le nuage mensuel sont accessibles par
ce lien .
Ces nuages prennent en compte les 6000 premiers mots demandés (sur environ en moyenne 50.000 mots valides demandés). Les noms de fichiers sont la forme wordcloud<année><mois><jour>-des.png; par exemple pour le 4 janvier le fichier correspondant est wordcloud20210104-des.png.
Durant les premiers jours de janvier, nous avons
souhaiter, bonheur, joie, espoir, bien, réaliser qui sont des mots très couramment utilisés pour souhaiter les voeux de début d'année.
Nous retrouvons quotidiennement des mots couramment demandés :
correct, permettre, important, projet , en effet. Certains jours il va y avoir des requêtes plus nombreuses sur un mot en particulier : par exemple
expérience le 17 ou le 25 janvier ou
projet le 12 et le 13.
Si vous souhaitez utiliser quelques uns de ces nuages de mots, cela est possible en citant le DES (et le
lien d'accès) et d'en informer le
webmestre.
►Les expressions figées
A partir du dictionnaire
Le Robert Expressions, un certain nombre d'expressions figées ont été insérées dans le DES. Ce n'est qu'un début puisque nous en avons saisi un peu plus d'une centaine. L'idée n'est pas seulement d'associer l'expression à une entrée mais également de vérifier si elle ne peut pas être associée aux synonymes de cette entrée. Cela contribue à l'obtention d'un graphe plus fourni et évite les synonymes isolés qui rendent les calculs sur les graphes moins performants.
En voici quelques unes :
entre deux portes | rapidement |
frapper à toutes les portes | solliciter |
frapper à toutes les portes | demander |
à la portée de | accessible |
être en possession de | posséder |
tourner autour du pot | hésiter |
tourner autour du pot | tergiverser |
prendre la poudre d’escampette | filer |
se manier le pot | se dépêcher |
tant que faire se peut | dans la mesure du possible |
faire machine arrière | renoncer |
seconde main | occasion |
se frotter les mains | se réjouir |
se frotter les mains | se féliciter |
reculer pour mieux sauter | attendre |
ferme comme un roc | inébranlable |
ferme comme un roc | inflexible |
sans répit | sans cesse |
se manier la rondelle | se dépêcher |
se manier le pot | se dépêcher |
se manier le train | se dépêcher |
sur les rotules | exténué |
tirer son chapeau | admirer |
pas pour un royaume | en aucun cas |
À très bientôt !
----------------------------------------------------------------------------------------------------------------------------------------------------------------
Conseils pour naviguer dans les graphiques :Les deux graphiques sont réalisés avec la
librairie graphique plotlyexpress de python est dynamique. Voici quelques informations pour vous permettre de naviguer au mieux :
- dans la légende, à droite, vous pouvez décider d'afficher ou pas chacune des catégories (requêtes valides, variantes ou requêtes invalides) en cliquant dessus. Par exemple en cliquant sur requêtes invalides dans la légende, la case devient plus opaque et l'axe Y est réactualisé pour afficher au mieux les données restantes (les requêtes valides et les variantes).
- dans le menu en haut à droite, en mode zoom
(mode par défaut), vous pouvez sélectionner une partie du graphique, par exemple les jours du mois de septembre, avec le bouton gauche de la souris. Le graphe est automatiquement réactualisé sur la zone sélectionnée. Etant plus précis, les chiffres pour chacune des catégories s'affichent. Par exemple le dimanche 1er septembre, nous avons 200.000 (200k) de requêtes valides, 12k de requêtes avec des variantes et 30k de requêtes sur des mots invalides. - le passage de la souris sur l'histogramme affiche une fenêtre avec la date, la nature des données survolées (requêtes valides, variantes ou requêtes invalides par exemple pour le premier graphique) et le nombre.
Pour revenir à la présentation de base, il suffit de cliquer sur le bouton "autoscale"

- les traits verticaux de couleur magenta correspondent au dimanche de chaque semaine.
- d'autres fonctions dans le menu en haut à droite et affiché ci-dessous vous propose aussi de vous déplacer
dans le graphique ou prendre une photo
. Lorsque vous passez la souris sur un des éléments du menu, le texte de la fonctionnalité correspondante s'affiche .