Retour à l'accueil - Logo CRISCO

Centre de recherches inter-langues sur la signification en contexte · CRISCO · EA4255

Accueil > Le DES > Actualités DES


Lettre d'actualités n°11 du DES (Février 2021)


des2.gifBonjour,

Au sommaire de cette lettre hivernale, quelques informations générales, un voyage dans le temps avec NATION et CULTURE, les mots les plus recherchés (statistiques et nuages de mots) et enfin les expressions figées ...

Accès aux lettres d'informations précédentes.

N'hésitez pas à vous abonner pour profiter des prochaines informations sur le DES (environ 3 à 4 lettres par an).
 
Je vous souhaite un  agréable moment de lecture !

Laurette Chardon, Ingénieure en charge du DES
crisco.webmestre@unicaen.fr
 
Merci à vous toutes et tous qui utilisez le DES, nous suivez par les actualités, vous abonnez de façon continue à cette liste (3400 abonnés), nous soutenez par vos dons et vos achats de licences autonomes !

► Nature des relations synonymiques proposées et traitement des synonymes isolés

Tout d'abord je tiens à remercier les très nombreux contributeurs qui régulièrement proposent des relations synonymiques dans l'interface prévue à cet effet.

En complément de ce qui a été précisé dans la dernière lettre,  un autre point que je souhaite exprimer concerne la nature des liaisons synonymiques. En effet, qu'elles soient proposées par les utilisateurs ou calculées par programme, elles doivent bien sûr être présentes dans les dictionnaires mais également ne pas être trop spécifiques, vieillies ou rares. En effet, les mots trop spécifiques, vieillis ou rares vont très souvent être reliés à un seul autre mot plus courant et ils sont très souvent des synonymes isolés. Or l'étude sur les synonymes isolés détaillée dans la lettre d'actualité précédente nous montre que 35.000 entrées (70% du total) ont entre 1 et 25 synonymes isolés. Plus précisément 58,9 % des entrées ont  1 synonyme isolé, 21,35% ont 2 synonymes isolés et respectivement 8,94%, 4,33% et 2,36 % ont 3,4 et 5 synonymes isolés. Si dans certains cas, le synonyme isolé d'une vedette peut être rattaché à un autre synonyme de cette vedette, il existe aussi des cas où ce n'est pas possible car le sens est trop spécifique, vieilli ou rare. Or, il est important de ne pas avoir une trop grande proportion de synonymes isolés car les graphes sont "pauvres" et les calculs qui en découlent, que ce soit l'espace sémantique ou d'autres méthodes de regroupement de sens, ne sont pas optimaux.

Sur la seconde série d'étude des synonymes isolés portant sur une partie des entrées possédant 4 synonymes isolés (voir la lettre d'actualité précédente) où 406 synonymes isolés de 102 vedettes ont été traités, 225 ont été reliés à au moins un des cinq synonymes proposés par calcul (soit 55%) et 94 ont été supprimés, dû entre autres à leur caractère spécifique, vieilli ou rare. Quant aux 87 restants, ils ont trouvé un synonyme ailleurs que dans la liste proposée.

►Les relations litigieuses

Ces relations, comme cela est explique sur cette page qui est également accessible à partir de l'interface du DES ( lien : "Avant toute consultation, merci de lire cet avertissement") sont particulières dans le sens où un des deux termes de la relation a une connotation familière voire péjorative. Ces relations introduites assez récemment (par rapport à la date de création du projet dans les années 1990) font partie de la langue française car elles sont référencées comme telles dans les dictionnaires, en particulier le CNRTL et le Grand Robert. Cela dit, elles représente 0,08% de l'ensemble des relations synonymiques (environ 187 sur un total de 210.366). Nous avons néanmoins corrigé certaines de ses liaisons suite à quelques retours et aussi parce que le contexte actuel nous amène à en revoir certaines en particulier liées aux personnes. L'objectif du projet de recherche du DES au départ n'était pas lié à ces liaisons particulières donc nous ne souhaitons pas que nos intentions soient interprétées comme volontairement discriminantes.

Enfin, ces liaisons sont maintenant accompagnées d'un point d'exclamation "!" plus approprié ( et non plus d'une étoile  "*").

► Focus sur NATION et CULTURE

Jacques François, membres associé du CRISCO s'est penché sur l'évolution des sens de ces 2 mots dans le temps ...



► Les mots les plus recherchés : quelques statistiques

Depuis deux ans, les requêtes sur le DES font l'objet d'un traitement mensuel de façon à extraire des logs journaliers les requêtes et les mots  recherchés. Une étude complète est en cours. En attendant sa mise en ligne, voici quelques éléments en avant première.

Un premier graphique dynamique nous renseigne sur le nombre de requêtes journalières sur l'année 2019. L'aspect dynamique du graphique (comme le suivant) permet de zoomer sur certaines parties et d'obtenir plus d'informations ( voir à la fin de cette page quelques conseils pour naviguer dans le graphique).

En 2019, chaque jour, le DES a reçu de 124.000 (7 juillet 2019) à plus de 800.000 requêtes (14 juin 2019).



Ouvrir le graphique dans un nouvel onglet

Ces requêtes sont classées en 3 catégories:
  • en bleu foncé, les requêtes de mots valides ( = existants dans le DES)
  • en bleu moyen, les requêtes des variantes ( par exemple des mots sans accents ceder -> céder dépecher -> dépêcher ou des erreurs courantes : aporter -> apporter )
  • en bleu clair, les requêtes de mots invalides (qui peuvent être générés ou saisis de façon incorrecte)
Les traits verticaux de couleur magenta correspondent au dimanche de chaque semaine.

Une très grande majorité de requêtes portent sur des mots valides (traits bleu foncé). On remarque toutefois, que le vendredi 14 juin 2019 plusieurs requêtes de mots invalides sont détectées (430k) pour un nombre de requêtes valides et variantes de 379 K (340 + 39k).
De même que le mercredi 30 janvier 2019, un pic de requêtes invalides (320K) a lieu de nouveau à rapport à 310K de requêtes valides et 38K de requêtes variantes.

Si nous enlevons toutes les requêtes de mots invalides, nous arrivons à un nombre de requêtes valides et variantes allant de 110K+4,8K (7 juillet 2019) à plus de 460k le mercredi 27 novembre.

A combien de mots différents correspondent toutes ces requêtes ?

Ce second graphique va nous éclairer.



Ouvrir le graphique dans un nouvel onglet

Le nombre de mots recherchés valides et différents par jour varie de 26.000 ( 23K mots valides +3.1K variantes le lundi 18 fév 2019) à plus de 60.000 (vendredi 14 juin 2019).

Si on calcule le rapport nombre de mots valides par le nombre de requêtes valides, à la fois avec les valeurs minimales et maximales, nous en concluons qu'un mot valide est demandé en moyenne de 4 à 7 fois par jour ( (23+3.1)/(110+4,8)) et 460/60)

De même qu'on peut s'appuyer sur le même raisonnement pour les mots absents (très majoritairement invalides) : de 2.600 requêtes invalides le 28 août à 431.307 le 14 juin 2019 , et pour les mots absents, de 2.475 le 28 août à 286.665  le 14 juin 2019. Cela donne une moyenne de 1 à 1,5 mots invalides par requêtes invalides. La valeur faible de cette moyenne confirme bien l'invalidité du mot demandé. Voici quelques exemples de mots absents: "Decontrctee" , "ojbet de" , "itimadoulet" , "m'adébarber", "avant-creuseto" ..

►Mots les plus recherchés : les nuages du mois de janvier


Les nuages de mots journaliers et le nuage mensuel sont accessibles par ce lien .

Ces nuages prennent en compte les 6000 premiers mots demandés (sur environ en moyenne 50.000 mots valides demandés). Les noms de fichiers sont la forme wordcloud<année><mois><jour>-des.png; par exemple pour le 4 janvier le fichier correspondant est wordcloud20210104-des.png.

Durant les premiers jours de janvier, nous avons souhaiter, bonheur, joie, espoir, bien, réaliser qui sont des mots très couramment utilisés pour souhaiter les voeux de début d'année.
Nous retrouvons quotidiennement des mots couramment demandés : correct, permettre, important, projet , en effet. Certains jours il va y avoir des requêtes plus nombreuses sur un mot en particulier : par exemple expérience le 17 ou le 25 janvier ou projet le 12 et le 13.
Si vous souhaitez utiliser quelques uns de ces nuages de mots, cela est possible en citant le DES (et le lien d'accès) et d'en informer le webmestre.

 

►Les expressions figées

A partir du dictionnaire Le Robert Expressions, un certain nombre d'expressions figées ont été insérées dans le DES. Ce n'est qu'un début puisque nous en avons saisi un peu plus d'une centaine. L'idée n'est pas seulement d'associer l'expression à une entrée mais également de vérifier si elle ne peut pas être associée aux synonymes de cette entrée. Cela contribue à l'obtention d'un graphe plus fourni et évite les synonymes isolés qui rendent les calculs sur les graphes moins performants.

En voici quelques unes :

entre deux portes rapidement
frapper à toutes les portes solliciter
frapper à toutes les portes demander
à la portée de accessible
être en possession de posséder
tourner autour du pot hésiter
tourner autour du pot tergiverser
prendre la poudre d’escampette filer
se manier le pot se dépêcher
tant que faire se peut dans la mesure du possible
faire machine arrière renoncer
seconde main occasion
se frotter les mains se réjouir
se frotter les mains se féliciter
reculer pour mieux sauter attendre
ferme comme un roc inébranlable
ferme comme un roc inflexible
sans répit sans cesse
se manier la rondelle se dépêcher
se manier le pot se dépêcher
se manier le train se dépêcher
sur les rotules exténué
tirer son chapeau admirer
pas pour un royaume en aucun cas


À très bientôt !

----------------------------------------------------------------------------------------------------------------------------------------------------------------

Conseils pour naviguer dans les graphiques :

Les deux graphiques sont réalisés avec la librairie graphique plotlyexpress de python est dynamique. Voici quelques informations pour vous permettre de naviguer au mieux :
  • dans la légende, à droite, vous pouvez décider d'afficher ou pas chacune des catégories (requêtes valides, variantes ou requêtes invalides) en cliquant dessus. Par exemple en cliquant sur requêtes invalides dans la légende, la case devient plus opaque et l'axe Y est réactualisé pour afficher au mieux les données restantes (les requêtes valides et les variantes).
  • dans le menu en haut à droite, en mode zoom   (mode par défaut), vous pouvez sélectionner une partie du graphique, par exemple les jours du mois de septembre, avec le bouton gauche de la souris. Le graphe est automatiquement réactualisé sur la zone sélectionnée. Etant plus précis, les chiffres pour chacune des catégories s'affichent. Par exemple le dimanche 1er septembre, nous avons 200.000 (200k) de requêtes valides, 12k de requêtes avec des variantes et 30k de requêtes sur des mots invalides.
  • le passage de la souris sur l'histogramme affiche une fenêtre avec la date, la nature des données survolées (requêtes valides, variantes ou requêtes invalides par exemple pour le premier graphique) et le nombre.
Pour revenir à la présentation de base, il suffit de cliquer sur le bouton "autoscale"
  • les traits verticaux de couleur magenta correspondent au dimanche de chaque semaine.
  • d'autres fonctions dans le menu en haut à droite et affiché ci-dessous vous propose aussi de vous déplacer dans le graphique ou prendre une photo . Lorsque vous passez la souris sur un des éléments du menu, le texte de la fonctionnalité correspondante s'affiche .

 


 
 

Télécharger la page

Dernière modification : 9 février 2021



Université de Caen Normandie
Laboratoire CRISCO
Esplanade de la Paix | CS 14032 | 14032 Caen cedex 5