Projet de modélisation graphique de la polysémie évolutive

  • Dernière modification de la publication :24 juin 2024
  • Post category: Projet en cours

sur la base des notices historico-étymologiques du Trésor de la Langue Française informatisé [TLFi]

Dans les années 1990, les entrées « lexicographiques » du TLFi ont été « rétroconverties » (c’est-à-dire transposées dans le langage informatique SGML avec des annotations visant à classer tous les types d’information qu’elles contiennent, p. ex. la transcription phonétique, les définitions, les exemples forgés, les citations, l’auteur de chaque citation, sa référence – ouvrage et date – ses synonymes, des remarques grammaticales, etc.), si bien qu’il est possible depuis un quart de siècle de faire des recherches très précisément ciblées sur les mots français (par exemple, « combien de fois Victor Hugo a-t-il employé le substantif JUSTICE dans ses romans et quels autres mots accompagnaient ce substantif dans les deux contextes gauche et droit ? »).

Chacune de ces entrées lexicographiques – à de rares exceptions près en raison du renvoi à une autre entrée – est suivie d’une notice historico-étymologique. Ces notices tirent profit d’un corpus de textes et de références dans les principaux dictionnaires étymologiques contemporains et les dictionnaires de la langue français depuis leur apparition au début du 17e siècle (le Thrésor de la Langue Francoyse de Jean Nicot) ainsi que du Französisches Etymologisches Wörterbuch [Dictionnaire Étymologique du Français] fondé par Walter von Wartburg à Bâle dans les années 1920 et dont la version informatisée est désormais administrée au CNRS par le laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française) à Nancy, tout comme le TLFi.

Mais ces entrées n’ont été rétroconverties que de manière superficielle (formelle et non fonctionnelle). Une rétroconversion formelle ne comporte que des annotations générales (ouverture et clôture des entrées) et typographiques (caractères en police romaine, italique, grasse et en petites capitales). De ce fait, il est actuellement impossible d’effectuer des recherches sur l’histoire des mots de la langue française faute d’annotations fonctionnelles (date de 1ère attestation du mot dans un certain sens, forme du mot ou contexte privilégié à cette époque, informations sur le champ encyclopédique, le registre ou le dialecte, les propriété grammaticales et les restrictions sémantiques).

Par ailleurs, les sciences du langage ont développé depuis le début du XXIe siècle des techniques de visualisation, notamment des relations sémantiques entre les mots du français actuel (cf. François 2022, Les techniques de visualisation en Sciences du Langage).

Deux outils disponibles sur le site du CNRTL (Centre National de ressources Textuelles et Lexicales) et de sa plateforme ORTOLANG (Outils et Ressources pour un Traitement Optimisé de la LANGue) en témoignent avec l’accès au Dictionnaire Électronique des Synonymes du CRISCO et à l’outil de visualisation de la « proxémie » sémantique (IRIT : Institut de Recherche en Informatique de Toulouse, concepteur : Bruno Gaume, CNRS, https://www.cnrtl.fr/proxemie/).

Sur la base de ces constats, le projet MGPE, initié depuis 2020 par Jacques FRANÇOIS avec la collaboration de Laurette CHARDON (Ingénieure de recherches au CRISCO, université Caen Normandie) et Justine REYNAUD (MC en informatique à l’université Caen Normandie) a une double visée :