Retour à l'accueil - Logo CRISCO

Centre de recherches inter-langues sur la signification en contexte · CRISCO · EA4255

Accueil > Le DES > Actualités DES


Lettre d'actualités n°10 du DES (Octobre 2020)


Bonjour,

Au sommaire de cette lettre automnale, un petit tour d'horizon (et rappel) sur la gestion du DES, deux articles parus depuis la dernière lettre d'actualité cet été et une interview passionnante de Thierry Poibeau sur France Inter autour de la traduction automatique des langues.

Accès aux lettres d'informations précédentes.

N'hésitez pas à vous abonner pour profiter des prochaines informations sur le DES (environ 3 à 4 lettres par an).
 
Je vous souhaite un  agréable moment de lecture !

Laurette Chardon, Ingénieure en charge du DES
crisco.webmestre@unicaen.fr
 
Merci à vous toutes et tous qui utilisez le DES, nous suivez par les actualités, vous abonnez de façon continue à cette liste (plus de 100 nouvelles inscriptions depuis juin 2020 et un total de plus de 3300 abonnés), nous soutenez par vos dons et vos achats de licences autonomes !

► On parle du DES sur le net ...

Le magazine Télérama s'est intéressé au DES en juillet dernier : retour sur l'interview de Thierry Ruchot (directeur) et Laurette Chardon (ingénieure de recherche)  par Julia Vergely.

Jacques François nous propose une modélisation graphique de l'évolution historique de la polysémie lexicale au travers du mot campagne.

► Interface de propositions

Tout d'abord je tiens à remercier les très nombreux contributeurs qui régulièrement proposent des relations synonymiques dans l'interface prévue à cet effet.

Le nombre de propositions accepté par mois se situe entre 70 et 90. Cette limite que nous ne pouvons malheureusement pas étendre est définie en fonction de la charge de travail de l'ingénieure en charge du DES. Nous espérons que cela ne découragera pas trop nos lecteurs assidus qui régulièrement nous soumettent des liaisons, souvent pertinentes. Le compteur est remis à zéro en début de chaque mois. A noter dans vos agendas !

►Les synonymes isolés

En parallèle du traitement des propositions des utilisateurs, un important travail de gestion des synonymes isolés est en cours. Les synonymes isolés d'une vedette sont les mots uniquement reliés à la vedette et à aucun autre synonyme de cette dernière. En effet, sur l'ensemble des 50.000 entrées du DES, plus de 70 % ont de 1 à 25 liens synonymiques isolés. Nous avons depuis juin dernier traité 82 entrées (appelées vedettes) qui ont plus de 50 synonymes dont 5 isolés. Un traitement automatique nous a permis de proposer pour les 82*5 = 410 paires jusqu'à 5 synonymes de la vedette selon un calcul donné provenant d'une adaptation des liens manquants probables (et détaillé dans une publication qui paraitra prochainement).  Ensuite, une vérification manuelle a eu lieu sur ces 2050 triplets (82*5*5).

Voici quelques exemples de synonymes proposés et validés :

vedette synonyme isolé synonyme proposé
abattement lourdeur mollesse
apparence superficialité tape-à-l'oeil
attache bouton fermoir
heureux optimiste gai
malpropre négligé crasseux
protéger couver préserver
réduire rationner limiter
sauvage incivilisé primitif
usé amoindri émoussé
vain sans effet inefficace

Ces exemples sont déjà présents dans le DES.

Une 2nde vague de traitement a débuté en juillet dernier portant sur 103 vedettes qui ont 4 synonymes isolés : pour chacun, de 5 à 8 synonymes sont proposés, à valider ou pas. Cela correspond au minimum à 103*4*5 = 2060 triplets à traiter ...
L'état d'avancement global est consultable dans le tableau de la rubrique "comment le DES est mis à jour ?" sur la page de présentation du DES.

►L'ajout de participes passés

L'ajout d'un participe passé issu directement d'un verbe n'est pas systématique. Par exemple, nous avons reçu comme propositions:
  • fixé synonyme de observé
  • fixé synonyme de scruté
  • fixé synonyme de épié
  • fixé synonyme de averti
  • fixé synonyme de concentré
  • fixé synonyme de hypnotisé
En effet, fixé est bien synonyme de tous ces mots mais aucun n'est un adjectif "pur". Il n'y a pas d'intérêt à faire correspondre la forme participe passé d'un verbe à toutes les formes participe passé des synonymes de ce verbe : c'est redondant et n'apporte rien de plus puisqu'il suffit de rechercher les synonymes de la forme verbiale pour obtenir tous les synonymes du type participe passé. Par contre, fixé a été ajouté car il est synonyme de certain, normal, inséparable qui sont des formes uniquement adjectivales. Quand 2 formes participe passé sont proposées comme synonymes et si elles sont déjà présentes dans la base de données, nous ajoutons le lien synonymique mais nous ne créons pas une nouvelle entrée de type participe passé si le seul lien proposé est de type participe passé également.

►La synonymie partielle versus pure

La synonymie que nous réalisons dans le DES est "partielle". Elle a été définie  par Bernard Victorri et Sabine Ploux les concepteurs du DES de la façon suivante (issue de cette publication) :

Deux unités lexicales sont en relation de synonymie si toute occurrence de l’une peut être remplacée par une occurrence de l’autre dans un certain nombre d’environnements sans modifier notablement le sens de l’énoncé dans lequel elle se trouve

Contrairement à la synonymie "pure" qui est défnie par :
Deux unités lexicales sont en relation de synonymie pure si toute occurrence de l’une peut être remplacée par une occurrence de l’autre dans tout environnement sans modifier notablement le sens de l’énoncé dans lequel elle se trouve.

La synonymie "partielle" est beaucoup moins restrictive. En effet, il existe très peu de synonymes "purs" en raison de la polysémie largement répandue dans le langage.
Une synonymie pure implique une propriété mathématique appelée transitivité : si A est synonyme de B et B synonyme de C, alors A est synonyme de C.
Dans le cas d'une synonymie partielle, et en raison de la polysémie, cette propriété n'est pas systématique vérifiée. Par exemple,  défendre et interdire sont synonymes dans le contexte défendre /interdire de fumer . Défendre et soutenir le sont dans défendre/soutenir les droits de l'homme  mais soutenir et interdire ne sont en aucun cas synonymes.
Cela dit, il est important de se rappeler que même en cas de synonymie partielle, la catégorie grammaticale est à respecter : un adjectif "pur" ne peut pas être remplacé par un nom "pur" car il doit exister un contexte dans lequel l'un peut remplacer l'autre. Donc l'un des deux doit appartenir aux deux catégories grammaticales pour être éventuellement synonymes.

►Focus sur la traduction automatique

FranceInter a diffusé il y a quelques semaines, dans son émission "Le code a changé" un historique et un état des lieux de la traduction automatique en interrogeant Thierry Poibeau, directeur de recherche au CNRS qui a publié un livre "Babel 2.0 Ou va la traduction automatique ?". Cette conversation passionnante que vous pouvez retrouver en podcast nous explique chronologiquement de façon claire les étapes de cet objectif ambitieux qui n'est pas si récent que cela.
En voici les grandes lignes ci-dessous mais bien sûr, si vous avez la possibilité de réécouter le podcast, n'hésitez pas !

Il n'y a pas si longtemps, il était habituel de s'amuser et de se moquer des traductions que google translate nous donnait. Mais depuis environ les années 2014-2016, on s'est rendu compte que cela ne marche pas si mal.
Qu'y a t-il eu comme progrès depuis ?

Tout d'abord, qu'entend-on par traduire ? Traduire c'est la mise en rapport de systèmes lexicaux et syntaxiques très différents, de rapport au monde et de représentation de ce dernier. En fait, on a aucune idée de la façon dont une langue est formalisée. On essaie depuis une soixantaine d'années mais on ne sait toujours pas vraiment comment cela fonctionne.
On peut faire une phrase qui est syntaxiquement juste mais qui n'a aucun sens "la vache fronce la voiture en haut de l'arbre". Et inversement une phrase qui est syntaxiquement incorrecte peut avoir un sens. Comme, par exemple, dans la chanson "Elle a les yeux revolvers" de Marc Lavoine : "Tellement si belle, je l'aime tellement si fort".

Pourquoi est-ce dur de faire de la traduction automatique des langues ? Parce que il y a plus de 50.000 mots dans une langue et chaque mot est ambigu. Le sens du mot émerge dans le sens du contexte. La quantité amène une explosion combinatoire difficile à traiter par les ordinateurs.
Par exemple, si nous prenons la phrase : "l'avocat a livré une plaidoierie au vitriol". L'avocat correspond soit au fruit soit à l'homme de loi. Ensuite, rien n'est livré/fourni/donné dans ce contexte. Le sens à prendre en compte est "aller vers" qui peut convenir avec l'avocat, l'homme de loi. Enfin, "au vitriol" ne veut pas du tout dire que l'avocat a manipulé de l'acide sulfurique : il s'agit d'une expression figée qui a sens proche de violemment. Il s'agit d'amplifier l'action de l'avocat. Pour nous, c'est évident mais cela l'est beaucoup moins pour la machine.

Le besoin de traduire automatique d'une langue à une autre est né pendant la seconde guerre mondiale avec le projet Enigma qui avait pour but de déchiffrer les messages cryptés des allemands. Traduire a donc été vu comme déchiffrer. On a confondu longtemps déchiffrement et traduction. Or le texte à déchiffrer lors de la guerre froide était obscur mais pas ambigu comme cela est le cas dans la traduction. Aucune clé de déchiffrement ne peut lever l'ambiguité : il faut interpréter.
Au début des recherches dans les années 50, seuls le papier et le crayon étaient possibles. Puis, des dictionnaires bilingues sont apparus avec un ensemble de règles pour, par exemple, changer l'ordre des mots : red car - voiture rouge. C'était assez limité. Une autre piste était de se poser la question : comment notre cerveau fonctionne pour trouver un autre système pour désambiguïser ? On s'est appuyé sur la Gestalt , théorie qui se base sur le fait que le tout détermine le sens des parties : on est dans un contexte, on a une situation et on va déterminer le sens (exemple avec l'avocat,  homme de loi). Le contexte nous donne immédiatement le sens du mot. On s'obstine dans cette voie jusqu'aux années 60 puis les recherches se sont arrêtées pendant environ 30 ans.
IBM a relancé le processus en utilisant des méthodes statistiques : on part de 2 textes dans 2 langues différentes, l'un étant la traduction exacte de l'autre. L'ordinateur va faire des calculs de statistiques pour établir par exemple que house est en face de maison, dog en face de chien, etc... Le même processus est utilisé pour des groupes de mots. Du coup, on renonce à comprendre une langue et on se base uniquement sur la statistique des occurrences dans le traitement d'énormes traductions bilingues. Cette méthode a été enrichie en moissonant le web dans les années 2000 et amplifiée avec l'augmentation de la puissance des ordinateurs. Plusieurs sites voient le jour, chacun avec sa particularité : le site google traduction se base sur le web alors le site linguee se base des corpus du parlement européen, ce qui donne une analyse plus fine.
Cette méthode identifie donc des groupes équivalents entre les langues. Mais on arrive à une limite car ces groupes ne correspondent pas à ceux qu'on fait quand on traduit. Car la machine découpe et traduit en fonction des occurrences. Par exemple le groupe de mots "le gout de la papaye" est découpé en "le gout de" et plus loin "papaye". Alors on a cherché à contraindre la machine à certains groupes de mots plus proches de la traduction humaine. Mais les résultats ne sont pas mieux. La machine est moins efficace quand on lui impose notre manière d'utiliser la langue. Autrement dit, plus on apprend à la machine ce qu'est vraiment une langue, moins elle est capable de traduire.

Les méthodes statistiques ont bien marché juqu'au début des années 2000. Ensuite, on s'est rendu compte qu'ajouter encore plus de connaissances humaines dans la machine ne l'aide pas à mieux traduire. Ensuite il y a eu l'apprentissage profond (deep learning). Cela a commencé dans la reconnaissance d'images. L'idée est de laisser la machine avoir sa propre représentation de  l'image d'un chat par exemple au lieu de lui inculquer comment nous humains on reconnait un chat. Il y a un tournant vers 2012 ou la puissance des machines permet le déploiement des réseaux de neurones. Le réseau de neurones va travailler au niveau de la phrase. On n'a plus besoin d'assembler des bouts de mots comme dans la méthode statistique. On a un encodeur et décodeur : la phrase source est transformée en une  représentation interne en machine, puis cette représentation est décodée dans la langue destinaire. En machine, on représente les mots par des vecteurs en 300 dimensions. Pour chaque mot est calculée une probabilité dans chaque dimension : par exemple la probabilité d'être un homme ou une femme, etc ... divisé en unité de sens. Donc si on enlève à  roi le sens homme et qu'on lui ajoute le sens femme, l'ordinateur calcule reine. De cette façon, on comprend que voiture et automobile vont avoir une proximité proche de 1 alors que voiture et bonheur ou manger, une proximité proche de 0.

Est-il plus facile ou difficile de traduire certaines langues que d'autres ? La réponse est oui car d'une part la masse de données, suffisante pour l'anglais, français, ne l'est pas nécessairement pour d'autres langues, et d'autre part, la complexité de la langue intervient. Lorque que la forme change suivant la fonction du mot (latin et allemand), c'est plus compliqué. A ce niveau, l'anglais qui est une langue assez simple a un avantage certain.

 

►Les relations "mi figue mi raison" entre l'anglais et le français

Enfin, je termine cette lettre par une autre émission, également très intéressante, Grand bien vous fasse ! toujours sur FranceInter. L'émission du 21 octobre est intitulée : Ce que la langue française doit à l'anglais (et inversement). Tout un débat qui provoque toujours autant de réactions animées et amusantes car l'histoire est bien là pour nous rappeller les relations disons ... particulières que nous avons entretenu (et entretenons toujours ?) avec nos voisins anglais :).

À très bientôt !
 
 

Télécharger la page

Dernière modification : 29 octobre 2020



Université de Caen Normandie
Laboratoire CRISCO
Esplanade de la Paix | CS 14032 | 14032 Caen cedex 5