Le nombre de propositions accepté par mois se situe entre 70 et 90. Cette limite que nous ne pouvons malheureusement pas étendre est définie en fonction de la charge de travail de l'ingénieure en charge du DES. Nous espérons que cela ne découragera pas trop nos lecteurs assidus qui régulièrement nous soumettent des liaisons, souvent pertinentes. Le compteur est remis à zéro en début de chaque mois. A noter dans vos agendas !
En parallèle du traitement des propositions des utilisateurs, un important travail de gestion des synonymes isolés est en cours. Les synonymes isolés d'une vedette sont les mots uniquement reliés à la vedette et à aucun autre synonyme de cette dernière. En effet, sur l'ensemble des 50.000 entrées du DES, plus de 70 % ont de 1 à 25 liens synonymiques isolés. Nous avons depuis juin dernier traité 82 entrées (appelées vedettes) qui ont plus de 50 synonymes dont 5 isolés. Un traitement automatique nous a permis de proposer pour les 82*5 = 410 paires jusqu'à 5 synonymes de la vedette selon un calcul donné provenant d'une adaptation
(et détaillé dans une publication qui paraitra prochainement). Ensuite, une vérification manuelle a eu lieu sur ces 2050 triplets (82*5*5).
Ces exemples sont déjà présents dans le DES.
Une 2nde vague de traitement a débuté en juillet dernier portant sur 103 vedettes qui ont 4 synonymes isolés : pour chacun, de 5 à 8 synonymes sont proposés, à valider ou pas. Cela correspond au minimum à 103*4*5 = 2060 triplets à traiter ...
L'état d'avancement global est consultable dans le tableau de la rubrique "comment le DES est mis à jour ?" sur la page de
.
L'ajout d'un participe passé issu directement d'un verbe n'est pas systématique. Par exemple, nous avons reçu comme propositions:
est bien synonyme de tous ces mots mais aucun n'est un adjectif "pur". Il n'y a pas d'intérêt à faire correspondre la forme participe passé d'un verbe à toutes les formes participe passé des synonymes de ce verbe : c'est redondant et n'apporte rien de plus puisqu'il suffit de rechercher les synonymes de la forme verbiale pour obtenir tous les synonymes du type participe passé. Par contre,
qui sont des formes uniquement adjectivales. Quand 2 formes participe passé sont proposées comme synonymes et si elles sont déjà présentes dans la base de données, nous ajoutons le lien synonymique mais nous ne créons pas une nouvelle entrée de type participe passé si le seul lien proposé est de type participe passé également.
". Elle a été définie par Bernard Victorri et Sabine Ploux les concepteurs du DES de la façon suivante (issue de
La synonymie "partielle" est beaucoup moins restrictive. En effet, il existe très peu de synonymes "purs" en raison de la polysémie largement répandue dans le langage.
Une synonymie pure implique une propriété mathématique appelée transitivité : si A est synonyme de B et B synonyme de C, alors A est synonyme de C.
Dans le cas d'une synonymie partielle, et en raison de la polysémie, cette propriété n'est pas systématique vérifiée. Par exemple,
défendre et
interdire sont synonymes dans le contexte
défendre /interdire de fumer .
Défendre et
soutenir le sont dans
défendre/soutenir les droits de l'homme mais
soutenir et
interdire ne sont en aucun cas synonymes.
Cela dit, il est important de se rappeler que même en cas de synonymie partielle, la catégorie grammaticale est à respecter : un adjectif "pur" ne peut pas être remplacé par un nom "pur" car il doit exister un contexte dans lequel l'un peut remplacer l'autre. Donc l'un des deux doit appartenir aux deux catégories grammaticales pour être éventuellement synonymes.
►Focus sur la traduction automatique
FranceInter a diffusé il y a quelques semaines, dans son émission "
Le code a changé" un historique et un état des lieux de la traduction automatique en interrogeant
Thierry Poibeau, directeur de recherche au CNRS qui a publié un livre "
Babel 2.0 Ou va la traduction automatique ?". Cette conversation passionnante que vous pouvez retrouver en
podcast nous explique chronologiquement de façon claire les étapes de cet objectif ambitieux qui n'est pas si récent que cela.
En voici les grandes lignes ci-dessous mais bien sûr, si vous avez la possibilité de réécouter le podcast, n'hésitez pas !
Il n'y a pas si longtemps, il était habituel de s'amuser et de se moquer des traductions que
google translate nous donnait. Mais depuis environ les années 2014-2016, on s'est rendu compte que cela ne marche pas si mal.
Qu'y a t-il eu comme progrès depuis ?
Tout d'abord, qu'entend-on par traduire ? Traduire c'est la mise en rapport de systèmes lexicaux et syntaxiques très différents, de rapport au monde et de représentation de ce dernier. En fait, on a aucune idée de la façon dont une langue est formalisée. On essaie depuis une soixantaine d'années mais on ne sait toujours pas vraiment comment cela fonctionne.
On peut faire une phrase qui est syntaxiquement juste mais qui n'a aucun sens
"la vache fronce la voiture en haut de l'arbre". Et inversement une phrase qui est syntaxiquement incorrecte peut avoir un sens. Comme, par exemple, dans la chanson "Elle a les yeux revolvers" de Marc Lavoine : "
Tellement si belle, je l'aime tellement si fort".
Pourquoi est-ce dur de faire de la traduction automatique des langues ? Parce que il y a plus de 50.000 mots dans une langue et chaque mot est ambigu. Le sens du mot émerge dans le sens du contexte. La quantité amène une explosion combinatoire difficile à traiter par les ordinateurs.
Par exemple, si nous prenons la phrase :
"l'avocat a livré une plaidoierie au vitriol". L'avocat correspond soit au fruit soit à l'homme de loi. Ensuite, rien n'est livré/fourni/donné dans ce contexte. Le sens à prendre en compte est "aller vers" qui peut convenir avec l'avocat, l'homme de loi. Enfin, "au vitriol" ne veut pas du tout dire que l'avocat a manipulé de l'acide sulfurique : il s'agit d'une expression figée qui a sens proche de violemment. Il s'agit d'amplifier l'action de l'avocat. Pour nous, c'est évident mais cela l'est beaucoup moins pour la machine.
Le besoin de traduire automatique d'une langue à une autre est né pendant la seconde guerre mondiale avec le projet Enigma qui avait pour but de déchiffrer les messages cryptés des allemands. Traduire a donc été vu comme déchiffrer. On a
confondu longtemps déchiffrement et traduction. Or le texte à déchiffrer lors de la guerre froide était obscur mais pas ambigu comme cela est le cas dans la traduction. Aucune clé de déchiffrement ne peut lever l'ambiguité : il faut interpréter.
Au début des recherches dans les années 50, seuls le papier et le crayon étaient possibles. Puis, des dictionnaires bilingues sont apparus avec un ensemble de règles pour, par exemple, changer l'ordre des mots :
red car - voiture rouge. C'était assez limité. Une autre piste était de se poser la question : comment notre cerveau fonctionne pour trouver un autre système pour désambiguïser ? On s'est appuyé sur la
Gestalt , théorie qui se base sur le fait que le tout détermine le sens des parties : on est dans un contexte, on a une situation et on va déterminer le sens (exemple avec l'avocat, homme de loi). Le contexte nous donne immédiatement le sens du mot. On s'obstine dans cette voie jusqu'aux années 60 puis les recherches se sont arrêtées pendant environ 30 ans.
IBM a relancé le processus en utilisant des méthodes statistiques : on part de 2 textes dans 2 langues différentes, l'un étant la traduction exacte de l'autre. L'ordinateur va faire des calculs de statistiques pour établir par exemple que
house est en face de
maison,
dog en face de
chien, etc... Le même processus est utilisé pour des groupes de mots. Du coup, on renonce à comprendre une langue et on se base uniquement sur la statistique des occurrences dans le traitement d'énormes traductions bilingues. Cette méthode a été enrichie en moissonant le web dans les années 2000 et amplifiée avec l'augmentation de la puissance des ordinateurs. Plusieurs sites voient le jour, chacun avec sa particularité : le site
google traduction se base sur le web alors le site
linguee se base des corpus du parlement européen, ce qui donne une analyse plus fine.
Cette méthode identifie donc des groupes équivalents entre les langues. Mais on arrive à une limite car ces groupes ne correspondent pas à ceux qu'on fait quand on traduit. Car la machine découpe et traduit en fonction des occurrences. Par exemple le groupe de mots "le gout de la papaye" est découpé en "le gout de" et plus loin "papaye". Alors on a cherché à contraindre la machine à certains groupes de mots plus proches de la traduction humaine. Mais les résultats ne sont pas mieux.
La machine est moins efficace quand on lui impose notre manière d'utiliser la langue.
Autrement dit, plus on apprend à la machine ce qu'est vraiment une langue, moins elle est capable de traduire.
Les méthodes statistiques ont bien marché juqu'au début des années 2000. Ensuite, on s'est rendu compte qu'ajouter encore plus de connaissances humaines dans la machine ne l'aide pas à mieux traduire. Ensuite il y a eu l'apprentissage profond (deep learning). Cela a commencé dans la reconnaissance d'images.
L'idée est de laisser la machine avoir sa propre représentation de l'image d'un chat par exemple au lieu de lui inculquer comment nous humains on reconnait un chat. Il y a un tournant vers 2012 ou la puissance des machines permet le déploiement des réseaux de neurones. Le réseau de neurones va travailler au niveau de la phrase. On n'a plus besoin d'assembler des bouts de mots comme dans la méthode statistique. On a un encodeur et décodeur : la phrase source est transformée en une représentation interne en machine, puis cette représentation est décodée dans la langue destinaire. En machine, on représente les mots par des vecteurs en 300 dimensions. Pour chaque mot est calculée une probabilité dans chaque dimension : par exemple la probabilité d'être un homme ou une femme, etc ... divisé en unité de sens. Donc si on enlève à
roi le sens
homme et qu'on lui ajoute le sens
femme, l'ordinateur calcule
reine. De cette façon, on comprend que
voiture et
automobile vont avoir une proximité proche de 1 alors que
voiture et
bonheur ou
manger, une proximité proche de 0.
Est-il plus facile ou difficile de traduire certaines langues que d'autres ? La réponse est oui car d'une part la masse de données, suffisante pour l'anglais, français, ne l'est pas nécessairement pour d'autres langues, et d'autre part, la complexité de la langue intervient. Lorque que la forme change suivant la fonction du mot (latin et allemand), c'est plus compliqué. A ce niveau, l'anglais qui est une langue assez simple a un avantage certain.