Synthèse vocale d’une langue peu documentée

  • Dernière modification de la publication :27 mars 2023
  • Post category:Projet réalisé

Travail effectué dans le cadre d’un contrat de prestation sur une durée de 10 mois, de janvier à octobre 2013

En synthèse de la parole par diphones, les ressources essentielles sont la voix (formée de tous les diphones possibles de la langue), la transcription phonétique (qui permet de transcrire le texte alphabétique sous forme phonétique), et la prosodie (variations de hauteur, intensité et durée, alignées sur le texte à interpréter).

L’intelligibilité de la parole produite dépend de la qualité de la voix (qualité des enregistrements, prononciation claire, bien articulée), de la transcription phonétique (conforme à ce qui doit être prononcé) et à un degré moindre de la prosodie (accents démarcatifs bien placés, saillance des segments riches en information).

L’agrément d’écoute et le naturel dépendent de la qualité de la voix et de son traitement (qualité des enregistrements et des traitements numériques, articulation douce, pas trop saccadée, bon raccordement des diphones), de la transcription phonétique (bon choix des phonèmes et de leurs variantes) et de la prosodie (voisine de la prosodie d’une interprétation humaine agréable).

Le français et l’anglais étant déjà développés pour le logiciel Kali, il fallait principalement, pour une nouvelle langue, créer une voix, une transcription phonétique suffisamment performante, une analyse syntaxique et pragmatique, et une prosodie basée sur des contours naturels en situation de dialogue.

Les ressources qui nous ont été fournies pour ce faire étaient :

  • un corpus écrit varié et de grande taille,
  • un corpus oral d’informations télévisées transcrites,
  • un corpus oral de conversation dirigée, transcrite et traduite,
  • une documentation sur la langue, son système d’écriture, son vocabulaire, ses catégories grammaticales, sa syntaxe et de nombreux exemples commentés.

La voix

Elle a été créée à partir du corpus oral télévisuel, dont la voix d’un journaliste comportait 2 h d’enregistrements de qualité suffisante. Les défauts de ce corpus étaient le fond sonore, la présence de voix superposées, et la saturation de certains enregistrements, d’où élimination des deux tiers du corpus. Nous avons sélectionné les meilleurs enregistrements, mais des défauts subsistaient : vitesse d’élocution souvent élevée et importantes variations de hauteur, obligeant le traitement d’une assez grande quantité de signal pour sélectionner les meilleurs diphones. Le corpus VOIX retenu représentait 1000 phrases.

Un jeu de 41 phonèmes a été choisi, ce qui représentait 1681 diphones à fabriquer. Un programme a été conçu pour sélectionner les phrases les plus productives en diphones, afin d’obtenir tous les diphones du corpus en 3 exemplaires au moins, à partir du minimum de phrases. Les plus longues phrases ont été préalablement redécoupées aux emplacements des pauses afin d’éviter le traitement inutile de parties peu productives. Le résultat est un nombre de 424 phrases ou portions de phrases retenues.

Une fois toutes les phrases traitées, la base de diphones a été complétée en fabriquant les diphones rares (absents du corpus) par des traitements mêlant duplication, juxtaposition et interpolation. Ces traitements ont également permis de revoir les diphones les moins bons.

Enfin, un nouveau tri des phrases du corpus a été effectué en fonction de leur qualité pour en extraire les meilleures : rapport signal/bruit, qualité du microphone, pas de saturation, élocution pas trop rapide, bonne prononciation. Le traitement des quelques dizaines de phrases ainsi sélectionnées a permis d’assurer une qualité optimale à tous les diphones les plus fréquents, ainsi qu’à de nombreux autres.

La voix obtenue est suffisamment claire pour assurer une intelligibilité quasi-totale de tout énoncé. Son agrément d’écoute est jugé moyen et son naturel assez faible, inconvénients habituels de la synthèse par diphones.

La transcription phonétique

Dans le logiciel Kali, la transcription phonétique est d’abord basée sur un dictionnaire de phonétisation. En cas d’absence d’une forme dans le dictionnaire, le programme fait appel à un ensemble de règles de correspondance graphème-phonème structurées. Selon la langue, les règles de correspondance graphème-phonème peuvent se révéler très performantes (écriture pseudo-phonétique comme le wolof ou régularité des exceptions comme le français) ; le dictionnaire de phonétisation peut alors être réduit aux formes irrégulières et aux noms propres et mots d’emprunt. Dans d’autres cas (l’anglais par exemple), la correspondance graphème-phonème dépend du mot entier ; il est alors nécessaire de développer un dictionnaire aussi complet que possible des formes rencontrées dans les corpus.

Dans le cas présent, le système d’écriture de la langue ne représente pas tous les phonèmes, ce qui rend impossible l’écriture de règles de phonétisation fiables ; les formes complètes sont nécessaires. Tout juste pouvons-nous prévoir une correspondance statistiquement prépondérante entre certaines séquences de graphèmes et les séquences phonétiques associées. Nous avons créé ces règles à partir de statistiques basées sur le dictionnaire de phonétisation. Leur évaluation sur 100 mots absents du dictionnaire donne un résultat de 63 % de bonnes transcriptions.

Dans le cas d’une langue peu documentée, la construction du dictionnaire de phonétisation est un travail de longue haleine. Pour un maximum d’efficacité, ce dictionnaire a été construit dans l’ordre de fréquence des formes en corpus : tout d’abord, les mots typographiques des trois corpus ont été triés par ordre de fréquence et placés dans un tableau. Les fréquences ont été pondérées pour équilibrer les corpus.

Les mots ont été transcrits en utilisant les documents fournis et des requêtes sur l’Internet. Pour traiter les nombreux cas d’échec, un programme de recherche de mots dans le corpus oral a été réalisé, afin de pouvoir écouter les différentes occurrences de chaque forme et établir leur transcription, la présence éventuelle et la position de leur accent.

Le dictionnaire de phonétisation comporte aujourd’hui 6000 mots transcrits, pour une présence en corpus de 87 %. Après application des règles sur les 13 % de mots manquants, le taux de mots mal transcrits est inférieur à 5 %, soit un mot sur 20. En supposant que les mots mal transcrits soient intelligibles à 50 % et compte tenu du contexte correctement transcrit, il est très probable que presque toutes les phrases soient totalement compréhensibles. Des essais avec un locuteur nous ont permis de confirmer cette hypothèse.

La prosodie

La prosodie est la représentation de la structure du texte par les paramètres acoustiques : structure lexicale grâce aux accents de mot, structure syntaxique grâce aux accents démarcatifs, structure informationnelle grâce à la saillance prosodique de certains mots ou groupes de mots, attitudes suggérées par la ponctuation. Les prochaines générations de synthèses de la parole pourraient même simuler des affects grâce à une analyse sémantique poussée. Bien que la prosodie ne soit pas essentielle à l’intelligibilité, elle joue un rôle significatif dans celle-ci, tout en améliorant l’agrément d’écoute et le naturel.

Dans Kali, une analyse syntaxique performante permet de repérer les groupes de mots fortement liés entre eux (tronçons) et, avec une efficacité moindre, de les mettre en relation. Elle permet également de distinguer les mots pleins et les mots vides. En même temps, une analyse pragmatique utilisant un lexique énonciatif et un lexique informationnel permet de mettre en relief certains mots ou groupes de mots avec une efficacité de 80 %.

À partir d’un dialogue fourni, nous avons extrait une série de contours prosodiques naturels, constitués des paramètres acoustiques de hauteur, intensité et vitesse de chaque tronçon, ancrés sur les noyaux vocaliques. Chaque contour est associé à une clé, représentation mathématique des contraintes syntaxiques, pragmatiques et rythmiques auxquelles il est soumis (notamment taille du tronçon en syllabes, position, fonction, distribution de l’information, ponctuation.

Nous disposons aujourd’hui de 75 contours prosodiques, pour 29 groupes de souffle, 24 phrases, et 13 paragraphes. Ce nombre est inférieur à ce qui était prévu, car le traitement de dialogues spontanés (même dirigés) pose des problèmes qui ralentissent leur traitement : disparition ou réduction de phonèmes, fortes variations d’intensité ou de vitesse dont le rendu en synthèse est mauvais. De plus, la structure syntaxique des dialogues spontanés est parfois difficile à établir. Malgré ces limitations, les contours naturels sont présents à 35 % en corpus, ce qui augmente de façon significative le naturel des énoncés.

Lorsqu’un contour naturel est absent, il est remplacé par un contour normalisé qui simule d’une façon standard la déclinaison, les accents démarcatifs, les accents de mot et la saillance prosodique. Bien que ces contours soient un peu répétitifs et manquent de naturel, ils sont réguliers et fluides. Leur alternance avec des contours naturels passe relativement inaperçue.

Conclusion

La fabrication d’une nouvelle langue en synthèse de la parole par diphones demande entre 600 et 2000 heures de travail selon la difficulté à la modéliser. Nous sommes ici dans le cas le plus défavorable. L’objectif est cependant atteint : parole intelligible, agrément d’écoute et naturel au mieux de ce que peut produire cette méthode de synthèse.