Synthèse vocale d’une langue peu documentée · CRISCO - Centre de recherches inter-langues sur la signification en contexte

Travail effectué dans le cadre d’un contrat de prestation sur une durée de 10 mois, de janvier à octobre 2013

En synthèse de la parole par diphones, les ressources essentielles sont la voix (formée de tous les diphones possibles de la langue), la transcription phonétique (qui permet de transcrire le texte alphabétique sous forme phonétique), et la prosodie (variations de hauteur, intensité et durée, alignées sur le texte à interpréter).

L’intelligibilité de la parole produite dépend de la qualité de la voix (qualité des enregistrements, prononciation claire, bien articulée), de la transcription phonétique (conforme à ce qui doit être prononcé) et à un degré moindre de la prosodie (accents démarcatifs bien placés, saillance des segments riches en information).

L’agrément d’écoute et le naturel dépendent de la qualité de la voix et de son traitement (qualité des enregistrements et des traitements numériques, articulation douce, pas trop saccadée, bon raccordement des diphones), de la transcription phonétique (bon choix des phonèmes et de leurs variantes) et de la prosodie (voisine de la prosodie d’une interprétation humaine agréable).

Le français et l’anglais étant déjà développés pour le logiciel Kali, il fallait principalement, pour une nouvelle langue, créer une voix, une transcription phonétique suffisamment performante, une analyse syntaxique et pragmatique, et une prosodie basée sur des contours naturels en situation de dialogue.

Les ressources qui nous ont été fournies pour ce faire étaient :

un corpus écrit varié et de grande taille,
un corpus oral d’informations télévisées transcrites,
un corpus oral de conversation dirigée, transcrite et traduite,
une documentation sur la langue, son système d’écriture, son vocabulaire, ses catégories grammaticales, sa syntaxe et de nombreux exemples commentés.

La voix

Elle a été créée à partir du corpus oral télévisuel, dont la voix d’un journaliste comportait 2 h d’enregistrements de qualité suffisante. Les défauts de ce corpus étaient le fond sonore, la présence de voix superposées, et la saturation de certains enregistrements, d’où élimination des deux tiers du corpus. Nous avons sélectionné les meilleurs enregistrements, mais des défauts subsistaient : vitesse d’élocution souvent élevée et importantes variations de hauteur, obligeant le traitement d’une assez grande quantité de signal pour sélectionner les meilleurs diphones. Le corpus VOIX retenu représentait 1000 phrases.

Un jeu de 41 phonèmes a été choisi, ce qui représentait 1681 diphones à fabriquer. Un programme a été conçu pour sélectionner les phrases les plus productives en diphones, afin d’obtenir tous les diphones du corpus en 3 exemplaires au moins, à partir du minimum de phrases. Les plus longues phrases ont été préalablement redécoupées aux emplacements des pauses afin d’éviter le traitement inutile de parties peu productives. Le résultat est un nombre de 424 phrases ou portions de phrases retenues.

Une fois toutes les phrases traitées, la base de diphones a été complétée en fabriquant les diphones rares (absents du corpus) par des traitements mêlant duplication, juxtaposition et interpolation. Ces traitements ont également permis de revoir les diphones les moins bons.

Enfin, un nouveau tri des phrases du corpus a été effectué en fonction de leur qualité pour en extraire les meilleures : rapport signal/bruit, qualité du microphone, pas de saturation, élocution pas trop rapide, bonne prononciation. Le traitement des quelques dizaines de phrases ainsi sélectionnées a permis d’assurer une qualité optimale à tous les diphones les plus fréquents, ainsi qu’à de nombreux autres.

La voix obtenue est suffisamment claire pour assurer une intelligibilité quasi-totale de tout énoncé. Son agrément d’écoute est jugé moyen et son naturel assez faible, inconvénients habituels de la synthèse par diphones.

La transcription phonétique

Dans le logiciel Kali, la transcription phonétique est d’abord basée sur un dictionnaire de phonétisation. En cas d’absence d’une forme dans le dictionnaire, le programme fait appel à un ensemble de règles de correspondance graphème-phonème structurées. Selon la langue, les règles de correspondance graphème-phonème peuvent se révéler très performantes (écriture pseudo-phonétique comme le wolof ou régularité des exceptions comme le français) ; le dictionnaire de phonétisation peut alors être réduit aux formes irrégulières et aux noms propres et mots d’emprunt. Dans d’autres cas (l’anglais par exemple), la correspondance graphème-phonème dépend du mot entier ; il est alors nécessaire de développer un dictionnaire aussi complet que possible des formes rencontrées dans les corpus.

Dans le cas présent, le système d’écriture de la langue ne représente pas tous les phonèmes, ce qui rend impossible l’écriture de règles de phonétisation fiables ; les formes complètes sont nécessaires. Tout juste pouvons-nous prévoir une correspondance statistiquement prépondérante entre certaines séquences de graphèmes et les séquences phonétiques associées. Nous avons créé ces règles à partir de statistiques basées sur le dictionnaire de phonétisation. Leur évaluation sur 100 mots absents du dictionnaire donne un résultat de 63 % de bonnes transcriptions.

Dans le cas d’une langue peu documentée, la construction du dictionnaire de phonétisation est un travail de longue haleine. Pour un maximum d’efficacité, ce dictionnaire a été construit dans l’ordre de fréquence des formes en corpus : tout d’abord, les mots typographiques des trois corpus ont été triés par ordre de fréquence et placés dans un tableau. Les fréquences ont été pondérées pour équilibrer les corpus.

Les mots ont été transcrits en utilisant les documents fournis et des requêtes sur l’Internet. Pour traiter les nombreux cas d’échec, un programme de recherche de mots dans le corpus oral a été réalisé, afin de pouvoir écouter les différentes occurrences de chaque forme et établir leur transcription, la présence éventuelle et la position de leur accent.

Le dictionnaire de phonétisation comporte aujourd’hui 6000 mots transcrits, pour une présence en corpus de 87 %. Après application des règles sur les 13 % de mots manquants, le taux de mots mal transcrits est inférieur à 5 %, soit un mot sur 20. En supposant que les mots mal transcrits soient intelligibles à 50 % et compte tenu du contexte correctement transcrit, il est très probable que presque toutes les phrases soient totalement compréhensibles. Des essais avec un locuteur nous ont permis de confirmer cette hypothèse.

La prosodie

La prosodie est la représentation de la structure du texte par les paramètres acoustiques : structure lexicale grâce aux accents de mot, structure syntaxique grâce aux accents démarcatifs, structure informationnelle grâce à la saillance prosodique de certains mots ou groupes de mots, attitudes suggérées par la ponctuation. Les prochaines générations de synthèses de la parole pourraient même simuler des affects grâce à une analyse sémantique poussée. Bien que la prosodie ne soit pas essentielle à l’intelligibilité, elle joue un rôle significatif dans celle-ci, tout en améliorant l’agrément d’écoute et le naturel.

Dans Kali, une analyse syntaxique performante permet de repérer les groupes de mots fortement liés entre eux (tronçons) et, avec une efficacité moindre, de les mettre en relation. Elle permet également de distinguer les mots pleins et les mots vides. En même temps, une analyse pragmatique utilisant un lexique énonciatif et un lexique informationnel permet de mettre en relief certains mots ou groupes de mots avec une efficacité de 80 %.

À partir d’un dialogue fourni, nous avons extrait une série de contours prosodiques naturels, constitués des paramètres acoustiques de hauteur, intensité et vitesse de chaque tronçon, ancrés sur les noyaux vocaliques. Chaque contour est associé à une clé, représentation mathématique des contraintes syntaxiques, pragmatiques et rythmiques auxquelles il est soumis (notamment taille du tronçon en syllabes, position, fonction, distribution de l’information, ponctuation.

Nous disposons aujourd’hui de 75 contours prosodiques, pour 29 groupes de souffle, 24 phrases, et 13 paragraphes. Ce nombre est inférieur à ce qui était prévu, car le traitement de dialogues spontanés (même dirigés) pose des problèmes qui ralentissent leur traitement : disparition ou réduction de phonèmes, fortes variations d’intensité ou de vitesse dont le rendu en synthèse est mauvais. De plus, la structure syntaxique des dialogues spontanés est parfois difficile à établir. Malgré ces limitations, les contours naturels sont présents à 35 % en corpus, ce qui augmente de façon significative le naturel des énoncés.

Lorsqu’un contour naturel est absent, il est remplacé par un contour normalisé qui simule d’une façon standard la déclinaison, les accents démarcatifs, les accents de mot et la saillance prosodique. Bien que ces contours soient un peu répétitifs et manquent de naturel, ils sont réguliers et fluides. Leur alternance avec des contours naturels passe relativement inaperçue.

Conclusion

La fabrication d’une nouvelle langue en synthèse de la parole par diphones demande entre 600 et 2000 heures de travail selon la difficulté à la modéliser. Nous sommes ici dans le cas le plus défavorable. L’objectif est cependant atteint : parole intelligible, agrément d’écoute et naturel au mieux de ce que peut produire cette méthode de synthèse.

Lecture

7 minutes

Cookie	Type	Durée	Description
__Secure-YEC	tiers	13 mois	Le cookie « __Secure-YEC » est utilisé pour détecter les spams, les fraudes et les abus afin de garantir que les annonceurs ne soient pas facturés à tort pour des impressions ou des interactions frauduleuses ou invalides avec les publicités, et que les créateurs YouTube participant au programme Partenaire YouTube soient rémunérés de manière équitable.
_pk_id.*	persistant	1 an 27 jours	Utilisé par Matomo pour stocker des informations sur l’utilisateur, telles que l’identifiant unique du visiteur.
_pk_ref*	persitant	6 mois	Utilisé par Matomo pour stocker les informations d’attribution, le référent initialement utilisé pour visiter le site Web.
_pk_ses.*	session	30 minutes	Cookies de courte durée utilisés par Matomo pour stocker temporairement les données de la visite.
_pk_testcookie_domain	session	moins d'une minute	Utilisé par Matomo pour vérifier si le navigateur du visiteur prend en charge les cookies.
affluenceswebapi_ga	tiers	session	Les widgets web (webAPI) ont pour objectif de diffuser les informations d'affluence (taux d'occupation, horaires, temps d'attente) sur des sites web tiers. Un tag Google Analytics est intégré à cette webAPI afin de mesurer le nombre de consultations des outils pour assurer leur bon fonctionnement et pertinence. - Aucune donnée personnelle n'est traitée, consultée ou stockée via l'utilisation des webAPIs et du tag Google Analytics - Les adresses IP des utilisateurs sont anonymisées afin de garantir leur confidentialité
affluenceswebapi_ga_0DZGM777JP	tiers	session	Les widgets web (webAPI) ont pour objectif de diffuser les informations d'affluence (taux d'occupation, horaires, temps d'attente) sur des sites web tiers. Un tag Google Analytics est intégré à cette webAPI afin de mesurer le nombre de consultations des outils pour assurer leur bon fonctionnement et pertinence. - Aucune donnée personnelle n'est traitée, consultée ou stockée via l'utilisation des webAPIs et du tag Google Analytics - Les adresses IP des utilisateurs sont anonymisées afin de garantir leur confidentialité
BIGipServer*	session	session	Le cookie BIGipServer* est principalement utilisé pour l'équilibrage de charge. Lorsqu'un utilisateur accède à un site web ou à une application qui utilise des dispositifs F5 BIG-IP, ce cookie aide à diriger les requêtes de l'utilisateur vers le même serveur backend pour la durée de la session. Cela assure la cohérence et la continuité de la session utilisateur.
cli_user_preference	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. L'objectif de ce cookie est d'enregistrer si l'utilisateur a donné ou non son consentement à l'utilisation des cookies. Il ne stocke aucune donnée personnelle.
cookielawinfo-checkbox-fonctionnel	persistant	1 an	Le cookie est défini par le consentement du cookie GDPR pour enregistrer le consentement de l'utilisateur pour les cookies dans la catégorie «Fonctionnel».
cookielawinfo-checkbox-necessaire	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-publicite	persistant	1 an	Défini par le plugin de consentement aux cookies GDPR, ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie «Publicité».
CookieLawInfoConsent	persistant	1 an	CookieYes définit ce cookie pour enregistrer l'état du bouton par défaut de la catégorie correspondante et le statut du CCPA. Il fonctionne uniquement en coordination avec le cookie principal.
csrftoken	tiers	1 an	Ce cookie est associé à la plate-forme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes entre sites.
dmvk	tiers	session	Clé vidéo aléatoire utilisée pour empêcher l’interruption de la vidéo regardée par un utilisateur final lorsqu’il navigue entre les réseaux de différents fournisseurs d’accès Internet.
PHPSESSID	session	session	Ce cookie est natif des applications PHP. Le cookie est utilisé pour stocker et identifier l'identifiant de session unique d'un utilisateur dans le but de gérer la session utilisateur sur le site Web. Le cookie est un cookie de session et est supprimé lorsque toutes les fenêtres du navigateur sont fermées.
pll_language	persistant	1 an	Le cookie pll _language est utilisé par Polylang pour se souvenir de la langue sélectionnée par l'utilisateur lorsqu'il revient sur le site web, et également pour obtenir des informations sur la langue lorsqu'elles ne sont pas disponibles d'une autre manière.
ts	tiers	13 mois	Il s'agit d'un cookie mis en place par Dailymotion. Cookie de segment de trafic utilisé principalement pour le déploiement progressif, une fonctionnalité technique critique qui empêche les pannes de service massives pendant la mise en œuvre de nouveaux développements ou de nouvelles fonctionnalités.
usprivacy	tiers	13 mois	Il s'agit d'un cookie de consentement mis en place par Dailymotion pour stocker la chaîne de consentement CCPA (informations obligatoires sur le fait qu'un utilisateur final est ou n'est pas un consommateur californien et qu'il exerce ou n'exerce pas son droit statutaire).
v1st	tiers	13 mois	Il s’agit de votre identifiant numérique unique sur le Service Dailymotion. Il est utilisé pour délivrer le Service Dailymotion, et, en particulier pour : – la détection et la prévention des fraudes ; – la sécurité du Service Dailymotion ; – le respect des obligations légales (par exemple, l’obligation de réponse aux réquisitions judiciaires en matière d’accès aux vidéos) ; – l’identification de l’âge d’un utilisateur final
viewed_cookie_policy	persistant	1 an	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
VISITOR_PRIVACY_METADATA	tiers	6 mois	YouTube définit ce cookie pour enregistrer le consentement de l'utilisateur à l'utilisation de cookies pour le domaine actuel.
wordpress_test_cookie	session	session	Ce cookie est utilisé par WordPress pour vérifier si les cookies sont activés dans le navigateur de l’utilisateur.
wp_lang	session	session	Pour enregistrer les paramètres linguistiques.

Cookie	Type	Durée	Description
__Secure-ROLLOUT_TOKEN	tiers	6 mois	__Secure-ROLLOUT_TOKEN est utilisé par YouTube pour gérer le déploiement progressif de nouvelles fonctionnalités et mises à jour. Ce cookie permet d'affecter les utilisateurs à des groupes de test spécifiques pour des fonctionnalités expérimentales, telles que des modifications de l'interface utilisateur ou du lecteur vidéo. Le préfixe __Secure- indique que le cookie est uniquement transmis via une connexion HTTPS sécurisée, ce qui renforce la sécurité des données.
test_cookie	tiers	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
VISITOR_INFO1_LIVE	tiers	5 mois 27 jours	Un cookie mis en place par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	tiers	session	Le cookie YSC est mis en place par Youtube et est utilisé pour suivre les vues des vidéos intégrées sur les pages Youtube.
yt.innertube::nextId	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.
yt.innertube::requests	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.

Cookie	Type	Durée	Description
_42b19	session	session	Il permet de stocker des informations temporaires spécifiques à la session de l'utilisateur, telles que les préférences de navigation, les choix ou les paramètres spécifiques, afin de fournir une expérience utilisateur cohérente et personnalisée. Ce cookie est essentiel pour assurer le bon fonctionnement de certaines fonctionnalités du site web pendant la session active et est supprimé automatiquement lorsque l'utilisateur ferme son navigateur.
activeCollapseAside	session	session	Le cookie activeCollapseAside permet de sauvegarder l'état d'un panneau latéral ou d'une barre latérale.
NEXT_LOCALE	persitant	1 an	Il permet de stocker la langue locale préférée de l'utilisateur et de la récupérer lors de ses visites ultérieures sur le site.
yt-remote-cast-available	tiers	session	Le cookie yt-remote-cast-available est utilisé pour enregistrer les préférences de l'utilisateur concernant la disponibilité de la fonction de diffusion sur son lecteur vidéo YouTube.
yt-remote-cast-installed	tiers	session	Le cookie yt-remote-cast-installed est utilisé pour stocker les préférences de l'utilisateur en matière de lecteur vidéo à l'aide d'une vidéo YouTube intégrée.
yt-remote-connected-devices	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-device-id	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-fast-check-period	tiers	session	Le cookie yt-remote-fast-check-period est utilisé par YouTube pour enregistrer les préférences de l'utilisateur concernant le lecteur vidéo pour les vidéos YouTube intégrées.
yt-remote-session-app	tiers	session	Le cookie yt-remote-session-app est utilisé par YouTube pour stocker les préférences de l'utilisateur et les informations relatives à l'interface du lecteur vidéo YouTube intégré.
yt-remote-session-name	tiers	session	Le cookie yt-remote-session-name est utilisé par YouTube pour enregistrer les préférences de l'utilisateur concernant le lecteur vidéo à l'aide d'une vidéo YouTube intégrée.
ytidb::LAST_RESULT_ENTRY_KEY	tiers	jamais	Le cookie ytidb::LAST_RESULT_ENTRY_KEY est utilisé par YouTube pour stocker le dernier résultat de recherche sur lequel l'utilisateur a cliqué. Ces informations sont utilisées pour améliorer l'expérience utilisateur en fournissant des résultats de recherche plus pertinents à l'avenir.

La voix

La transcription phonétique

La prosodie

Conclusion

Dans la même catégorie

CONDÉ, La constitution d’un droit européen : Six siècles de coutumiers normands

Enseignement du français et du norvégien comme langues étrangères

Modélisation de la structuration des textes : les séquences d’enchaînement

DeTel