Évolution de Kali depuis 2018

Pour replacer ces rubriques dans leur contexte, il peut être utile de lire la description détaillée de Kali.

Programmes informatiques

Il est devenu impossible d’utiliser Kali sur les dernières versions de Jaws, même en  installant Kali sous le nom de Sapi5. Sauf miracle, l’utilisation de Kali avec Jaws n’est plus d’actualité.

Il existe heureusement un autre lecteur d’écran, logiciel libre, NVDA, qui, de plus, fonctionne en 32 bits (même sur machine 64 bits), ce qui simplifie grandement les choses. L’interface NVDA-Kali permet aux deux logiciels de communiquer (voir téléchargements).

Le logiciel Kali, développé sous Windows, peut également être compilé sous Linux, pour la lecture d’écran ou pour des applications embarquées.

Deux applications Android pour déficients de la parole ont été créées. Elles se présentent sous la forme d’un clavier dédié, alphabétique pour l’une, phonétique pour l’autre, permettant de taper ses messages, de les mémoriser et de les oraliser.

Modèle pragmatique

Ce modèle réalise une prédiction des mots ou groupes de mots à mettre en relief par la prosodie, afin d’améliorer la compréhension et le naturel des énoncés. Des dictionnaires basés sur la probabilité de saillance prosodique permettent d’obtenir de bons résultats (taux de succès actuel 97 % en français et 94 % en anglais). Ces dictionnaires continuent à évoluer. Des règles mixant syntaxe et sémantique seront ensuite nécessaires pour augmenter encore le taux de succès.

Analyse syntaxique

Deux méthodes complémentaires sont utilisées pour corriger les erreurs :

  • l’analyse du corpus de travail, phrase par phrase,
  • la recherche des mots absents de nos dictionnaires à l’aide d’une liste de mots classés par ordre de fréquence, extraite de gros corpus (> un milliard de mots).

L’effet des modifications est évalué très régulièrement sur notre corpus de test. Les corrections nécessitent parfois d’être modifiées ou complétées en cas d’effets secondaires.

Le bilan des erreurs d’analyse sur corpus donne les résultats suivants, rapportés au nombre de mots : 1 % d’erreurs de découpage (souvent perceptibles prosodiquement) et 4 % d’erreurs de relation (peu perceptibles) pour le français.

En anglais, le bilan est de 2 % d’erreurs de découpage et 8 % d’erreurs de relation, soit deux fois plus qu’en français. Mais l’anglais a été commencé 5 ans après le français et l’influence des erreurs de découpage est beaucoup plus faible, l’accent de mot étant beaucoup plus important que l’accent de frontière.

Transcription graphème-phonème

En français, des corrections continuent à être nécessaires, notamment sur des sigles, des noms propres, des mots d’emprunt et des mots valises. Derniers mots corrigés : the independant, Cunlhat, Pezner, Sergueï, pts, yuan, AGF. Autre amélioration : les nombres terminés par “1” sont maintenant modifiés en fonction du genre du tronçon auxquels ils appartiennent. Bilan total : le taux d’erreurs sur corpus est estimé à 0,36 % par mot (plus important sur les corpus journalistiques à cause du grand nombre de noms propres) contre 1 % en 2008.

En anglais, le taux d’erreurs est descendu de 2,8 % à 1,1 % par mot (soit une erreur tous les 90 mots, pas toujours perceptible), principalement grâce à trois améliorations : (1) ajout de règles de flexion permettant d’exploiter les lemmes du dictionnaire lorsque les flexions manquent (6500 formes concernées), (2) traitement complet des homographes hétérophones (mais sa contribution dans le résultat reste modeste), (3) traitement automatique des mots composés en ajoutant la forme sans trait d’union (600 formes concernées). Les erreurs restantes concernent surtout des noms propres, mots d’emprunt, mots peu fréquents, formes dérivées rares voire néologiques. Le résultat est maintenant jugé satisfaisant.

Modèle prosodique

Le modèle naturel est encadré par un modèle normalisé plus naturel : ce dernier est devenu plus fin, moins superpositionnel, incluant une interaction entre les domaines de portée différente. De plus, les paramètres du modèle normalisé sont maintenant calculés à partir des contours prosodiques enregistrés, ce qui réduit l’écart avec les contours naturels tout en le rendant lui-même plus naturel. Ce modèle normalisé ainsi amélioré au plus près des valeurs réelles sert à fixer des limites entre lesquelles le modèle naturel est libre de varier. Les contours naturels les plus éloignés de la norme sont mieux contenus, mais les variations plus fines à l’intérieur des limites sont intégralement conservées. Le résultat est plus naturel tout en présentant moins de défauts. De plus, les contours naturels peuvent plus facilement être complétés par de nouveaux enregistrements, évitant des corrections manuelles fastidieuses.

En français, 494 contours ont été prélevés et étiquetés. Leur taux d’utilisation sur corpus est de 78 %, ce qui signifie qu’en moyenne, 78 % des groupes prosodiques d’un texte trouvent un contour qui satisfait à leurs caractéristiques pragmatiques, syntaxiques et rythmiques. Ce taux, qui était de 56 % en 2015, a augmenté en 2016 grâce à un meilleur encadrement des contours naturels, qui a permis de relâcher partiellement les fonctions de coût, puis grâce au prélèvement de 182 nouveaux contours en 2019 (dont une majorité dans des phrases avec des ponctuations peu représentées auparavant). Les 22 % restants utilisent par défaut la prosodie normalisée. L’expérience montre que des contours normalisés insérés entre les contours naturels passent généralement inaperçus. Le taux d’utilisation atteint par les contours naturels et la qualité des contours de remplacement donnent maintenant un résultat pleinement satisfaisant, ne nécessitant plus de nouveaux prélèvements.

En anglais, 549 contours ont été prélevés et étiquetés. Leur taux d’utilisation est passé de 35 % à 63 %, nettement au-delà de l’objectif minimal de 50 %, bien que le modèle naturel de l’anglais nécessite davantage de contours prosodiques que celui du français car la présence d’accents de mot augmente considérablement la combinatoire. La qualité atteinte ne nécessite pas de nouveau prélèvements.

Bases de diphones

Pour toutes les voix, les énoncés ayant servi au prélèvement des diphones sont progressivement réutilisés pour l’amélioration de la base. En effet, la base de diphones étant stabilisée, les comparaisons entre diphones sont plus performantes. Quelques dizaines de diphones des voix françaises et quelques dizaines de diphones des voix anglaises ont été ainsi améliorés, pour un résultat certes imperceptible à l’échelle d’une année, mais cumulatif.