Évolution de Kali depuis 2018 · CRISCO - Centre de recherches inter-langues sur la signification en contexte

Évolution de Kali depuis 2018

Pour replacer ces rubriques dans leur contexte, il peut être utile de lire la description détaillée de Kali.

Programmes informatiques

Il est devenu impossible d’utiliser Kali sur les dernières versions de Jaws, même en installant Kali sous le nom de Sapi5. Sauf miracle, l’utilisation de Kali avec Jaws n’est plus d’actualité.

Il existe heureusement un autre lecteur d’écran, logiciel libre, NVDA, qui, de plus, fonctionne en 32 bits (même sur machine 64 bits), ce qui simplifie grandement les choses. L’interface NVDA-Kali permet aux deux logiciels de communiquer (voir téléchargements).

Le logiciel Kali, développé sous Windows, peut également être compilé sous Linux, pour la lecture d’écran ou pour des applications embarquées.

Deux applications Android pour déficients de la parole ont été créées. Elles se présentent sous la forme d’un clavier dédié, alphabétique pour l’une, phonétique pour l’autre, permettant de taper ses messages, de les mémoriser et de les oraliser.

Modèle pragmatique

Ce modèle réalise une prédiction des mots ou groupes de mots à mettre en relief par la prosodie, afin d’améliorer la compréhension et le naturel des énoncés. Des dictionnaires basés sur la probabilité de saillance prosodique permettent d’obtenir de bons résultats (taux de succès actuel 97 % en français et 94 % en anglais). Ces dictionnaires continuent à évoluer. Des règles mixant syntaxe et sémantique seront ensuite nécessaires pour augmenter encore le taux de succès.

Analyse syntaxique

Deux méthodes complémentaires sont utilisées pour corriger les erreurs :

l’analyse du corpus de travail, phrase par phrase,
la recherche des mots absents de nos dictionnaires à l’aide d’une liste de mots classés par ordre de fréquence, extraite de gros corpus (> un milliard de mots).

L’effet des modifications est évalué très régulièrement sur notre corpus de test. Les corrections nécessitent parfois d’être modifiées ou complétées en cas d’effets secondaires.

Le bilan des erreurs d’analyse sur corpus donne les résultats suivants, rapportés au nombre de mots : 1 % d’erreurs de découpage (souvent perceptibles prosodiquement) et 4 % d’erreurs de relation (peu perceptibles) pour le français.

En anglais, le bilan est de 2 % d’erreurs de découpage et 8 % d’erreurs de relation, soit deux fois plus qu’en français. Mais l’anglais a été commencé 5 ans après le français et l’influence des erreurs de découpage est beaucoup plus faible, l’accent de mot étant beaucoup plus important que l’accent de frontière.

Transcription graphème-phonème

En français, des corrections continuent à être nécessaires, notamment sur des sigles, des noms propres, des mots d’emprunt et des mots valises. Derniers mots corrigés : the independant, Cunlhat, Pezner, Sergueï, pts, yuan, AGF. Autre amélioration : les nombres terminés par “1” sont maintenant modifiés en fonction du genre du tronçon auxquels ils appartiennent. Bilan total : le taux d’erreurs sur corpus est estimé à 0,36 % par mot (plus important sur les corpus journalistiques à cause du grand nombre de noms propres) contre 1 % en 2008.

En anglais, le taux d’erreurs est descendu de 2,8 % à 1,1 % par mot (soit une erreur tous les 90 mots, pas toujours perceptible), principalement grâce à trois améliorations : (1) ajout de règles de flexion permettant d’exploiter les lemmes du dictionnaire lorsque les flexions manquent (6500 formes concernées), (2) traitement complet des homographes hétérophones (mais sa contribution dans le résultat reste modeste), (3) traitement automatique des mots composés en ajoutant la forme sans trait d’union (600 formes concernées). Les erreurs restantes concernent surtout des noms propres, mots d’emprunt, mots peu fréquents, formes dérivées rares voire néologiques. Le résultat est maintenant jugé satisfaisant.

Modèle prosodique

Le modèle naturel est encadré par un modèle normalisé plus naturel : ce dernier est devenu plus fin, moins superpositionnel, incluant une interaction entre les domaines de portée différente. De plus, les paramètres du modèle normalisé sont maintenant calculés à partir des contours prosodiques enregistrés, ce qui réduit l’écart avec les contours naturels tout en le rendant lui-même plus naturel. Ce modèle normalisé ainsi amélioré au plus près des valeurs réelles sert à fixer des limites entre lesquelles le modèle naturel est libre de varier. Les contours naturels les plus éloignés de la norme sont mieux contenus, mais les variations plus fines à l’intérieur des limites sont intégralement conservées. Le résultat est plus naturel tout en présentant moins de défauts. De plus, les contours naturels peuvent plus facilement être complétés par de nouveaux enregistrements, évitant des corrections manuelles fastidieuses.

En français, 494 contours ont été prélevés et étiquetés. Leur taux d’utilisation sur corpus est de 78 %, ce qui signifie qu’en moyenne, 78 % des groupes prosodiques d’un texte trouvent un contour qui satisfait à leurs caractéristiques pragmatiques, syntaxiques et rythmiques. Ce taux, qui était de 56 % en 2015, a augmenté en 2016 grâce à un meilleur encadrement des contours naturels, qui a permis de relâcher partiellement les fonctions de coût, puis grâce au prélèvement de 182 nouveaux contours en 2019 (dont une majorité dans des phrases avec des ponctuations peu représentées auparavant). Les 22 % restants utilisent par défaut la prosodie normalisée. L’expérience montre que des contours normalisés insérés entre les contours naturels passent généralement inaperçus. Le taux d’utilisation atteint par les contours naturels et la qualité des contours de remplacement donnent maintenant un résultat pleinement satisfaisant, ne nécessitant plus de nouveaux prélèvements.

En anglais, 549 contours ont été prélevés et étiquetés. Leur taux d’utilisation est passé de 35 % à 63 %, nettement au-delà de l’objectif minimal de 50 %, bien que le modèle naturel de l’anglais nécessite davantage de contours prosodiques que celui du français car la présence d’accents de mot augmente considérablement la combinatoire. La qualité atteinte ne nécessite pas de nouveau prélèvements.

Bases de diphones

Pour toutes les voix, les énoncés ayant servi au prélèvement des diphones sont progressivement réutilisés pour l’amélioration de la base. En effet, la base de diphones étant stabilisée, les comparaisons entre diphones sont plus performantes. Quelques dizaines de diphones des voix françaises et quelques dizaines de diphones des voix anglaises ont été ainsi améliorés, pour un résultat certes imperceptible à l’échelle d’une année, mais cumulatif.

Cookie	Type	Durée	Description
_pk_id.*	persistant	1 an 27 jours	Matamo utilise ce cookie pour stocker l'identifiant unique de l'utilisateur.
_pk_ses.*	session	30 minutes	Ce cookie est utilisé pour stocker un identifiant de session unique afin de recueillir des informations sur la manière dont les utilisateurs se servent du site web.
cli_user_preference	persistant	6 mois	Ce cookie est défini par le plugin GDPR Cookie Consent. L'objectif de ce cookie est d'enregistrer si l'utilisateur a donné ou non son consentement à l'utilisation des cookies. Il ne stocke aucune donnée personnelle.
cookielawinfo-checkbox-analytique	persistant	1 an	Défini par le plugin GDPR Cookie Consent, ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Analytique".
cookielawinfo-checkbox-fonctionnel	persistant	1 an	Le cookie est défini par le consentement du cookie GDPR pour enregistrer le consentement de l'utilisateur pour les cookies dans la catégorie «Fonctionnel».
cookielawinfo-checkbox-necessaire	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-performance	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. Le cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Performance».
cookielawinfo-checkbox-publicite	persistant	1 an	Défini par le plugin de consentement aux cookies GDPR, ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie «Publicité».
CookieLawInfoConsent	persistant	1 an	CookieYes définit ce cookie pour enregistrer l'état du bouton par défaut de la catégorie correspondante et le statut du CCPA. Il fonctionne uniquement en coordination avec le cookie principal.
csrftoken	tiers	1 an	Ce cookie est associé à la plate-forme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes entre sites.
PHPSESSID	session	session	Ce cookie est natif des applications PHP. Le cookie est utilisé pour stocker et identifier l'identifiant de session unique d'un utilisateur dans le but de gérer la session utilisateur sur le site Web. Le cookie est un cookie de session et est supprimé lorsque toutes les fenêtres du navigateur sont fermées.
pll_language	persistant	1 an	Le cookie pll _language est utilisé par Polylang pour se souvenir de la langue sélectionnée par l'utilisateur lorsqu'il revient sur le site web, et également pour obtenir des informations sur la langue lorsqu'elles ne sont pas disponibles d'une autre manière.
usprivacy	tiers	1 an 1 mois	Il s'agit d'un cookie de consentement mis en place par Dailymotion pour stocker la chaîne de consentement CCPA (informations obligatoires sur le fait qu'un utilisateur final est ou n'est pas un consommateur californien et qu'il exerce ou n'exerce pas son droit statutaire).
viewed_cookie_policy	persistant	1 an	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.

Cookie	Type	Durée	Description
DEVICE_INFO	tiers	5 mois 27 jours	Le cookie est mis en place par Youtube. Il est utilisé pour suivre l'interaction de l'utilisateur avec le contenu intégré.
IDE	tiers	1 an 24 jours	Les cookies DoubleClick IDE de Google sont utilisés pour stocker des informations sur la façon dont l'utilisateur utilise le site web afin de lui présenter des annonces pertinentes en fonction de son profil d'utilisateur.
test_cookie	tiers	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
VISITOR_INFO1_LIVE	tiers	5 mois 27 jours	Un cookie mis en place par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	tiers	session	Le cookie YSC est mis en place par Youtube et est utilisé pour suivre les vues des vidéos intégrées sur les pages Youtube.
yt-remote-connected-devices	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-device-id	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt.innertube::nextId	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.
yt.innertube::requests	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.

Cookie	Type	Durée	Description
_gcl_au	tiers	3 mois	Fourni par Google Tag Manager pour expérimenter l'efficacité publicitaire des sites web utilisant leurs services.
CONSENT	tiers	2 ans	YouTube installe ce cookie par le biais de vidéos youtube intégrées et enregistre des données statistiques anonymes.
dmvk	tiers	session	Le cookie dmvk est mis en place par Dailymotion pour enregistrer des données sur le comportement des visiteurs sur le site web.
v1st	tiers	13 mois	Il s'agit de votre identifiant numérique unique sur le Service Dailymotion. Il est utilisé pour : - la détection et la prévention des fraudes ; - la sécurité du Service Dailymotion ; - le respect des obligations légales (par exemple, le respect des décisions de justice relatives à l'accès à la vidéo) ; - l'identification de l'âge de l'utilisateur final.