Cet évènement est passé.

Les corpus d’oral en interaction : outils, méthodes et objectifs

Name: Les corpus d’oral en interaction : outils, méthodes et objectifs
Start: 2024-10-18T09:00:00+02:00
End: 2024-10-18T17:00:00+02:00
Location: Caen, campus 1, Bâtiment L, Amphithéâtre Laplace

Catégorie d’Évènement:

Journée d'études

18 octobre 2024 · 9h00 – 17h00

Atelier organisé par T. Ruchot, N. Romanova et R. Ziane

Lieu :

Caen, campus 1, Bâtiment L, Amphithéâtre Laplace

Esplanade de la Paix
Caen, 14053 France

Programme

9:00-9:30 Thierry Ruchot
Les corpus d’oral en interaction : pourquoi sont-ils importants et comment les obtenir ?

9:30-10:30 Benjamin Laillier, Selma Turalic, Amélie Guesnon
Les enjeux juridiques de la collecte, la mise à disposition et l’archivage des données orales

10:45-11:00 Thierry Ruchot
Types de transcription

11:00-11:15 Rayan Ziane
Transcription automatique : problèmes et perspectives

11:15-12:15 Yanka Bezinska
Logiciel Elan pour la transcription des corpus oraux

12:15-14:00 Pause repas

14:00-16:00 Philippe Martin

L’atelier consacré aux logiciels Praat et WinPitch portera sur les applications de l’analyse acoustique de la parole en phonétique et en phonologie, et en particulier sur l’intonation de la phrase. En parcourant les utilisations des plus simples aux plus complexes, on se focalisera sur l’annotation prosodique selon différentes fonctions et modèles.

Points abordés : transcription orthographique manuelle et automatique, segmentation automatique en groupes accentuels, en mots et en phones, mesure de la fréquence fondamentale, annotation prosodique, concordancier pour grands corpus oraux, synthèse et morphing prosodique…

Téléchargement conseillé : Download WinPitch installation file (zip) sur www.winpitch.com (Windows ou Mac avec BootCamp ou équivalent).

La séance est proposée par Philippe Martin, linguiste. Dr. ès Sciences, Dr. Linguistique, Philippe Martin a enseigné aux Universités de Toronto, d’Aix-en-Provence et au Département de Linguistique de l’Université Paris Diderot (aujourd’hui Paris Cité), dont il a été directeur de 2004 à 2012. Il a publié de nombreux articles sur la phonologie et la phonétique de l’intonation ainsi que sur l’analyse acoustique de la parole. Ses derniers ouvrages sont Speech Acoustic Analysis (Wiley : 2021), Analyse acoustique de la parole (ISTE : 2020), Intonation, structure prosodique et ondes cérébrales (ISTE : 2018), The Structure of Spoken Language (Cambridge : 2015). Il a également développé des dispositifs matériels et logiciels pour l’analyse prosodique de grands corpus oraux (WinPitch). Il travaille actuellement sur le traitement neuronal de la structure prosodique dans la parole. Il a reçu en 2018 le titre de Docteur Honoris Causa de l’Université Charles, à Prague.

16:00-17:00 Table ronde (Salle de la documentation, CRISCO)

Cet atelier s’adresse à des linguistes en activité, des doctorants ou des étudiants de master ayant un intérêt pour la linguistique de l’oral, notamment l’oral en interaction, et pour la création de corpus de ce type.

La création de corpus d’oral représente aujourd’hui un véritable défi aussi bien du point de vue théorique, que du point de vue pratique : pour le traitement automatique de données et le dialogue homme-machine, pour la linguistique clinique, qui a besoin d’observer du langage typique comme du langage pathologique, ou encore pour l’acquisition et la didactique des langues. Alors que l’on dispose déjà d’un nombre important de corpus écrits informatisés de toutes sortes : diachroniques ou synchroniques, unilingues, parallèles ou comparables, généraux, littéraires, journalistiques, techniques, de Web, de réseaux sociaux et de SMS, de productions écrites d’enfants et d’adolescents ou d’étrangers apprenant une langue seconde ou étrangère, de scripts de films et séries, etc., les corpus d’oral occupent encore une place assez modeste. De plus, si les corpus écrits sont mis à disposition essentiellement sous forme de concordanciers, qui ne donnent pas accès à l’intégralité des textes inclus dans le corpus, pour l’oral il est utile d’avoir un double accès : soit par concordancier, pour des recherches sur des points particuliers et l’établissement de calculs de fréquences, soit à l’intégralité des interactions transcrites, éventuellement avec le support enregistré pour pouvoir réaliser une étude qualitative de l’interaction et essayer d’en comprendre les mécanismes. Si l’on peut recueillir de nombreuses données orales sur une plateforme comme YouTube, outre les questions de droits, ces données ne représenteront que certains genres spécifiques : bulletins d’information et commentaires, tutoriels, conférences, cours, interviews, débats, mais très peu les interactions quotidiennes en lieux de services : consultations, réunions, entretiens professionnels, et encore moins les conversations les plus quotidiennes, celles qui constituent l’essentiel de notre pratique orale quotidienne, pour peu que nous ayons un minimum de lien social.

Beaucoup de chercheurs hésitent à aborder l’oral, parce qu’ils se posent de nombreuses questions : quels types de corpus d’oral peut-on développer et à quelles fins ? dans quels domaines sont-ils utiles ? comment procéder ? comment obtenir des données ? quelles obligations légales et éthiques s’imposent lorsqu’on réalise des enregistrements d’oral en interaction, à l’heure où la question de la protection des données personnelles est centrale ? comment transcrire les corpus et pour quels objectifs ? quel rôle accorder à la prosodie, notamment à l’intonation ? que faire de la multimodalité ? comment analyser l’oral en interaction ?

Il y a plusieurs raisons à cela. Tout d’abord la difficulté d’accès aux données de l’oral : au préalable il faut trouver des personnes volontaires pour être enregistrées et réaliser les enregistrements dans de bonnes conditions, en essayant de créer les conditions pour avoir une interaction la plus naturelle que possible. Puis, il faudra transcrire les paroles et, éventuellement, les gestes et les mimiques qui accompagnent la production verbale. Il faudra également réaliser une analyse de la prosodie en utilisant des programmes que beaucoup de chercheurs ont des appréhensions à utiliser. Ensuite, il faudra analyser ces données en utilisant des modèles linguistiques adaptés, sachant que, la plupart du temps, les modèles développées jusqu’ici se sont concentrés beaucoup plus sur l’écrit, et présentent des défauts et lacunes à l’heure d’aborder l’oral, particulièrement l’oral en interaction avec alternance de tours de parole.

Cet atelier visera à donner des pistes de réponse à plusieurs de ces questions, notamment les questions légales et méthodologiques, sans lesquels aucune tâche d’analyse des données ne peut être envisagée. La visée de cet atelier sur l’interaction est également… interactive, dans la mesure où l’échange sera favorisé durant tout l’atelier et où il se clora sur une table ronde, dans laquelle chacun sera invité à présenter ses impressions, ses projets, déjà achevés, en cours, bourgeonnants ou naissants, ses idées et intérêts, même encore vagues.

Les-corpus-oraux_CRISCO-Programme Télécharger

Cookie	Type	Durée	Description
_pk_id.*	persistant	1 an 27 jours	Matamo utilise ce cookie pour stocker l'identifiant unique de l'utilisateur.
_pk_ses.*	session	30 minutes	Ce cookie est utilisé pour stocker un identifiant de session unique afin de recueillir des informations sur la manière dont les utilisateurs se servent du site web.
cli_user_preference	persistant	6 mois	Ce cookie est défini par le plugin GDPR Cookie Consent. L'objectif de ce cookie est d'enregistrer si l'utilisateur a donné ou non son consentement à l'utilisation des cookies. Il ne stocke aucune donnée personnelle.
cookielawinfo-checkbox-analytique	persistant	1 an	Défini par le plugin GDPR Cookie Consent, ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Analytique".
cookielawinfo-checkbox-fonctionnel	persistant	1 an	Le cookie est défini par le consentement du cookie GDPR pour enregistrer le consentement de l'utilisateur pour les cookies dans la catégorie «Fonctionnel».
cookielawinfo-checkbox-necessaire	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-performance	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. Le cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Performance».
cookielawinfo-checkbox-publicite	persistant	1 an	Défini par le plugin de consentement aux cookies GDPR, ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie «Publicité».
CookieLawInfoConsent	persistant	1 an	CookieYes définit ce cookie pour enregistrer l'état du bouton par défaut de la catégorie correspondante et le statut du CCPA. Il fonctionne uniquement en coordination avec le cookie principal.
csrftoken	tiers	1 an	Ce cookie est associé à la plate-forme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes entre sites.
PHPSESSID	session	session	Ce cookie est natif des applications PHP. Le cookie est utilisé pour stocker et identifier l'identifiant de session unique d'un utilisateur dans le but de gérer la session utilisateur sur le site Web. Le cookie est un cookie de session et est supprimé lorsque toutes les fenêtres du navigateur sont fermées.
pll_language	persistant	1 an	Le cookie pll _language est utilisé par Polylang pour se souvenir de la langue sélectionnée par l'utilisateur lorsqu'il revient sur le site web, et également pour obtenir des informations sur la langue lorsqu'elles ne sont pas disponibles d'une autre manière.
usprivacy	tiers	1 an 1 mois	Il s'agit d'un cookie de consentement mis en place par Dailymotion pour stocker la chaîne de consentement CCPA (informations obligatoires sur le fait qu'un utilisateur final est ou n'est pas un consommateur californien et qu'il exerce ou n'exerce pas son droit statutaire).
viewed_cookie_policy	persistant	1 an	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.

Cookie	Type	Durée	Description
DEVICE_INFO	tiers	5 mois 27 jours	Le cookie est mis en place par Youtube. Il est utilisé pour suivre l'interaction de l'utilisateur avec le contenu intégré.
IDE	tiers	1 an 24 jours	Les cookies DoubleClick IDE de Google sont utilisés pour stocker des informations sur la façon dont l'utilisateur utilise le site web afin de lui présenter des annonces pertinentes en fonction de son profil d'utilisateur.
test_cookie	tiers	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
VISITOR_INFO1_LIVE	tiers	5 mois 27 jours	Un cookie mis en place par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	tiers	session	Le cookie YSC est mis en place par Youtube et est utilisé pour suivre les vues des vidéos intégrées sur les pages Youtube.
yt-remote-connected-devices	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-device-id	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt.innertube::nextId	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.
yt.innertube::requests	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.

Cookie	Type	Durée	Description
_gcl_au	tiers	3 mois	Fourni par Google Tag Manager pour expérimenter l'efficacité publicitaire des sites web utilisant leurs services.
CONSENT	tiers	2 ans	YouTube installe ce cookie par le biais de vidéos youtube intégrées et enregistre des données statistiques anonymes.
dmvk	tiers	session	Le cookie dmvk est mis en place par Dailymotion pour enregistrer des données sur le comportement des visiteurs sur le site web.
v1st	tiers	13 mois	Il s'agit de votre identifiant numérique unique sur le Service Dailymotion. Il est utilisé pour : - la détection et la prévention des fraudes ; - la sécurité du Service Dailymotion ; - le respect des obligations légales (par exemple, le respect des décisions de justice relatives à l'accès à la vidéo) ; - l'identification de l'âge de l'utilisateur final.

Les corpus d’oral en interaction : outils, méthodes et objectifs

18 octobre 2024 · 9h00 – 17h00

Atelier organisé par T. Ruchot, N. Romanova et R. Ziane

Lieu :

Caen, campus 1, Bâtiment L, Amphithéâtre Laplace

Programme

Organisateur :

Crisco

Navigation Évènement