Projet pédagogique
Le projet CAENNAIS est un projet pédagogique commencé en octobre 2023 et réalisé par une équipe de recherche constituée de membres du Laboratoire CRISCO et des étudiants en Science du Langage et en Orthophonie de l’Université de Caen Normandie. Le corpus CAENNAIS est un corpus longitudinal d’interactions entre des locuteurs francophones natifs et des apprenants en immersion en France. Le projet a pour but de produire et de mettre à disposition des chercheurs un corpus d’apprenants transcrit et annoté ainsi que de former les étudiants stagiaires aux bonnes pratiques de la collecte, la transcription et l’annotation des données orales et au travail d’équipe.
Lors de la première phase du projet (septembre 2023-mai 2024) six groupes de participants ont été recrutés et enregistrés par les étudiants stagiaires Orlanne Pinsault et Florian Peck trois fois au cours de l’année résultant en 18 heures d’enregistrements dont 90 minutes ont été transcrites en suivant un guide de transcription développé par l’équipe (voir Orlanne Pinsault 2024, Constitution d’un corpus oral longitudinal d’apprenants du français : défis et enjeux des outils numériques dans la constitution de corpus. Mémoire de M2).
En 2024-2025 l’équipe se penche sur le développement d’une chaîne de traitement pour la diarisation (identification de tours de paroles) et transcription semi-automatiques adaptée à un corpus longitudinal d’interactions de locuteurs de différents niveaux de compétences. Cette démarche implique des campagnes de correction des transcriptions automatiques et homogénéisation des pratiques pour permettre un réentraînement progressif de modèles des outils automatiques (PyAnnote, Whisper) et optimiser la transcription du corpus. Deux Mémoires de M2 en Sciences du Langage sont actuellement en cours qui sont basés sur les données du corpus CAENNAIS.
Équipe
Si vous souhaiter participer au projet ou effectuer un stage non-rémunéré, n’hésitez pas à nous contacter.