TCOF
Le projet « Traitement de Corpus Oraux en Français » (TCOF) est né de la volonté de conserver des corpus oraux collectés dans les années 80-90 à des fins de recherches personnelles. L’équipe constituée au sein du laboratoire ATILF (UMR CNRS 7118) a élaboré l’architecture d’une première base de données de corpus alignés texte/son avec Transcriber. Celle-ci s’est progressivement enrichie à partir des années 2000 grâce à la collaboration d’autres (enseignants-)chercheurs, d’ITA et d’étudiants en Sciences du langage de l’université de Nancy 2. Aujourd'hui, l’équipe met à disposition de la communauté scientifique une partie de ses ressources. Cette mise à disposition sera progressive, au fur et à mesure du traitement des données.
Le corpus mis à disposition comporte deux grandes catégories : des enregistrements d'interactions adultes-enfants (enfants jusque 7 ans) et des enregistrements d'interactions entre adultes. Les enregistrements sont de durées diverses : de 5 à 45 minutes ou plus. A terme, des enregistrements de dialogues avec des enfants atteints d’une pathologie et des dialogues entre natifs et non natifs seront intégrés.
Il s'agit, en l'absence de corpus de référence du français parlé, de faciliter l'accès à des données qui restent encore rares, en particulier en ce qui concerne les interactions adulte- enfant, et de compléter les données existantes mises à disposition au travers d'un certain nombre de sites (PFC, CLAPI, CFPP, OFROM, CHILDES, etc.). En cela, nous collaborons avec des initiatives telles que la plateforme ORTOLANG et nous participons au consortium national CORLI.
Origine de la ressource | ATILF |
---|---|
Nature des données | Corpus oraux (transcriptions textes + fichiers sons) |
Conditions d'utilisation | Les utilisateurs de la plateforme auront pour principe déontologique de signaler toutes modifications réalisées sur les corpus originaux. N’hésitez pas à contacter les responsables pour les informer des erreurs que vous relèveriez dans les transcriptions. Les corpus du projet TCOF sont utilisables sous license Creative Commons |
Fiche technique
Version | 1.0 |
---|---|
Responsables scientifiques | Virginie André - Christophe Benzitoun - Emmanuelle Canut - Jeanne-Marie Debaisieux - Caroline MASSON |
Responsables techniques | Etienne Petitjean - Bertrand Gaiffe - Benjamin Husson - Cyril Pestel |
Codage des métadonnées et des transcriptions | Isabelle Clément - Stéphanie Houin - Youma Sow - Anouchka Divoux - Guillaume Nassau |
Contenu | 517 transcriptions (Transcriber et WAV), d'une durée totale de 124 heures |
Format | Transcriber (transcriptions) + XML (métadonnées) + WAV (fichiers sons) |
Codage des caractères | ISO-8859-1 |
Taille | ~37,5 Go |
Echantillon
<Turn speaker="spk1" startTime="3.642" endTime="5.054"> <Sync time="3.642"/> c'est qui ? </Turn> <Turn speaker="spk2" startTime="5.054" endTime="11.541"> <Sync time="5.054"/> euh des petits <Event desc="pti" type="pronounce" extent="previous"/> nounours + <Sync time="8.623"/> encore des petits <Event desc="pti" type="pronounce" extent="previous"/> nou- <Sync time="9.499"/> ça c'est une panthère <Event desc="pa~dER" type="pronounce" extent="previous"/> noire <Event desc="nwaRt" type="pronounce" extent="previous"/> oh </Turn> <Turn speaker="spk1 spk2" startTime="11.541" endTime="12.119"> <Sync time="11.541"/> <Who nb="1"/> ah bon ? <Who nb="2"/> chez ma nounou </Turn>