CNRTL : Centre National de Ressources Textuelles et Lexicales - Traitement de Corpus Oraux en Français

TCOF

Le projet « Traitement de Corpus Oraux en Français » (TCOF) est né de la volonté de conserver des corpus oraux collectés dans les années 80-90 à des fins de recherches personnelles. L’équipe constituée au sein du laboratoire ATILF (UMR CNRS 7118) a élaboré l’architecture d’une première base de données de corpus alignés texte/son avec Transcriber. Celle-ci s’est progressivement enrichie à partir des années 2000 grâce à la collaboration d’autres (enseignants-)chercheurs, d’ITA et d’étudiants en Sciences du langage de l’université de Nancy 2. Aujourd'hui, l’équipe met à disposition de la communauté scientifique une partie de ses ressources. Cette mise à disposition sera progressive, au fur et à mesure du traitement des données.

Le corpus mis à disposition comporte deux grandes catégories : des enregistrements d'interactions adultes-enfants (enfants jusque 7 ans) et des enregistrements d'interactions entre adultes. Les enregistrements sont de durées diverses : de 5 à 45 minutes ou plus. A terme, des enregistrements de dialogues avec des enfants atteints d’une pathologie et des dialogues entre natifs et non natifs seront intégrés.

Il s'agit, en l'absence de corpus de référence du français parlé, de faciliter l'accès à des données qui restent encore rares, en particulier en ce qui concerne les interactions adulte- enfant, et de compléter les données existantes mises à disposition au travers d'un certain nombre de sites (PFC, CLAPI, CFPP, OFROM, CHILDES, etc.). En cela, nous collaborons avec des initiatives telles que la plateforme ORTOLANG et nous participons au consortium national CORLI.

Origine de la ressource	ATILF
Nature des données	Corpus oraux (transcriptions textes + fichiers sons)
Conditions d'utilisation	Les utilisateurs de la plateforme auront pour principe déontologique de signaler toutes modifications réalisées sur les corpus originaux. N’hésitez pas à contacter les responsables pour les informer des erreurs que vous relèveriez dans les transcriptions. Les corpus du projet TCOF sont utilisables sous license Creative Commons

Voir les anciennes conventions de transcriptions Voir les conventions de transcriptions de 2017 Voir la DTD transcriber Accès aux corpus

Fiche technique

Version	1.0
Responsables scientifiques	Virginie André - Christophe Benzitoun - Emmanuelle Canut - Jeanne-Marie Debaisieux - Caroline MASSON
Responsables techniques	Etienne Petitjean - Bertrand Gaiffe - Benjamin Husson - Cyril Pestel
Codage des métadonnées et des transcriptions	Isabelle Clément - Stéphanie Houin - Youma Sow - Anouchka Divoux - Guillaume Nassau
Contenu	517 transcriptions (Transcriber et WAV), d'une durée totale de 124 heures
Format	Transcriber (transcriptions) + XML (métadonnées) + WAV (fichiers sons)
Codage des caractères	ISO-8859-1
Taille	~37,5 Go

Echantillon

<Turn speaker="spk1" startTime="3.642" endTime="5.054">
	<Sync time="3.642"/>
	c'est qui ?
</Turn>
<Turn speaker="spk2" startTime="5.054" endTime="11.541">
	<Sync time="5.054"/>
	euh des petits 
	<Event desc="pti" type="pronounce" extent="previous"/>
	 nounours +
	<Sync time="8.623"/>
	encore des petits 
	<Event desc="pti" type="pronounce" extent="previous"/>
	 nou-
	<Sync time="9.499"/>
	ça c'est une panthère 
	<Event desc="pa~dER" type="pronounce" extent="previous"/>
 	noire 
	<Event desc="nwaRt" type="pronounce" extent="previous"/>
 	oh
</Turn>
<Turn speaker="spk1 spk2" startTime="11.541" endTime="12.119">
	<Sync time="11.541"/>
	<Who nb="1"/>
	ah bon ?
	<Who nb="2"/>
	chez ma nounou
</Turn>