PERCEO : un Projet d'Etiqueteur Robuste pour l'Ecrit et pour l'Oral

PERCEO est un ensemble de ressources destiné à servir à l'annotation automatique en parties du discours et en lemmes. Nous rendons disponible sur cette page les fichiers paramètres obtenus à l'aide du module d'entraînement du logiciel Tree Tagger ainsi que l'ensemble des ressources qui nous ont permis de les obtenir. Les données ayant servies à l'entraînement sont celles présentes sur le site du CNRTL, à savoir l'Est Républicain, les données orales de TCOF et les textes libres de droit de Frantext. Le travail réalisé pour Frantext libre de droits a pour objectif d'être directement utilisable pour étiqueter la future base textuelle Frantext2. L'idée est d'utiliser des données d'apprentissage du même type (ou voisines) de celles que l'on souhaite étiqueter automatiquement.
En ce qui concerne les données orales, le corpus d'apprentissage comprend 102 139 tokens. Il est issu de 35 transcriptions différentes du projet TCOF. La méthodologie employée est la suivante :
- Correction par deux personnes de chaque échantillon d'environ 500 tokens. Les échantillons avaient été préalablement étiquetés automatiquement à l'aide d'une version ré-entraînée de Tree Tagger.
- Correction/validation par un expert des cas de divergence.

L'accord inter-annotateurs est en moyenne de 96,45% (Kappa de Cohen) et le taux d'erreurs calculé par sondage sur un échantillon de 1 000 tokens est de 1,2%. La version de Tree Tagger ré-entraînée permet d'obtenir un taux de précision respectivement de 95,2% (POS + lemme) et de 96,4% (POS uniquement).


Origine de la ressource ATILF (CNRS - Université de Lorraine) & INIST (CNRS) - LIPN
Nature des données Corpus annotés - fichiers paramètres pour Tree Tagger - lexiques
Origine des données Corpus TCOF - ATILF
Conditions d'utilisation Les données sont utilisables sous licence Creative Commons. Si vous utilisez la ressource, merci de citer l'article de référence (lien ci-dessous - disponible sous peu). Afin d'améliorer les ressources, merci également de signaler les erreurs que vous avez relevées.
Article de référence à citer Voir la liste des transcriptions annotées

Voir le manuel d'annotation

Fiche technique

Version 1.0
Conception Christophe Benzitoun - Karën Fort - Lolita Bérard - Evelyne Jacquey
Réalisations techniques Karën Fort - Lolita Bérard - Vincent Meslard - Etienne Petitjean - Benoît Sagot - Sandrine Ollinger
Responsable scientifique Christophe Benzitoun (ATILF)
Responsable informatique Etienne Petitjean
Contenu 102 139 tokens annotés au niveau morpho-syntaxique en parties du discours et en lemmes (utf-8).
Lexique obtenu par fusion du corpus et de Morphalou (utf-8).
Fichier paramètre pour l'annotation automatique de corpus de français parlé à utiliser avec Tree Tagger (utf-8).
Taille 3,53 Mo (compressé)