Pompamo
La Pompamo est un outil de détection de candidats à la néologie basé sur l'emploi de lexiques d'exclusion. Elle permet, à partir d'un corpus étiqueté morphosyntaxiquement, de recenser les occurrences de néologies formelle et catégorielle. Le lexique Morphalou est utilisé comme lexique principal de formes fléchies. Sa large couverture permet de filtrer la majeure partie des formes du français et de repérer les cas de changement de catégorie syntaxique. Un lexique de noms propres et un lexique d'adjectifs toponymiques et de gentilés sont également proposés. Ils peuvent être remplacés ou complétés par les lexiques des utilisateurs.
Origine de l'outil | ATILF (Nancy Université - CNRS) |
---|
Fiche technique
Version | Pompamo 1.0 |
---|---|
Conception | Sandrine Ollinger, Etienne Petitjean, Susanne Salmon-Alt, Mathieu Valette |
Responsable scientifique | Mathieu Valette |
Responsable informatique | Etienne Petitjean |
Langage | Java 2 Standard édition 5.0. |
Codage des caractères | ISO-8859-1 |
Développement et maintien
Implémentation | Sandrine Ollinger |
---|
Formats d'entrée
Dans la version courante, les textes et corpus acceptés en entrée de la Pompamo doivent être préalablement étiquetés par le logiciel Cordial Analyseur. On distingue toutefois deux formats: le format de sortie de l'étiqueteur d'une part, un format TEI construit à partir de cette sortie d'autre part. Des informations supplémentaires sur ces deux formats sont fournies sur la page d'exécution de l'outil.
Formats de sortie
A la fin de l'exécution de la POMPAMO, les résultats s'affichent sous forme de tableaux HTML, répartis en onglet par type de candidats. En bas de chaque page, le fichier XML correspondant est proposé au téléchargement. La structure de ces fichiers est comparable à la structure d'un dictionnaire. Chaque candidat correspond à une entrée lexicale, dont les différents contextes d'attestation sont regroupés sous forme de citations. Les informations fournies par les étiquettes morphosyntaxiques sont traduites en une série d'éléments XML conformes aux recommandations de la Text Encoding Initiative et du Lexical Markup Framework (ISO TC37).
Echantillon de sortie XML
<lexicalEntry id="entry_48"> <formSet> <lemmatizedForm processStatus="provisionallyProcessed"> <orthography>négationniste</orthography> <grammaticalCategory>commonNoun</grammaticalCategory> <grammaticalGender>NULL</grammaticalGender> </lemmatizedForm> <inflectedForm> <orthography>négationnistes</orthography> <grammaticalNumber processStatus="provisionallyProcessed">plural</grammaticalNumber> </inflectedForm> </formSet> <sense> <dicteg> <cit id="cit_48_1"> <q> fait de discuter avec des<oRef>négationnistes</oRef> de l'existence des</q> <bibl> <ref word_id="w_1295" sentence_id="sentence_39" paragraph_id="paragraph_25"/> </bibl> </cit> </dicteg> </sense> </lexicalEntry>