FastKwic
FastKwic est un outil d'indexation automatique permettant de produire un concordancier. Il fonctionne sur le français et l'anglais encodés en ISO-latin-1 (ISO-8859-1) ou UTF-8. Il s'appuie sur une ressource lexicale/terminologique qui doit être compilée avec FastKwic dans une première étape. Dans une seconde étape, FastKwic permet d'indexer un texte et de produire un concordancier à partir du résultat de cette indexation.
FastKwic is an automatic indexing and concordancer system. It works on French and English encoded in ISO-latin-1 (ISO-8859-1) or UTF-8. It needs a lexical resource (your list of terms) that must be compiled. Then, you can index your text, one sentence per line, and get the result in a raw form or as a concordancer.
Origine de l'outil | INIST-CNRS |
---|
Fiche technique
Version | FastKwic 1.0 |
---|---|
Conception | Veronika Lux-Pogodalla, Karën Fort, Dominique Besagni |
Langage | Perl |
Codage des caractères | ISO-latin-1 (ISO-8859-1) ou UTF-8 |
Licence | CeCILL |
Développement et maintien
Implémentation | Dominique Besagni |
---|
Formats d'entrée
Comme FASTR, FastKwic prend en entrée :
- pour la compilation: un fichier texte ISO-latin-1 (ISO-8859-1) ou UTF-8 avec un terme par ligne. Tout synonyme ou variante doit renvoyer à la forme préférentielle avec le symbole "=>"
- pour l'indexation: un fichier texte ISO-latin-1 (ISO-8859-1) ou UTF-8 avec une phrase par ligne, chaque ligne commençant éventuellement par une clé (numérique ou non), suivie d'une tabulation.
Formats de sortie
XML
Echantillon de sortie XML
<Concordancer> <Term> <TotalNumber>2</TotalNumber> <Preferential> <String>Gene amplification </String> <Number>2</Number> <Occurrences> <Occurrence> <Reference>000007</Reference> <Position>1:32</Position> <Transform>XX,25,Perm</Transform> <Context><b>Amplification of the MYC gene is</b> associated with dmi</Context> </Occurrence> <Occurrence> <Reference>000008</Reference> <Position>1:38</Position> <Transform>XX,15,Ins</Transform> <Context><b>This gene facilitated amplification of</b> a 407-bp DNA fragme</Context> </Occurrence> </Occurrences> </Preferential> </Term> ... </Concordancer>