Lemmatisation
Paramètres pour la lemmatisation d’un corpus de latin médiéval, issus de la commande :
train-tree-tagger -cl 3 -dtg 0.50 -sw 1.00 -ecw 0.30 -atg 0.35 -utf8 lexicon.csv classes.txt treebank.csv mediolatin.par
- Paramètres à télécharger (v0.6, 10Mo, 02/2014), obtenus à partir de la liste des formes (v0.6) et du corpus d’entraînement (v0.6).
- Archives :
- Paramètres v0.5 (11Mo, 12/2012).
- Paramètres v0.4 (11Mo, 10/2012).
Ces paramètres [PARAM] permettent d’obtenir un texte lemmatisé [LEMME] à partir d’un texte tokenisé [TOKEN] (cf. infra) par la commande suivante :
tree-tagger -token -lemma -cap-heuristics [PARAM] [TOKEN] [LEMME]
La commande tree-tagger
sort par défaut la liste des POS, mais elle autorise plusieurs options, parmi lesquelles :
-token
: sort aussi les token.-lemma
: sort aussi les lemmes.-sgml
: ne tient pas compte des balises entre chevrons.-threshold [COEFF]
: sort tous les tags dont la probabilité est supérieure à un seuil.-prob
: sort aussi les probabilités.-ignore-prefix
: ignore les préfixes pour les mots inconnus.-no-unknown
: sort le token comme lemme, à la place de « unknown ».-cap-heuristics
: ne tient pas compte de la capitale initiale pour les mots inconnus.-quiet
: mode silence.-lex [LEXIC]
: ajoute un lexicon auxiliaire.-proto
: sort aussi les informations lexicales.-proto-with-prob
: sort aussi les informations et les probabilités lexicales.-base
: n’utilise que les probabilités lexicales.
Apprentissage
La commande train-tree-tagger
autorise plusieurs options, qu’il est vivement conseillé de tester :
-st
: tag de ponctuation forte, par défaut « SENT ».-utf8
: encodage en UTF8.-cl
: nombre de mots précédents formant le contexte statistique, par défaut 2 (trigramme).-dtg
: seuil minimum dans l’arbre de décision.-sw
: adoucissement de la probabilité par ascendance.-ecw
: poids de l’équivalence des classes.-atg
: seuil minimum de l’affix tree, par défaut 1,2.
Fichiers pour l’apprentissage de TreeTagger en latin médiéval
- Liste des POS (enregistrer la cible du lien).
- Liste des formes (Lexicon) :
- Liste à télécharger (v0.6, 11Mo, 02/2014).
- Archives :
- Liste v0.5 (10Mo, 12/2012).
- Liste v0.4 (12Mo, 10/2012).
- Corpus d’entraînement (Treebank) :
- Corpus à télécharger (v0.6, 2Mo, 02/2014) : environ 570 000 lignes.
- Archives :
- Corpus v0.5 (0.7Mo, 12/2012) : environ 275 000 lignes.
- Corpus v0.4 (0.5Mo, 10/2012) : environ 200 000 lignes.
Sources complémentaires
- Liste de lemmes et variantes à télécharger (v0.6, 1Mo, 02/2014) : environ 72 000 lignes.
- Script pour obtenir un texte tokenisé [TOKEN] à partir d’un texte simple [TEXTE] avec la commande :
[SCRIPT] [TEXTE] [TOKEN]
- Script à télécharger (v0.6, 02/2014) (enregistrer la cible du lien).
- Archives :
- Script v0.5 (12/2012) (enregistrer la cible du lien).
- Script v0.4 (10/2012) (enregistrer la cible du lien).
Les fichiers et les paramètres de lemmatisation sont mis à disposition selon les termes de la licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Partage dans les Mêmes Conditions 4.0 International.