SEM - Segmenteur-Étiqueteur Markovien

Un étiqueteur du français basé sur les CRF, licence GNU.

SEM est un logiciel développé par Yoann Dupont et Isabelle Tellier.
Pour plus d'informations voir les pages http://www.lattice.cnrs.fr/sites/itellier/SEM.html et https://github.com/YoannDupont/SEM

Étiquettes

POS

ADJ
adjectif
ADJWH
adjectif interrogatif
ADV
adverbe
ADVWH
adverbe interrogatif
CC
conjonction de coordination
CL
pronom clitique
CLO
pronom clitique objet
CLR
pronom clitique réfléchi
CLS
pronom clitique sujet
CS
conjonction de subordination
DET
déterminant
DETWH
déterminant interrogatif
ET
mot tiré d'une langue étrangère
I
interjection
NC
nom commun
NPP
nom propre
P
préposition
P+D
forme contractée préposition et déterminant
P+PRO
forme contractée préposition et pronom
PONCT
ponctuation
PREF
préfixe
PRO
pronom
PROREL
pronom relatif
PROWH
pronom interrogatif
V
verbe
VIMP
forme verbale à l'impératif
VINF
forme verbale à l'infinitif
VPP
participe passé
VPR
participe présent
VS
forme verbale au subjonctif

Chunks

__UNKNOWN__
chunk de nature non-identifiée (ET)
AP
chunk adjectival (ADJ, ADJWH)
AdP
chunk adverbial (ADV, ADVWH, I)
CONJ
chunk conjonction (CC, CS)
NP
chunk nominal (CLO, CLR, CLS, NC, NPP, PRO, PROREL, PROWH)
PP
chunk prépositionnel (P, P+D, P+PRO)
VN
chunk verbal (V, VIMP, VINF, VPP, VPR, VS)

Entités nommées

Company
les entreprises
FictionCharacter
les personnages fictifs
Location
les lieux (ville, pays, etc...)
Organization
les associations ou organisations à but non lucratif par exemple
POI
Point Of Interest, les lieux d'intérêt tels que l'Opéra
Person
les personnes physiques
Product
les produits

Crédits

Outils

SEM utilise Wapiti, de Thomas Lavergne, une implémentation des CRF linéaires grâce à laquelle sont appris les modèles.

Modèles

Les modèles utilisés sur ce site ont été appris sur le French Treebank.
Les modèles utilisés sur ce site ont été construits en se servant de lefff, le lexique des formes fléchies du français.

Web

Ce site web est hébergé sur le serveur du Lattice, il a été développé par Clément Plancq. Il utilise Flask, Bootstrap et Docker.

Confidentialité

Données personnelles

Les données que vous soumettez à SEM ne sont pas conservées. Elles sont stockées le temps du traitement puis détruites.

Nous utilisons un logiciel de mesure d'audience : Piwik. Votre adresse IP n'est pas transmise en intégralité, nous avons configuré Piwik pour que seuls les deux premiers octets soient transférés conformément aux recommandations de la CNIL.

Cookies

Ce site utilise deux types de cookies :