SEM - Segmenteur-Étiqueteur Markovien
Un étiqueteur du français basé sur les CRF, licence GNU.
SEM est un logiciel développé par Yoann Dupont et Isabelle Tellier.
Pour plus d'informations voir les pages http://www.lattice.cnrs.fr/sites/itellier/SEM.html et https://github.com/YoannDupont/SEM
Étiquettes
POS
- ADJ
- adjectif
- ADJWH
- adjectif interrogatif
- ADV
- adverbe
- ADVWH
- adverbe interrogatif
- CC
- conjonction de coordination
- CL
- pronom clitique
- CLO
- pronom clitique objet
- CLR
- pronom clitique réfléchi
- CLS
- pronom clitique sujet
- CS
- conjonction de subordination
- DET
- déterminant
- DETWH
- déterminant interrogatif
- ET
- mot tiré d'une langue étrangère
- I
- interjection
- NC
- nom commun
- NPP
- nom propre
- P
- préposition
- P+D
- forme contractée préposition et déterminant
- P+PRO
- forme contractée préposition et pronom
- PONCT
- ponctuation
- PREF
- préfixe
- PRO
- pronom
- PROREL
- pronom relatif
- PROWH
- pronom interrogatif
- V
- verbe
- VIMP
- forme verbale à l'impératif
- VINF
- forme verbale à l'infinitif
- VPP
- participe passé
- VPR
- participe présent
- VS
- forme verbale au subjonctif
Chunks
- __UNKNOWN__
- chunk de nature non-identifiée (ET)
- AP
- chunk adjectival (ADJ, ADJWH)
- AdP
- chunk adverbial (ADV, ADVWH, I)
- CONJ
- chunk conjonction (CC, CS)
- NP
- chunk nominal (CLO, CLR, CLS, NC, NPP, PRO, PROREL, PROWH)
- PP
- chunk prépositionnel (P, P+D, P+PRO)
- VN
- chunk verbal (V, VIMP, VINF, VPP, VPR, VS)
Entités nommées
- Company
- les entreprises
- FictionCharacter
- les personnages fictifs
- Location
- les lieux (ville, pays, etc...)
- Organization
- les associations ou organisations à but non lucratif par exemple
- POI
- Point Of Interest, les lieux d'intérêt tels que l'Opéra
- Person
- les personnes physiques
- Product
- les produits
Crédits
Outils
SEM utilise Wapiti, de Thomas Lavergne, une implémentation des CRF linéaires grâce à laquelle sont appris les modèles.
Modèles
Les modèles utilisés sur ce site ont été appris sur le French Treebank.Les modèles utilisés sur ce site ont été construits en se servant de lefff, le lexique des formes fléchies du français.
Web
Ce site web est hébergé sur le serveur du Lattice, il a été développé par Clément Plancq. Il utilise Flask, Bootstrap et Docker.
Confidentialité
Données personnelles
Les données que vous soumettez à SEM ne sont pas conservées. Elles sont stockées le temps du traitement puis détruites.
Nous utilisons un logiciel de mesure d'audience : Piwik. Votre adresse IP n'est pas transmise en intégralité, nous avons configuré Piwik pour que seuls les deux premiers octets soient transférés conformément aux recommandations de la CNIL.
Cookies
Ce site utilise deux types de cookies :- un cookie de session
- des cookies nécessaires au logiciel de mesure d'audience Piwik que nous utilisons.