Le projet
Ce site est le fruit d'une collaboration entre le
Lattice et
le département de français de l'université de Berkeley. Sa réalisation a bénéficié du soutien du laboratoire d’excellence TransferS (programme Investissements d’avenir ANR-10-IDEX-0001-02 PSL* et ANR-10-LABX-0099) et du Fonds France-Berkeley.
Il se veut être une ressource pour les enseignants de français langue seconde étudiant le procédé de
dislocation. Ce site recense des énoncés contenant une dislocation. L'enseignant peut y piocher des énoncés
et générer une page html qui servira de support de cours.
Les énoncés sont issus de treebanks libres de droits. L'idée est d'exploiter ces ressources annotées pour constituer une base d'exemples de disloquées attestées et issues de sources variées en privilégiant les corpus oraux.
Chacun de ces énoncés a été vérifié par au moins deux membres de l'équipe de linguistes ayant participé au projet. Les linguistes ont apporté une analyse des énoncés que l'on retrouve dans les colonnes suivantes:
- type
- gauche ou droite selon que l'élément disloqué est à gauche ou à droite de son recteur
- nature
- la catégorie morpho-syntaxique de l'élément de reprise
- fonction
- la fonction syntaxique de l'élément disloqué : sujet, objet, od (objet direct), oi (objet indirect)
Les membres du projet
- Expertise linguistique : Bryan Donaldson, Benjamin Fagard, Mairi McLaughlin, Sophie Prévost, Laure Sarda, Rachel Weiher
- Ingénierie linguistique et développement : Audrey Gombault, Frédérique Mélanie-Becquet, Clément Plancq
Les corpus sources
cefc-gold
Le Corpus d'Études du Français Contemporain est issu du projet
Orféo (Outils et recherches sur le français écrit et oral).
1
cefc-gold est la sous-partie du CEFC dont les annotations ont été vérifiées et, le cas échéant, corrigées manuellement. L'alignement
son-mot n'a pas été vérifié par contre.
Les annotations syntaxiques sont décrites dans le guide consultable à cette adresse :
http://www.projet-orfeo.fr/guide-dannotation-syntaxique-du-corpus-orfeo/. Les dislocations ne sont
pas annotées explicitement dans le CEFC, elles sont comprises dans une relation dite
periph relevant de la macro-syntaxe : « La relation
periph relie les éléments périphériques, en position détachée par rapport à l’élément
root ».
À l'aide de l'outil
Grew, Audrey Gombault a pu sélectionner un ensemble d'énoncés susceptibles de comporter une relation
de dislocation. Puis trois binômes de linguistes (L. Sarda / M. McLaughlin, S. Prévost / B. Donaldson,
B. Fagard / R. Weiher) se sont partagés ces énoncés pour les analyser manuellement et identifier les
disloquées.
Lorsque les énoncés sont d'une taille inférieure à 10 mots, nous avons ajouté du contexte avant et après.
La paire de symboles
// marque la fin d'un énoncé.
Nous nous sommes appuyés sur l'alignement temporel son-mot pour produire des fichiers sons correspondants
aux énoncés présentés. L'alignement étant le résultat d'un traitement automatique, il arrive parfois
que le signal ne corresponde pas tout à fait à la transcription. Nous avons à dessein produit une extraction un peu plus
large que l'alignement : le signal de parole sera souvent un peu large que la transcription présentée.
Certains noms de personnes ont été anonymisés, dans la transcription et parfois dans le signal. Vous lisez alors NNAAMMEE ou ANON et entendez un bip ou un signal dégradé.
[ 1] Christophe Benzitoun, Jeanne-Marie Debaisieux et Henri-José Deulofeu, « Le projet ORFÉO : un corpus d’étude pour le français contemporain », Corpus, 15 | 2016. URL : http://journals.openedition.org/corpus/2936
Le cefc-gold est composé d'extraits de plusieurs corpus :
-
CORALROM. La ressource multilingue C-ORAL-ROM fournit un ensemble de corpus comparable de langue
spontanée des langues romanes principales, à savoir le français, l’italien, le portugais et l’espagnol.
La ressource est le résultat du projet C-ORAL-ROM, qui a été entrepris par un consortium européen,
coordonné par l’Université de Florence et financé dans le cadre du cinquième programme-cadre de l’UE.
-
CLAPI, Corpus de LAngue Parlée en Interaction, est une banque de données multimédia de corpus
vidéos et audios enregistrés en situation naturelle dans des contextes variés : professionnel, privé,
institutionnel, commercial, médical, en situation de classe, …
-
VALIBEL. Le centre Valibel – Discours et Variation gère une base de données textuelles comprenant
actuellement 22 corpus constitués d’enregistrements de productions orales (1987-1995), transcrits
et encodés sur support informatique. Ces corpus représentent 373 heures d’enregistrement auprès de
533 informateurs originaires de Bruxelles et de la Wallonie. 500.000 mots ont été mis à disposition
du projet Orféo pour une durée d’environ 43 heures de parole.
-
TCOF. Le corpus TCOF comporte deux grandes catégories : des enregistrements de corpus d’interactions
entre adultes et enfants et des enregistrements d’interactions entre adultes dans différentes situations
de communication (conversation, entretien, récit de vie, réunion de travail, etc.). Cette dernière
base est constituée d’environ 300.000 mots pour un total de 23 heures de parole. Nous y avons ajouté
des enregistrements provenant de la collection personnelle de J.-M. Debaisieux ainsi que de Sandrine
Caddeo. L’ensemble a été mis à disposition du projet Orféo.
Universal Dependancies (UD)
Le projet
Universal Dependancies vise à développer un jeu d'annotations cross-lingue cohérent pour les treebanks.
Ce projet collaboratif réunit aujourd'hui plus de 100 treebanks dans 60 langues différentes.
Le guide d'annotation syntaxique d'UD prévoit une annotation explicite du phénomène de dislocation. La relation dislocated relie l'élément disloqué à la tête de la phrase.
Cette annotation nous a permis d'extraire aisément les phrases contenant des disloquées des corpus suivants :
-
Sequoia. Version UD du corpus
Sequoia, composé d'extraits de :
- Europarl, transcriptions des débats au Parlement Européen
- annodis
- EMEA (parallel corpus made out of PDF documents from the European Medicines Agency)
Licence : LGPL-LR
- UD French-Spoken. Conversion en UD du corpus Rhapsodie
- ParTUT. Conversion en UD du corpus ParTUT.
- UD French GSD.