Le projet
Ce site est le fruit d'une collaboration entre le
                    Lattice et
                    le département de français de l'université de Berkeley. Sa réalisation a bénéficié du soutien du laboratoire d’excellence TransferS (programme Investissements d’avenir ANR-10-IDEX-0001-02 PSL* et ANR-10-LABX-0099) et du Fonds France-Berkeley.
                    
 Il se veut être une ressource pour les enseignants de français langue seconde étudiant le procédé de
                    dislocation. Ce site recense des énoncés contenant une dislocation. L'enseignant peut y piocher des énoncés
                    et générer une page html qui servira de support de cours.
Les énoncés sont issus de treebanks libres de droits. L'idée est d'exploiter ces ressources annotées pour constituer une base d'exemples de disloquées attestées et issues de sources variées en privilégiant les corpus oraux.
Chacun de ces énoncés a été vérifié par au moins deux membres de l'équipe de linguistes ayant participé au projet. Les linguistes ont apporté une analyse des énoncés que l'on retrouve dans les colonnes suivantes:
- type
 - gauche ou droite selon que l'élément disloqué est à gauche ou à droite de son recteur
 - nature
 - la catégorie morpho-syntaxique de l'élément de reprise
 - fonction
 - la fonction syntaxique de l'élément disloqué : sujet, objet, od (objet direct), oi (objet indirect)
 
Les membres du projet
- Expertise linguistique : Bryan Donaldson, Benjamin Fagard, Mairi McLaughlin, Sophie Prévost, Laure Sarda, Rachel Weiher
 - Ingénierie linguistique et développement : Audrey Gombault, Frédérique Mélanie-Becquet, Clément Plancq
 
Les corpus sources
cefc-gold
Le Corpus d'Études du Français Contemporain est issu du projet
                    Orféo (Outils et recherches sur le français écrit et oral).
                    1
                    cefc-gold est la sous-partie du CEFC dont les annotations ont été vérifiées et, le cas échéant, corrigées manuellement. L'alignement
                    son-mot n'a pas été vérifié par contre.
                    
                
Les annotations syntaxiques sont décrites dans le guide consultable à cette adresse :
                    http://www.projet-orfeo.fr/guide-dannotation-syntaxique-du-corpus-orfeo/. Les dislocations ne sont
                    pas annotées explicitement dans le CEFC, elles sont comprises dans une relation dite
                    periph relevant de la macro-syntaxe : « La relation
                    periph relie les éléments périphériques, en position détachée par rapport à l’élément
                    root ».
                    
 À l'aide de l'outil
                    Grew, Audrey Gombault a pu sélectionner un ensemble d'énoncés susceptibles de comporter une relation
                    de dislocation. Puis trois binômes de linguistes (L. Sarda / M. McLaughlin, S. Prévost / B. Donaldson,
                    B. Fagard / R. Weiher) se sont partagés ces énoncés pour les analyser manuellement et identifier les
                    disloquées.
                
Lorsque les énoncés sont d'une taille inférieure à 10 mots, nous avons ajouté du contexte avant et après.
                    La paire de symboles
                    // marque la fin d'un énoncé.
                    
 Nous nous sommes appuyés sur l'alignement temporel son-mot pour produire des fichiers sons correspondants
                    aux énoncés présentés. L'alignement étant le résultat d'un traitement automatique, il arrive parfois
                    que le signal ne corresponde pas tout à fait à la transcription. Nous avons à dessein produit une extraction un peu plus
                    large que l'alignement : le signal de parole sera souvent un peu large que la transcription présentée.
Certains noms de personnes ont été anonymisés, dans la transcription et parfois dans le signal. Vous lisez alors NNAAMMEE ou ANON et entendez un bip ou un signal dégradé.
[ 1] Christophe Benzitoun, Jeanne-Marie Debaisieux et Henri-José Deulofeu, « Le projet ORFÉO : un corpus d’étude pour le français contemporain », Corpus, 15 | 2016. URL : http://journals.openedition.org/corpus/2936
Le cefc-gold est composé d'extraits de plusieurs corpus :
- 
                        CORALROM. La ressource multilingue C-ORAL-ROM fournit un ensemble de corpus comparable de langue
                        spontanée des langues romanes principales, à savoir le français, l’italien, le portugais et l’espagnol.
                        La ressource est le résultat du projet C-ORAL-ROM, qui a été entrepris par un consortium européen,
                        coordonné par l’Université de Florence et financé dans le cadre du cinquième programme-cadre de l’UE.
                        
 - 
                        CLAPI, Corpus de LAngue Parlée en Interaction, est une banque de données multimédia de corpus
                        vidéos et audios enregistrés en situation naturelle dans des contextes variés : professionnel, privé,
                        institutionnel, commercial, médical, en situation de classe, …
                        
 - 
                        VALIBEL. Le centre Valibel – Discours et Variation gère une base de données textuelles comprenant
                        actuellement 22 corpus constitués d’enregistrements de productions orales (1987-1995), transcrits
                        et encodés sur support informatique. Ces corpus représentent 373 heures d’enregistrement auprès de
                        533 informateurs originaires de Bruxelles et de la Wallonie. 500.000 mots ont été mis à disposition
                        du projet Orféo pour une durée d’environ 43 heures de parole.
                        
 - 
                        TCOF. Le corpus TCOF comporte deux grandes catégories : des enregistrements de corpus d’interactions
                        entre adultes et enfants et des enregistrements d’interactions entre adultes dans différentes situations
                        de communication (conversation, entretien, récit de vie, réunion de travail, etc.). Cette dernière
                        base est constituée d’environ 300.000 mots pour un total de 23 heures de parole. Nous y avons ajouté
                        des enregistrements provenant de la collection personnelle de J.-M. Debaisieux ainsi que de Sandrine
                        Caddeo. L’ensemble a été mis à disposition du projet Orféo.
                        
 
Universal Dependancies (UD)
 Le projet
                    Universal Dependancies vise à développer un jeu d'annotations cross-lingue cohérent pour les treebanks.
                    
 Ce projet collaboratif réunit aujourd'hui plus de 100 treebanks dans 60 langues différentes.
Le guide d'annotation syntaxique d'UD prévoit une annotation explicite du phénomène de dislocation. La relation dislocated relie l'élément disloqué à la tête de la phrase.
Cette annotation nous a permis d'extraire aisément les phrases contenant des disloquées des corpus suivants :
- 
                        Sequoia. Version UD du corpus
                        Sequoia, composé d'extraits de :
                        
- Europarl, transcriptions des débats au Parlement Européen
 - annodis
 - EMEA (parallel corpus made out of PDF documents from the European Medicines Agency)
 
Licence : LGPL-LR
 - UD French-Spoken. Conversion en UD du corpus Rhapsodie
 - ParTUT. Conversion en UD du corpus ParTUT.
 - UD French GSD.
 

