À propos

Le projet

Ce site est le fruit d'une collaboration entre le Lattice et le département de français de l'université de Berkeley. Sa réalisation a bénéficié du soutien du laboratoire d’excellence TransferS (programme Investissements d’avenir ANR-10-IDEX-0001-02 PSL* et ANR-10-LABX-0099) et du Fonds France-Berkeley.
Il se veut être une ressource pour les enseignants de français langue seconde étudiant le procédé de dislocation. Ce site recense des énoncés contenant une dislocation. L'enseignant peut y piocher des énoncés et générer une page html qui servira de support de cours.

Les énoncés sont issus de treebanks libres de droits. L'idée est d'exploiter ces ressources annotées pour constituer une base d'exemples de disloquées attestées et issues de sources variées en privilégiant les corpus oraux.

Chacun de ces énoncés a été vérifié par au moins deux membres de l'équipe de linguistes ayant participé au projet. Les linguistes ont apporté une analyse des énoncés que l'on retrouve dans les colonnes suivantes:

type
gauche ou droite selon que l'élément disloqué est à gauche ou à droite de son recteur
nature
la catégorie morpho-syntaxique de l'élément de reprise
fonction
la fonction syntaxique de l'élément disloqué : sujet, objet, od (objet direct), oi (objet indirect)

Les membres du projet

  • Expertise linguistique : Bryan Donaldson, Benjamin Fagard, Mairi McLaughlin, Sophie Prévost, Laure Sarda, Rachel Weiher
  • Ingénierie linguistique et développement : Audrey Gombault, Frédérique Mélanie-Becquet, Clément Plancq

Les corpus sources

cefc-gold

Le Corpus d'Études du Français Contemporain est issu du projet Orféo (Outils et recherches sur le français écrit et oral). 1 cefc-gold est la sous-partie du CEFC dont les annotations ont été vérifiées et, le cas échéant, corrigées manuellement. L'alignement son-mot n'a pas été vérifié par contre.

Les annotations syntaxiques sont décrites dans le guide consultable à cette adresse : http://www.projet-orfeo.fr/guide-dannotation-syntaxique-du-corpus-orfeo/. Les dislocations ne sont pas annotées explicitement dans le CEFC, elles sont comprises dans une relation dite periph relevant de la macro-syntaxe : « La relation periph relie les éléments périphériques, en position détachée par rapport à l’élément root ».
À l'aide de l'outil Grew, Audrey Gombault a pu sélectionner un ensemble d'énoncés susceptibles de comporter une relation de dislocation. Puis trois binômes de linguistes (L. Sarda / M. McLaughlin, S. Prévost / B. Donaldson, B. Fagard / R. Weiher) se sont partagés ces énoncés pour les analyser manuellement et identifier les disloquées.

Lorsque les énoncés sont d'une taille inférieure à 10 mots, nous avons ajouté du contexte avant et après. La paire de symboles // marque la fin d'un énoncé.
Nous nous sommes appuyés sur l'alignement temporel son-mot pour produire des fichiers sons correspondants aux énoncés présentés. L'alignement étant le résultat d'un traitement automatique, il arrive parfois que le signal ne corresponde pas tout à fait à la transcription. Nous avons à dessein produit une extraction un peu plus large que l'alignement : le signal de parole sera souvent un peu large que la transcription présentée.

Certains noms de personnes ont été anonymisés, dans la transcription et parfois dans le signal. Vous lisez alors NNAAMMEE ou ANON et entendez un bip ou un signal dégradé.

[ 1] Christophe Benzitoun, Jeanne-Marie Debaisieux et Henri-José Deulofeu, « Le projet ORFÉO : un corpus d’étude pour le français contemporain », Corpus, 15 | 2016. URL : http://journals.openedition.org/corpus/2936

Le cefc-gold est composé d'extraits de plusieurs corpus :

  • CORALROM. La ressource multilingue C-ORAL-ROM fournit un ensemble de corpus comparable de langue spontanée des langues romanes principales, à savoir le français, l’italien, le portugais et l’espagnol. La ressource est le résultat du projet C-ORAL-ROM, qui a été entrepris par un consortium européen, coordonné par l’Université de Florence et financé dans le cadre du cinquième programme-cadre de l’UE.
  • CLAPI, Corpus de LAngue Parlée en Interaction, est une banque de données multimédia de corpus vidéos et audios enregistrés en situation naturelle dans des contextes variés : professionnel, privé, institutionnel, commercial, médical, en situation de classe, …
  • VALIBEL. Le centre Valibel – Discours et Variation gère une base de données textuelles comprenant actuellement 22 corpus constitués d’enregistrements de productions orales (1987-1995), transcrits et encodés sur support informatique. Ces corpus représentent 373 heures d’enregistrement auprès de 533 informateurs originaires de Bruxelles et de la Wallonie. 500.000 mots ont été mis à disposition du projet Orféo pour une durée d’environ 43 heures de parole.
  • TCOF. Le corpus TCOF comporte deux grandes catégories : des enregistrements de corpus d’interactions entre adultes et enfants et des enregistrements d’interactions entre adultes dans différentes situations de communication (conversation, entretien, récit de vie, réunion de travail, etc.). Cette dernière base est constituée d’environ 300.000 mots pour un total de 23 heures de parole. Nous y avons ajouté des enregistrements provenant de la collection personnelle de J.-M. Debaisieux ainsi que de Sandrine Caddeo. L’ensemble a été mis à disposition du projet Orféo.

Licence : 


Universal Dependancies (UD)

Le projet Universal Dependancies vise à développer un jeu d'annotations cross-lingue cohérent pour les treebanks.
Ce projet collaboratif réunit aujourd'hui plus de 100 treebanks dans 60 langues différentes.

Le guide d'annotation syntaxique d'UD prévoit une annotation explicite du phénomène de dislocation. La relation dislocated relie l'élément disloqué à la tête de la phrase.

Cette annotation nous a permis d'extraire aisément les phrases contenant des disloquées des corpus suivants :