Vers un outillage informatique optimisé pour corpus langagiers oraux en vue d'une exploitation textométrique : le cas des interrogatives partielles dans ESLO

Archive ouverte

Badin, Flora | Liégeois, Loïc | Thiberge, Gabriel | Parisse, Christophe

Edité par CCSD ; Bases, Corpus, Langage - UMR 7320 -

International audience. To answer the increasing trend of corpora sharing and data format heterogeneity, we present a method for converting spoken language corpora to several tool formats in order to facilitate linguistic analysis. For this research, we take as an example the ESLO corpus for several reasons: its open-source licence, its standard format used for its construction, its size, and its sociolinguistic and micro-diacronic characteristics. Our study is based on a compilation of the ESLO corpus in order to make it compatible with the textometric tool TXM. We operate a set of operations to use all the possibilities the tool offers. Finally, we present a fine-grained and multidimensional analysis of the interrogatives utterances used in the ESLO corpus. . Pour répondre aux problématiques engendrées par la diffusion de plus en plus massive des corpus linguistiques et à l'hétérogénéité de leurs formats, nous proposons une méthode permettant de prendre en main des corpus langagiers oraux et de les convertir dans un format permettant leur exploitation outillée. Pour cette recherche, le corpus ESLO nous sert d'exemple par sa licence de diffusion, son format, son volume et ses atouts sociolinguistiques et diachroniques. Notre travail se fonde sur la compilation de ce corpus pour le rendre compatible avec l'outil de textométrie TXM. Nous opérons un ensemble de transformations des données pour l'utiliser au mieux. Enfin, pour illustrer les apports de ces avancées méthodologiques, nous proposons une analyse fine et multidimensionnelle de l'usage des interrogatives dans le corpus ESLO.

Suggestions

Du même auteur

French partial interrogatives: a microdiachronic corpus study of variation and new perspectives in a refined pragmatics framework

Archive ouverte | Thiberge, Gabriel | CCSD

International audience. Abstract In this paper we report and analyse data from the ESLO corpus of oral French, constituted during two time periods (1960–2010), allowing for an in-depth exploration of French partial ...

CORLI: The French Knowledge-Centre

Archive ouverte | Soroli, Efstathia | CCSD

International audience. As a first step towards increasing reproducibility of language data and promoting scientific synergies and transparency, CORLI (Corpus, Language and Interaction), a consortium involving membe...

Utiliser les outils CORLI de conversion TEI pour l’analyse de corpus de langage oral

Archive ouverte | Parisse, Christophe | CCSD

Le consortium CORLI développe des outils pour faciliter le dépôt, l'interrogation et la réutilisation des corpus oraux. Ces outils libres et open source sont basés sur la TEI comme format commun de partage. Nous présenterons deux ...

Chargement des enrichissements...