Semantic typing of nouns in the Demonette morphological resource. Typage sémantique des noms dans la ressource morphologique Démonette

Archive ouverte

Huguin, Mathilde | Barque, Lucie | Haas, Pauline | Tribout, Delphine

Edité par CCSD ; UMR 8163 STL « Savoirs, Textes, Langage » ; Université de Lille -

International audience. This article describes the methodology used to carry out the semantic annotation of part of the nouns in the Démonette-2 morphological database. First, we present the set of semantic labels selected for this annotation. This set of labels is a revised adaptation of Wordnet’s Unique Beginners, and each label is provided by a definition and linguistic tests enabling a label to be assigned to a noun. We then describe the two methods used to annotate the nouns. The first one is an automatic method that matches the labels present in the morphological databases feeding Démonette-2 with the revised set of labels. The second method involved manually annotating a subset of nouns. Finally, we give a quantitative assessment of our annotation, presenting the distribution of monosemic/polysemic nouns and the most frequent semantic labels. This initial semantic annotation work provides a set of 58,099 nouns with one or more semantic labels. This set of nouns already offers a host of analytical possibilities that would be impossible without access to a large database of semantically and morphologically annotated data, such as the study of competing processes or the examination of the polyfunctionality of affixes. . Cet article décrit la méthodologie mise en place pour effectuer l’annotation sémantique d’une partie des noms de la base de données morphologiques Démonette-2. Nous y présentons d’abord le jeu d’étiquettes sémantiques sélectionné pour effectuer cette annotation. Ce jeu d’étiquettes est une adaptation révisée des Unique Beginners de Wordnet et chaque étiquette est accompagnée d’une définition et de tests linguistiques permettant l’attribution d’une étiquette à un nom. Nous détaillons ensuite les deux méthodes utilisées pour annoter les lexèmes nominaux. La première méthode, automatique, a consisté à apparier les étiquettes présentes dans les bases de données morphologiques alimentant Démonette‑2 avec le jeu d’étiquettes révisé. La seconde méthode a consisté à annoter manuellement un sous-ensemble de noms. Nous donnons enfin un bilan quantitatif de notre annotation en présentant notamment la distribution des noms monosémiques / polysémiques et les étiquettes sémantiques les plus fréquentes. Ce premier travail d’annotation sémantique fournit un ensemble de 58 099 noms disposant d’une ou plusieurs étiquettes sémantiques. Cet ensemble de noms offre déjà de multiples possibilités d’analyses, impossibles sans accès à une large base de données annotées sémantiquement et morphologiquement, comme l’étude de procédés concurrents ou encore l’examen de la polyfonctionnalité des affixes.

Suggestions

Du même auteur

Guide d’annotation Demonext. Guide d’annotation Demonext: Typage lexical des noms du français

Archive ouverte | Huguin, Mathilde | CCSD

Le présent guide est un outil destiné aux linguistes et aux étudiants permettant l’annotation sémantique manuelle de lexèmes nominaux hors contexte en prenant en compte la polysémie. Plus précisément, ce document récapitule la dém...

Démonette-2, a derivational database for French with broad lexical coverage and fine-grained morphological descriptions. Démonette-2, une base de données dérivationnelle du français à large couverture lexicale munie de descriptions morphologiques détaillées

Archive ouverte | Namer, Fiammetta | CCSD

International audience. Morphological databases play an important role in linguistic research today. While several exist for the study of inflectional morphology in French, there is still a lack of resources for der...

Demonette2 \textendash A large scale derivational database for French: first results. Demonette2 - Une base de données dérivationnelle du français à grande échelle : premiers résultats

Archive ouverte | Namer, Fiammetta | CCSD

This paper presents the design and development of Demonette2, a large-scale derivational database of French, developed as part of the ANR Démonext project (ANR-17-CE23-0005). It describes the objectives of the project, the structu...

Chargement des enrichissements...