Object-oriented lexical encoding of multiword expressions: Short and sweet

Archive ouverte

Savary, Agata | Petitjean, Simon | Lichte, Timm | Kallmeyer, Laura | Waszczuk, Jakub

Edité par CCSD ; UMR 8163 STL « Savoirs, Textes, Langage » ; Université de Lille -

International audience. Multiword expressions (MWEs) exhibit both regular and idiosyncratic properties. Their idiosyncrasy requires lexical encoding in parallel with their component words. Their (at times intricate) regularity, on the other hand, calls for means of flexible factorization to avoid redundant descriptions of shared properties. However, so far, non-redundant general-purpose lexical encoding of MWEs has not received a satisfactory solution. We offer a proof of concept that this challenge might be effectively addressed within eXtensible MetaGrammar (XMG), an object-oriented metagrammar framework. We first make an existing metagrammatical resource, the FrenchTAG grammar, MWE-aware. We then evaluate the factorization gain during incremental implementation with XMG on a dataset extracted from an MWE-annotated reference corpus. . Les Expressions polylexicales (EP) possèdent des propriétés à la fois régulières et idiosyncratiques. Leur idiosyncrasie requiert un codage lexical au même titre que celui des mots qui les composent. D'autre part, leur régularité (parfois complexe) nécessite des moyens de factorisation afin d'éviter des descriptions redondantes des propriétés partagées. À ce jour, il n'existe pas de solution idéale pour le codage lexical généraliste et non redondant des EP. Dans cet article nous présentons une preuve de concept que ce défi pourrait être relevé dans le cadre de XMG (eXtensible MetaGrammar), qui est un formalisme métagrammatical orienté-objet. Nous montrons comment une ressource métagrammaticale existante, FrenchTAG, peut être étendue pour couvrir les EP. Nous évaluons le gain en termes de factorisation de cette ressource lors de son développement incrémental. Cette expérience est menée sur un jeu de données extrait d'un corpus de référence annoté en EP.

Suggestions

Du même auteur

Lexical encoding formats for multi-word expressions: The challenge of "irregular" regularities

Archive ouverte | Lichte, Timm | CCSD

International audience

PARSEME corpus release 1.3

Archive ouverte | Savary, Agata | CCSD

International audience

Literal Occurrences of Multiword Expressions: Rare Birds That Cause a Stir

Archive ouverte | Savary, Agata | CCSD

International audience. Multiword expressions can have both idiomatic and literal occurrences. For instance pulling strings can be understood either as making use of one's influence, or literally. Distinguishing the...

Chargement des enrichissements...