Sélection de variables pour la classification par mélanges gaussiens pour prédire la fonction des gènes orphelins

Archive ouverte

Maugis, Cathy | Martin-Magniette, Marie-Laure | Tamby, Jean-Philippe | Renou, Jean-Pierre | Lecharny, Alain | Aubourg, Sebastien | Celeux, Gilles

Edité par CCSD ; Modulad -

Biologists are interested in predicting the gene functions of sequenced genome organisms according to microarray transcriptome data. The microarray technology development allows one to study the whole genome in different experimental conditions. The information abundance may seem to be an advantage for the gene clustering. However, the structure of interest can often be contained in a subset of the available variables. The currently available variable selection procedures in model-based clustering assume that the irrelevant clustering variables are all independent or are all linked with the relevant clustering variables. A more versatile variable selection model is proposed, taking into account three possible roles for each variable: The relevant clustering variables, the redundant variables and the independent variables. A model selection criterion and a variable selection algorithm are derived for this new variable role modelling. The interest of this new modelling for discovering the function of orphan genes is highlighted on a transcriptome dataset for the arabidopsis thaliana plant. . Les biologistes s’attachent actuellement à prédire la fonction des gènes d’organismes de génome séquence à partir de données transcriptomes, issues de l’utilisation des puces à ADN. Le d´développement de cette technologie permet de tester l’expression de l’ensemble du génome dans de nombreuses conditions expérimentales. Cette quantité d’information peut alors sembler être un atout pour la classification des gènes. Pourtant il est courant que seul un sous-ensemble contienne l’information pertinente pour la classification. Les procédures de sélection des variables en classification non supervisée par mélanges gaussiens supposent généralement que les variables non informatives pour la classification sont soit toutes indépendantes, soit liées à des variables informatives. Nous proposons une nouvelle modélisation du rôle des variables plus polyvalente : les variables sont soit informatives pour la classification, soit redondantes, soit totalement indépendantes. Nous proposons un critère de sélection des variables et un algorithme pour cette nouvelle modélisation. L’intérêt de cette nouvelle modélisation pour la prédiction de la fonction des gènes orphelins est illustrée sur un ensemble de données transcriptomes obtenues chez Arabidopsis thaliana.

Suggestions

Du même auteur

CATdb: a public access to Arabidopsis transcriptome data from the URGV-CATMA platform

Archive ouverte | Gagnot, Séverine | CCSD

CATdb is a free resource available at http://urgv.evry.inra.fr/CATdb that provides public access to a large collection of transcriptome data for Arabidopsis thaliana produced by a single Complete Arabidopsis Transcriptome Micro Ar...

GEM2Net: from gene expression modeling to -omics networks, a new CATdb module to investigate Arabidopsis thaliana genes involved in stress response

Archive ouverte | Zaag, Rim | CCSD

publié Epub 2014 Nov 11. CATdb (http://urgv.evry.inra.fr/CATdb) is a database providing a public access to a large collection of transcriptomic data, mainly for Arabidopsis but also for other plants. This resource h...

Letter to the Editor

Archive ouverte | Celeux, Gilles | CCSD

International audience. no abstract

Chargement des enrichissements...