Sélection de variables par le GLM-Lasso pour la prédiction du risque palustre

Archive ouverte

Kouwayè, Bienvenue | Fonton, Noël | Rossi, Fabrice

Edité par CCSD -

National audience. In this study, we propose an automatic learning method for variables selection based on Lasso in epidemiology context. One of the aim of this approach is to overcome the pretreatment of experts in medicine and epidemiology on collected data. These pretreatment consist in recoding some variables and to choose some interactions based on expertise. The approach proposed uses all available explanatory variables without treatment and generate automatically all interactions between them. This lead to high dimension. We use Lasso, one of the robust methods of variable selection in high dimension. To avoid over fitting a two levels cross-validation is used. Because the target variable is account variable and the lasso estimators are biased, variables selected by lasso are debiased by a GLM and used to predict the distribution of the main vector of malaria which is Anopheles. Results show that only few climatic and environmental variables are the mains factors associated to the malaria risk exposure. . Nous étudions dans ce travail une méthode de sélection de variables basée sur le Lasso dans le contexte épidémiologique. L'un des objectifs est de construire automatiquement un modèle prédictif en limitant le recours aux experts médicaux qui opèrent des prétraitements sur les données collectées. Ces prétraitements consistent entre autres à recoder certaines variables en classe et à choisir manuellement certaines interactions en se basant sur la connaissance des données. L'approche proposée utilise toutes les variables explicatives sans traitement et génère automatiquement toutes les interactions entre les variables, ce qui nous conduit en grande dimension. Nous utilisons le Lasso qui est une méthode robuste de sélection de variables en grande dimension. Le nombre d'observations dans les études épidémiologiques étant faible, nous proposons une validation croisée à deux niveaux pour éviter le risque de sur apprentissage dans la phase de sélection de variables. Les estimateurs Lasso étant biaisés et la variable d'intérêt qu'est lenombre d'anophèles à prédire étant discret, nous utilisons un modèle GLM pour débiaiser les variables sélectionnées par le Lasso et faire de la prédiction. Les résultats montrent que quelques variables climatiques et environnementales seulement sont des facteurs principaux liés au risque d'exposition au paludisme.

Suggestions

Du même auteur

Lasso based feature selection for malaria risk exposure prediction

Archive ouverte | Kouwayè, Bienvenue | CCSD

International audience. In life sciences, the experts generally use empirical knowledge to recode variables, choose interactions and perform selection by classical approach. The aim of this work is to perform automa...

Predicting local malaria exposure using a Lasso-based two-level cross validation algorithm

Archive ouverte | Kouwaye, Bienvenue | CCSD

International audience. Recent studies have highlighted the importance of local environmental factors to determine the fine-scale heterogeneity of malaria transmission and exposure to the vector. In this work, we co...

Variables selection by the LASSO method. Application to malaria data of Tori-Bossito (Benin)

Archive ouverte | Kouwaye, Bienvenue | CCSD

COPROMATH 2013 Cotonou Bénin. This work deals with prediction of anopheles number using environmental and climate variables. The variables selection is performed by GLMM (Generalized linear mixed model) combined wi...

Chargement des enrichissements...