Compression de variables sur données de grande dimension en génétique (CODIM)

Funded by :AGIR PEPS
Funding :
Period :2016-2018
Status :In progress
Coordinator :Caroline Bazzoli
Collaborators :Marie-José Martinez, Sophie Lambert Lacroix



Description

Dans ce projet où les termes « médecine personnalisée », « données génétiques » se rencontrent, nous nous intéressons au traitement de données dites de grande dimension. Ces données posent de nouveaux défis dans leur analyse, tant pour le clinicien que pour les statisticiens. Les données peuvent être de très grandes dimensions, rendant les techniques statistiques classiques très peu performantes. Des questions de réduction de la dimension seront en particulier abordées, autrement dit l’extraction d’information pertinente lorsque le nombre de variables est très grand devant le nombre d’observations. Dans ce contexte, les stratégies statistiques utilisées classiques sont la classification (non)-supervisée et l’analyse de survie. Nous proposons d’utiliser des techniques comme les méthodes de type partial least square(PLS) pour les adapter au contexte de la grande dimension. Ce projet se focalise sur l’analyse des données de microarrays (CGH) étudiées au Laboratoire TIMC ou au Laboratoire de Biométrie et Biologie Evolutive de Lyon. Les travaux proposés portent sur des études qui réuniront les efforts de chercheurs du laboratoire TIMC, Jean Kuntzmann et du Laboratoire de Biométrie et Biologie Evolutive.