Mon travail de thèse porte sur l’apport des méthodes multidimensionnelles
sur l’ analyse de données génétiques. Les méthodes d’ordination en espace réduit offrent de nombreuses possibilités en tant qu’approche exploratoire des données de marqueurs moléculaires.
Actuellement, deux axes de recherche sont abordés.
Tout d’abord, un premier problème est posé dans le cadre de la typologie d’individus ou de populations à partir de marqueurs moléculaires : chaque marqueur peut faire une typologie des objets étudiés.
Il s’agit donc de pouvoir comparer les informations apportées par chacun des marqueurs, et de trouver - s’il existe - un compromis entre ces informations. Sur le plan statistique, cette problématique peut être abordée par l’utilisation de méthodes K-tableaux . Une première application de l’ Analyse de Co-inertie Multiple a permis de proposer une mesure possible de la valeur typologique des marqueurs moléculaires (Jombart et al 2006, Laloë et al, accepté).
Un autre axe d’étude concerne la recherche de structures spatiales de la variabilité génétique. Lorsqu’elle est disponible, l’information spatiale peut être prise en compte en même temps que les distances génétiques pour inférer des processus biologiques sous-jacents. Cette prise en compte simultannée peut être obtenue par des méthodes d’ordination sous contrainte spatiale. Dans cette optique, nous proposons la spatial Principal Component Analysis (sPCA, Jombart et al, in prep).
Cette méthode, bien que nouvelle en génétique, repose sur des principes bien connus d’analyse multivariées (Analyse en Composantes Principales sur données de fréquences alléliques) et d’autocorrélation spatiale.
Ces deux problématiques sont abordées par l’analyse de jeux de données, à travers diverses collaborations, dont la majorité sont en cours.
Ce dialogue interdisciplinaire a nécessité un développement logiciel, lesquels sont regroupés dans le package adegenet (http://pbil.univ-lyon1.fr/software/adegenet/) du logiciel libre R.
Ce package est dédié à la manipulation des données génétiques, depuis l’import depuis des logiciels extérieurs (e.g. GENETICS, Fstat) jusqu’à leur analyse par des méthodes d’ordination en espace réduit utilisant le package ade4 . Des fonctions d’analyse standard sont également proposées (test de HW, test de structuration hiérarchique, …), ainsi que des passerelles vers d’autres package R (hierfstat, genetics, …).
J’apporte par ailleurs une contribution au développement du package ade4 .