Rechercher

Sur ce site


Accueil > Annuaire > Perrière Guy > Développements méthodologiques

Développements méthodologiques

Depuis mon entrée au CNRS en 1992, les développements informatiques ont constitué une part importante de mon travail, part indispensable à la réalisation des recherches plus « biologiques » que j’ai eu à conduire et à diriger. Cette section se propose donc de décrire rapidement les développements récents que j’ai effectués.

Banques de familles de gènes

La génomique comparative constitue l’une des principales voies de l’analyse des séquences, ceci étant d’ailleurs une des conséquences directes de la disponibilité d’un nombre croissant de génomes complets. Ainsi, la phylogénie moléculaire constitue l’une des branches les plus importantes de cette approche. Le problème de la recherche des homologues – étape obligatoire de toute étude de génomique comparative – est qu’il s’agit d’un processus complexe qui requiert d’effectuer une série de traitements chaînés. Ainsi, il est nécessaire de récupérer les séquences dans les collections généralistes, de déterminer des similarités entre ces séquences, de les regrouper en familles, puis de calculer des alignements multiples et éventuellement des arbres phylogénétiques.

Afin de faciliter les analyses de génomique comparative dans lesquelles j’étais impliqué, j’ai participé au développement de plusieurs banques de données de gènes homologues. La première d’entre elles fut HOBACGEN (Homologous Bacterial Genes Database), dédiée aux gènes protéiques de bactéries, d’archées et de levure. Devant le succès remporté par ce système, Laurent Duret (Directeur de Recherche CNRS au Laboratoire de Biométrie et Biologie Évolutive) et moi-même avons alors décidé de mettre en place HOGENOM (Homologous Sequences in Complete Genomes), dédiée à l’ensemble des génomes complètement séquencés. Du fait de la forte redondance qui existait entre le contenu d’HOBACGEN et d’HOGENOM, celle-ci a remplacé la première.

Un problème récurrent pour toute banque de données est celui de la mise à jour. Les systèmes précédents ne font pas exception, et la procédure mise en place requiert d’utiliser les ressources en calcul parallèle du CC-IN2P3. En effet, la construction de ces banques nécessite de rechercher des similarités entre un grand nombre de séquences, puis de calculer des milliers d’alignements multiples et d’arbres phylogénétiques. Or, du fait que : i) le temps de doublement du nombre de séquences disponibles est de l’ordre de 16,5 mois ; et ii) la procédure de mise à jour nécessite de reconstruire complètement les familles, la stratégie actuellement utilisée n’est pas tenable sur le long terme. Pour pallier ces problèmes nous avons développé MultiHoSeqI (Multiple Homologous Sequence Identification) une méthode incrémentale permettant d’ajouter facilement un grand nombre de séquences dans nos banques de données.

Services au PRABI

Le Pôle Rhône-Alpes de Bioinformatique (PRABI) est une plate-forme labellisée RIO (Réseau Inter-Organismes) qui regroupe plusieurs équipes travaillant dans le domaine de la bioinformatique dans la région Rhône-Alpes. Le portail du PRABI donne accès à de nombreux services (recherche de similarités, accés aux banques de données, biologie structurale, etc.) , et je contribue toujours au développement d’un certain nombre d’entre eux.

Parmi les services que j’ai contribué à mettre en place puis à développer, figurent en particulier tout ce qui concerne la consultation des banques de données séquences. Le développement significatif le plus récent auquel j’ai participé est l’introduction du service HoSeqI (Homologous Sequences Identification), pour l’identification de séquences homologues dans les banques de familles de gènes. Ce système automatise toute la chaîne de traitement depuis la recherche de similarité d’une séquence dans une banque jusqu’au calcul d’un arbre permettant d’identifier visuellement l’espèce la plus proche de celle correspondant à la séquence soumise.

Analyse des données de puces à ADN

En collaboration avec le groupe de Desmond Higgins, du Conway Institute de l’Université de Dublin, j’ai participé au développement d’une bibliothèque R dédiée à l’analyse des données d’expression mesurées à l’aide de puces à ADN. Cette bibliothèque – de nom MADE4 – permet d’utiliser facilement sur de telles données deux méthodes habituellement employées dans le domaine de l’écologie : une méthode de classification supervisée, l’Analyse Inter/Intra (AII) ; et une méthode multi-tableaux, l’Analyse de Co-Inertie (ACI). Cette bibliothèque a été validée par le consortium Bioconductor, et elle est maintenant distribuée par l’intermédiaire de cette organisation.

En collaboration avec Florent Baty, du groupe Pulmonary Gene Research de l’Hôpital de l’Université de Bâle, j’ai également proposé une amélioration significative de l’AII consistant en l’introduction d’une procédure de rééchantillonnage permettant de sélectionner un ensemble de gènes discriminants.