Année 2003-2006: doctorat
Développement d'outils pour l'aide à l'identification dans de grandes banques de familles de gènes
Le nombre de séquences biologiques disponibles augmente rapidement avec les techniques de séquençage massif. La classification de ces séquences dans les banques existantes est nécessaire et contribue à l’étude de leurs relations évolutives. Des outils bioinformatiques automatisés sont donc indispensables pour effectuer les opérations d’identification de façon précise et rapide. Pendant ma thèse, j'ai développé un outil, HoSeqI (Homologous Sequence Identification), permettant d’automatiser l’identification de séquences dans de grandes banques de familles de gènes homologues. HoSeqI est disponible sur le site du Pôle BioInformatique Lyonnais (
PBIL) à l'adresse suivante:
http://pbil.univ-lyon1.fr/software/HoSeqI/. L'application propose une interface afin d’identifier une séquence, c'est-à-dire de trouver la famille de la banque à laquelle elle appartient, puis, de visualiser l'alignement et la phylogénie obtenus. Un autre programme a également été implémenté pour ajouter les séquences de génomes aux différentes banques proposées au PBIL. Ce logiciel a été utilisé pour ajouter deux génomes de bactéries du genre
Frankia à la banque HOGENOM et permettre d'étudier l'évolution de ces génomes et notemment de détecter d'éventuels transferts horizontaux de gènes. Enfin, un travail sur l’identification automatique de séquences bactériennes d’ARN ribosomique 16S et la détection de séquences chimères a été effectué.
Année 2002-2003: DEA Documents Multimédia, Images et Systèmes d'Information Communicants rattaché à l'EDIIS à l'INSA de Lyon
Intégration de versions fonctionnelles dans les entrepôts de données multimédias au sein des systèmes OLAP
Les entrepôts de données et les systèmes OLAP sont de plus en plus utilisés car ils proposent des architectures et des outils pour organiser, analyser et exploiter de grands volumes de données et améliorer ainsi la prise de décision. Les données entreposées sont intégrées dans des modèles multidimensionnels organisés selon le sujet analysé, appelé fait, et des axes d’analyse, nommés dimensions. Les entrepôts classiques ont une structure statique où seuls les faits sont dynamiques. Ces entrepôts intègrent généralement des données alphanumériques. Nous nous sommes intéressés plus particulièrement aux données multimédias souvent caractérisées par des descripteurs. Plusieurs problèmes se posent : le stockage de données particulièrement volumineuses et nécessitant des outils spécifiques de visualisation, la modélisation de faits multimédias et la définition de fonctions d’agrégat spécifiques, et enfin le calcul et la modélisation de descripteurs comme dimensions de l’entrepôt. Or ces descripteurs peuvent être obtenus par divers modes de calcul que nous définissons comme des « versions fonctionnelles » de descripteurs. Nous avons proposé un modèle multidimensionnel multiversion fonctionnelle appelé « modèle M2F » en intégrant notamment la notion de « version de dimension » qui représente des dimensions dont les membres sont calculés selon les différentes versions fonctionnelles des descripteurs. Cette nouvelle approche permet d’intégrer au modèle un choix de modes de calculs de ces descripteurs afin de permettre à l’utilisateur de choisir la représentation de données la plus adaptée à son analyse. Nous avons mis en œuvre un entrepôt de données multimédias dans le domaine médical en intégrant à un modèle multidimensionnel les données multimédias d’un essai thérapeutique. Nous avons défini un modèle conceptuel, logique et physique ainsi qu'un prototype permettant de visualiser les données dans une interface OLAP.
Année 2000-2003: cycle ingénieur à l'Insa de Lyon au département Informatique