Du
Shedule
Place Salle de conférence de la bibliothèque universitaire Campus LyonTech La Doua
THÈSE
Soutenance de thèse Gaspard Dussert
La soutenance aura lieu en français, devant un jury composé de :
François Munoz, PU, Université Lyon 1, Examinateur
Alice Caplier, PU, INP Phelma, Rapporteure
Marie-Pierre Etienne, Professeure associée, ENSAI, Rapporteure
Julien Mairal, DR, Inria, Examinateur
Stéphane Dray, DR, CNRS, LBBE, Directeur de thèse
Vincent Miele, IR, CNRS, LECA, Co-directeur de thèse
Simon Chamaillé-Jammes, DR, CNRS, CEFE, Encadrant de thèse
Résumé de la thèse :
Le suivi des écosystèmes à large échelle constitue un enjeu majeur face à la crise de la biodiversité, afin de combler les lacunes qui constituent un frein à l’élaboration de stratégies efficaces de gestion et de conservation. Pour cela, le suivi écologique moderne s'appuie sur divers capteurs autonomes pour collecter des données de manière continue et standardisée. Dans ce contexte, cette thèse s'intéresse aux pièges photographiques, des outils devenus incontournables pour l'étude de la faune. Cependant, ces dispositifs génèrent de très grands volumes d’images et leur traitement manuel constitue un goulot d'étranglement majeur pour la recherche et la conservation. L'utilisation de l'intelligence artificielle offre une solution prometteuse pour automatiser l'analyse de ces images. Cette thèse a pour objectifs de développer et de mettre en œuvre de nouvelles méthodes d’apprentissage profond afin d’améliorer la classification des espèces et de leurs comportements, ainsi que permettre une meilleure interprétabilité des prédictions, tout en rendant ces avancées accessibles à la communauté des écologues via des outils open-source. Dans un premier chapitre, je présente l'initiative DeepFaune, un projet collaboratif visant à créer le premier jeu de données d'envergure pour la faune européenne et à développer des modèles de détection et de classification d'espèces performants et accessibles facilement sur un ordinateur personnel par un logiciel. Dans un deuxième chapitre, j’aborde le problème de la calibration des scores de confiance des modèles et montre que des techniques d'agrégation temporelle des prédictions et de post-traitement permettent d'obtenir des scores de confiance plus fiables, aidant à leur intégration dans des modèles écologiques en aval. Dans un troisième chapitre, je propose un nouveau module, basé sur le mécanisme de self-attention, pour exploiter conjointement l'information spatiale et temporelle au sein des séquences d'images, améliorant ainsi la qualité des prédictions, y compris en présence de plusieurs espèces. Enfin, dans le dernier chapitre, j’explore le potentiel des modèles de vision-langage pour la prédiction du comportement animal en zero-shot, c'est-à-dire sans fine-tuning et sur une tâche pour laquelle ils n’ont pas été explicitement entraînés. Je montre que leurs prédictions sont suffisamment fiables pour estimer des indicateurs écologiques comme les rythmes d'activité. J’ai pu intégrer et valoriser les méthodes développées directement dans le logiciel DeepFaune, qui est aujourd'hui largement adopté en Europe, ainsi que par la mise à disposition de librairies et de modèles publics. Le modèle de classification d’espèce étant aussi adopté par d’autres outils populaires tels que AddaxAI et Agouti, ces travaux ont pu contribuer à faciliter le traitement de millions d’images de pièges photographiques et constituent un levier pour l’automatisation des suivis écologiques. La thèse ouvre de nouvelles perspectives en promouvant l’utilisation des modèles vision-langage pour prédire des attributs écologiques rarement annotés. Mais aussi en encourageant le développement de modèles purement visuels exploitant l’information issue des séquences d’images. Conjointement, ces développements permettraient de renforcer la versatilité et la robustesse des outils d'IA pour mieux répondre aux besoins croissants des études écologiques.