Description
Les modèles de distribution despèces basés sur lapprentissage profond (deepSDMs, Deneu et al., 2021) permettent de capitaliser efficacement sur les masses dobservations de biodiversité disponibles aujourdhui et sur les descripteurs géographiques complexes (e.g. images et séries temporelles satellites). Lapprentissage des réseaux de neurones profonds a été largement éprouvé pour des tâches de classification complexes, y compris dans le cas des deepSDMs, souvent entraînés à prédire lespèce observée à un endroit et une date donnée parmi un grand nombre despèces possibles. Ils ne permettent cependant pas la modélisation fine de ces processus : intensité spatio-temporelle des observations ou de la présence de lespèce, comptages, présence-absence sur des régions arbitraires, etc.
La modélisation statistique des variables dobservation permet dintégrer des données dobservation variées telles que les observations en présence seule, en présence-absence ou encore en comptages dabondance (Miller et al., 2019) en retenant le maximum d’informations de leur processus déchantillonnage. Cependant, lestimation de lincertitude dans les modèles statistiques repose sur des hypothèses souvent simplistes sur le lien entre descripteurs géographiques et variables de populations ou entre ces dernières et leur observation (e.g., modèle linéaire généralisé). De plus, les hypothèses sur les distributions de probabilités des données sont souvent violées. Par exemple, on observe souvent une sur-dispersion des comptages dabondance par rapport à la loi de Poisson classiquement utilisée pour les modéliser (Lindén and Mäntyniemi, 2011).
À linverse, les modèles de machine learning ne sappuient pas sur ce type dhypothèses et cherchent à formuler un problème doptimisation dont les propriétés de convergence vers la solution optimale sont démontrées. Ces modèles permettent de tenir compte de structures plus complexes dans les variables explicatives et dans leur lien avec les variables observées (e.g. via les réseaux de neurones profonds) et ont montré un fort pouvoir prédictif. Cependant, intégrer la diversité des données dobservations dans ce type de modèles sans dégrader ou biaiser linformation du processus déchantillonnage demeure un problème ouvert.
Plusieurs pistes détudes sont envisagées :
Les processus ponctuels, qui unifient la modélisation des données de biodiversité (Miller et al., 2019), pourraient être ajustés à partir dun modèle à réseau de neurones profond; afin de combiner la force dun socle statistique commun pour la modélisation des données et le pouvoir prédictif de lapprentissage profond.
On pourrait alors adapter lapprentissage des réseaux de neurones profonds pour approcher labondance dans lespace et le temps à partir dobservations ponctuelles éparses, ce qui pourrait passer la discrétisation de ce problème de régression en un problème de classification (Stewart et al., 2023).
Plus généralement, concernant lintégration des différents types de données disponibles, avec une approche machine learning, une piste peut être de définir un risque général pour cette tâche SDM qui soit indépendant des données et pertinent pour toutes les applications (e.g., la probabilité de prédire à tort présence/absence sur toute aire donnée).
On pourrait alors en dériver les fonctions de pertes de la tâche doptimisation cible garantissant les meilleures propriétés non-asymptotiques (e.g. robustesse à la surdispersion des comptages), et plus généralement un meilleur pouvoir prédictif.
Les méthodologies développées serviront de base à lamélioration des modèles prédictifs de distribution utilisés dans des applications grand public (telles que GeoPl@ntNet).
Compétences requises
Master 2 en machine learning, en science des données ou encore en statistiques avec une sensibilité aux problématiques écologiques. Des connaissances en écologie et biodiversité seront un plus. Master 2 en écologie avec des connaissances précises en statistiques et machine learning.
Bibliographie
Deneu, B., Servajean, M., Bonnet, P., Botella, C., Munoz, F., & Joly, A. (2021). Convolutional neural networks improve species distribution modelling by capturing the spatial structure of the environment. PLoS computational biology, 17(4), e1008856.
Lindén, A., & Mäntyniemi, S. (2011). Using the negative binomial distribution to model overdispersion in ecological count data. Ecology, 92(7), 1414-1421.
Miller, D. A., Pacifici, K., Sanderlin, J. S., & Reich, B. J. (2019). The recent past and promising future for data integration methods to estimate species distributions. Methods in Ecology and Evolution, 10(1), 22-37.
Stewart, L., Bach, F., Berthet, Q., & Vert, J. P. (2023, April). Regression as Classification: Influence of Task Formulation on Neural Network Features. In International Conference on Artificial Intelligence and Statistics (pp. 11563-11582). PMLR.
Mots clés
écologie, machine learning, espèces, IA, distribution, processus ponctuel
Offre financée
- Type de financement
- Contrat Doctoral
Dates
Date limite de candidature 12/05/24
Durée36 mois
Date de démarrage01/10/24
Date de création29/03/24
Langues
Niveau de français requisAucun
Niveau d’anglais requisAucun