Vers une biogéographie à haute résolution : Combiner les processus ponctuels et l’apprentissage profond pour intégrer des données massives et hétérogènes dans les modèles de distribution des espèces. Université de Montpellier

Description

Les modèles de distribution d’espèces basés sur l’apprentissage profond (deepSDMs, Deneu et al., 2021) permettent de capitaliser efficacement sur les masses d’observations de biodiversité disponibles aujourd’hui et sur les descripteurs géographiques complexes (e.g. images et séries temporelles satellites). L’apprentissage des réseaux de neurones profonds a été largement éprouvé pour des tâches de classification complexes, y compris dans le cas des deepSDMs, souvent entraînés à prédire l’espèce observée à un endroit et une date donnée parmi un grand nombre d’espèces possibles. Ils ne permettent cependant pas la modélisation fine de ces processus : intensité spatio-temporelle des observations ou de la présence de l’espèce, comptages, présence-absence sur des régions arbitraires, etc.
La modélisation statistique des variables d’observation permet d’intégrer des données d’observation variées telles que les observations en présence seule, en présence-absence ou encore en comptages d’abondance (Miller et al., 2019) en retenant le maximum d’informations de leur processus d’échantillonnage. Cependant, l’estimation de l’incertitude dans les modèles statistiques repose sur des hypothèses souvent simplistes sur le lien entre descripteurs géographiques et variables de populations ou entre ces dernières et leur observation (e.g., modèle linéaire généralisé). De plus, les hypothèses sur les distributions de probabilités des données sont souvent violées. Par exemple, on observe souvent une sur-dispersion des comptages d’abondance par rapport à la loi de Poisson classiquement utilisée pour les modéliser (Lindén and Mäntyniemi, 2011).
À l’inverse, les modèles de machine learning ne s’appuient pas sur ce type d’hypothèses et cherchent à formuler un problème d’optimisation dont les propriétés de convergence vers la solution optimale sont démontrées. Ces modèles permettent de tenir compte de structures plus complexes dans les variables explicatives et dans leur lien avec les variables observées (e.g. via les réseaux de neurones profonds) et ont montré un fort pouvoir prédictif. Cependant, intégrer la diversité des données d’observations dans ce type de modèles sans dégrader ou biaiser l’information du processus d’échantillonnage demeure un problème ouvert.
Plusieurs pistes d’études sont envisagées :
Les processus ponctuels, qui unifient la modélisation des données de biodiversité (Miller et al., 2019), pourraient être ajustés à partir d’un modèle à réseau de neurones profond; afin de combiner la force d’un socle statistique commun pour la modélisation des données et le pouvoir prédictif de l’apprentissage profond.
On pourrait alors adapter l’apprentissage des réseaux de neurones profonds pour approcher l’abondance dans l’espace et le temps à partir d’observations ponctuelles éparses, ce qui pourrait passer la discrétisation de ce problème de régression en un problème de classification (Stewart et al., 2023).
Plus généralement, concernant l’intégration des différents types de données disponibles, avec une approche machine learning, une piste peut être de définir un risque général pour cette tâche SDM qui soit indépendant des données et pertinent pour toutes les applications (e.g., la probabilité de prédire à tort présence/absence sur toute aire donnée).
On pourrait alors en dériver les fonctions de pertes de la tâche d’optimisation cible garantissant les meilleures propriétés non-asymptotiques (e.g. robustesse à la surdispersion des comptages), et plus généralement un meilleur pouvoir prédictif.
Les méthodologies développées serviront de base à l’amélioration des modèles prédictifs de distribution utilisés dans des applications grand public (telles que GeoPl@ntNet).

Compétences requises

Master 2 en machine learning, en science des données ou encore en statistiques avec une sensibilité aux problématiques écologiques. Des connaissances en écologie et biodiversité seront un plus. Master 2 en écologie avec des connaissances précises en statistiques et machine learning.

Bibliographie

Deneu, B., Servajean, M., Bonnet, P., Botella, C., Munoz, F., & Joly, A. (2021). Convolutional neural networks improve species distribution modelling by capturing the spatial structure of the environment. PLoS computational biology, 17(4), e1008856.
Lindén, A., & Mäntyniemi, S. (2011). Using the negative binomial distribution to model overdispersion in ecological count data. Ecology, 92(7), 1414-1421.
Miller, D. A., Pacifici, K., Sanderlin, J. S., & Reich, B. J. (2019). The recent past and promising future for data integration methods to estimate species’ distributions. Methods in Ecology and Evolution, 10(1), 22-37.
Stewart, L., Bach, F., Berthet, Q., & Vert, J. P. (2023, April). Regression as Classification: Influence of Task Formulation on Neural Network Features. In International Conference on Artificial Intelligence and Statistics (pp. 11563-11582). PMLR.

Mots clés

écologie, machine learning, espèces, IA, distribution, processus ponctuel

Offre financée

Type de financement
Contrat Doctoral

Dates

Date limite de candidature 12/05/24

Durée36 mois

Date de démarrage01/10/24

Date de création29/03/24

Langues

Niveau de français requisAucun

Niveau d’anglais requisAucun

Divers

Frais de scolarité annuels400 € / an

Site web

Responsable

Monsieur Alexis JOLY

Contact

Monsieur Alexis JOLY

 04 67 14 97 72

 alexis.joly@inria.fr

Job Catégorie: Informatique Ingénierie
Job Type: Doctorat
Job Location: France

Apply for this position

Allowed Type(s): .pdf, .doc, .docx