Sujet : Méthodes d’inférence statistique pour modèles complexes et jeux de données de grande taille : développements méthodologiques et application en génomique évolutive des populations
Dates : 15 septembre 2022 – 14 septembre 2025
Responsable CBGP : A. Estoup
Université : Université de Montpellier, Institut Montpelliérain Alexandre Grothendieck (IMAG), École doctorale Informations, Structures et Systèmes (I2S)
L’enjeu général de cette thèse est de développer, évaluer et appliquer des méthodes inférentielles adaptés à des modèles stochastiques complexes et des jeux de données de grande dimension, en se focalisant notamment sur les enjeux et questions spécifiques au domaine de l’évolution et la génomique des populations.
L’analyse du polymorphisme génétique (évolutivement neutre et sous sélection naturelle) permet d’estimer des paramètres évolutifs (démographiques, historiques ou sélectifs) passés des populations tels que des tailles ou des densités de population, des paramètres de dispersion, des temps de divergence ou des changements démographiques, des signatures au niveau des génomes de la sélection naturelle, etc. Ces analyses reposent sur la combinaison (1) de modèles stochastiques de l’évolution des populations tels que le coalescent de Kingman (Kingman, 1982) et (2) des méthodes d’inférence statistique, dont les plus puissantes sont basées sur l’estimation de la vraisemblance pour les modèles d’évolution les plus simples (par ex : Rousset et al. 2018), ou sur la comparaison de simulations avec les jeux de données réels (à travers un ensemble de statistiques résumées) pour les modèles plus complexes (ABC pour Approximate Bayesian Computation ; Marin et al. 2012). Ces méthodes d’inférences de génétique des populations ont énormément évolué ces 10 dernières années, notamment pour s’adapter au changement drastique du type et de la taille des jeux de données génétiques/génomiques dû au développement rapide des techniques de
séquençage de l’ensemble du génome d’individus (données NGS pour New Generation Sequencing). Si le développement accéléré des marqueurs génétiques issus des technologies NGS met désormais à la disposition des biologistes des données massives qui permettent d’explorer, d’évaluer et de comparer des hypothèses concernant l’histoire évolutive des populations avec une précision insoupçonnable il y a peu.
Ces avancées nécessitent le développement de nouvelles méthodes d’inférence statistique qui puissent tirer le meilleur profit de ces énormes jeux de données et qui soient opérationnelles dans le cas de scénarios évolutifs réalistes et donc complexes. Pour tenter de surmonter ces écueils et contraintes, nous avons notamment co-développé (IMAG et CBGP), une nouvelle méthodologie d’inférence statistique dénommée ABC Random Forest (Pudlo et al. 2016 ; Raynal et al. 2018 ; Collin et al. 2021), dans laquelle des algorithmes Random Forest relevant du champ de l’intelligence artificielle et plus spécifiquement de l’apprentissage automatique supervisé sont adjoints aux algorithmes de simulation ABC.
Parmi les questions génériques qui seront plus spécifiquement abordées au cours de la thèse, nous pouvons en évoquer trois :