LE MAILLOUX Guillaume
guillaume.le-mailloux@umontpellier.fr

Guillaume LE MAILLOUX

Doctorant, INRAE

Axe(s)

Responsabilité(s) collective(s)

Sujet : Méthodes d’inférence statistique pour modèles complexes et jeux de données de grande taille : développements méthodologiques et application en génomique évolutive des populations
Dates : 15 septembre 2022 – 14 septembre 2025
Responsable CBGP : A. Estoup
Université : Université de Montpellier, Institut Montpelliérain Alexandre Grothendieck (IMAG), École doctorale Informations, Structures et Systèmes (I2S)

L’enjeu général de cette thèse est de développer, évaluer et appliquer des méthodes inférentielles adaptés à des modèles stochastiques complexes et des jeux de données de grande dimension, en se focalisant notamment sur les enjeux et questions spécifiques au domaine de l’évolution et la génomique des populations.

L’analyse du polymorphisme génétique (évolutivement neutre et sous sélection naturelle) permet d’estimer des paramètres évolutifs (démographiques, historiques ou sélectifs) passés des populations tels que des tailles ou des densités de population, des paramètres de dispersion, des temps de divergence ou des changements démographiques, des signatures au niveau des génomes de la sélection naturelle, etc. Ces analyses reposent sur la combinaison (1) de modèles stochastiques de l’évolution des populations tels que le coalescent de Kingman (Kingman, 1982) et (2) des méthodes d’inférence statistique, dont les plus puissantes sont basées sur l’estimation de la vraisemblance pour les modèles d’évolution les plus simples (par ex : Rousset et al. 2018), ou sur la comparaison de simulations avec les jeux de données réels (à travers un ensemble de statistiques résumées) pour les modèles plus complexes (ABC pour Approximate Bayesian Computation ; Marin et al. 2012). Ces méthodes d’inférences de génétique des populations ont énormément évolué ces 10 dernières années, notamment pour s’adapter au changement drastique du type et de la taille des jeux de données génétiques/génomiques dû au développement rapide des techniques de
séquençage de l’ensemble du génome d’individus (données NGS pour New Generation Sequencing). Si le développement accéléré des marqueurs génétiques issus des technologies NGS met désormais à la disposition des biologistes des données massives qui permettent d’explorer, d’évaluer et de comparer des hypothèses concernant l’histoire évolutive des populations avec une précision insoupçonnable il y a peu.

Ces avancées nécessitent le développement de nouvelles méthodes d’inférence statistique qui puissent tirer le meilleur profit de ces énormes jeux de données et qui soient opérationnelles dans le cas de scénarios évolutifs réalistes et donc complexes. Pour tenter de surmonter ces écueils et contraintes, nous avons notamment co-développé (IMAG et CBGP), une nouvelle méthodologie d’inférence statistique dénommée ABC Random Forest (Pudlo et al. 2016 ; Raynal et al. 2018 ; Collin et al. 2021), dans laquelle des algorithmes Random Forest relevant du champ de l’intelligence artificielle et plus spécifiquement de l’apprentissage automatique supervisé sont adjoints aux algorithmes de simulation ABC.

Parmi les questions génériques qui seront plus spécifiquement abordées au cours de la thèse, nous pouvons en évoquer trois :

  1. Stratégie générale d’analyse inférentielle sur gros jeux de données Lorsque l’on dispose d’un jeu de données de très grande taille (T), est-il préférable du point de vue de la précision des estimations, de réaliser un traitement unique avec l’ensemble du jeu de données ou de réaliser n traitements indépendants chacun sur un sous ensemble de taille T/n de données puis de combiner les résultats obtenus sur les n traitements réalisés ? Dans la dernière stratégie quel serait la valeur de n optimale et comment combiner au mieux les résultats obtenus sur les n traitements ?
  2. Estimation jointe de paramètres pour la méthode ABC-Random Forest Les distributions a posteriori estimées via la méthode ABC-Random Forest correspondent aux distributions marginales des paramètres. Comment réaliser, dans ce contexte, une estimation jointe de ces paramètres ?
  3. Tous les modèles sont faux, mais certains sont utiles’ (Georges Box) Comment mesurer la qualité de l’ajustement (i.e. goodness-of-fit) lorsque l’on dispose d’un jeu de données de très grande taille susceptible de facto de rejeter tous les modèles explorés ? Quelles sont, dans ces situations, les informations à privilégier ? Doit-on par exemple se focaliser sur le niveau d’adéquation uniquement de certains aspects des modèles pour lesquels l’expérimentateur a un intérêt particulier ?
Dernières publications