URL

https://doi.org/10.1534/genetics.119.302373

Type d’article

Article peer-reviewed

Thème

Statistiques

Que retenir de cet article, en 1-2 phrases ?

Cet article propose une nouvelle méthode, appelée BESTT, pour inférer comment la taille efficace d’une population a varié dans le passé. Cette méthode estime les variations de taille efficace à l’aide d’un échantillon de séquences. Pour réduire le temps de calcul, la généalogie de l’échantillon est modélisée à l’aide d’un arbre de Tajima plutôt qu’à l’aide d’un coalescent de Kingman.

Objectifs de l’étude / Questions abordées

Estimer des paramètres associés à l’évolution d’une population, comme les variations passées de la taille efficace de la population ou l’âge de l’ancêtre commun, à partir de séquences échantillonnées dans la population.

Méthode

Données. Plusieurs séquences haploïdes échantillonnées à une même date dans une population.

Modèle. Dans BESTT, on considère une population sans structure spatiale. On suppose que les séquences évoluent selon un modèle d’évolution neutre, avec une infinité de sites et sans recombinaison. Le taux de mutation est supposé connu. L’état ancestral à chaque position de la séquence est supposé connu, mais l’article mentionne la possibilité de relâcher cette hypothèse. L’évolution de la taille efficace de la population au cours du temps est modélisée à l’aide d’une fonction constante par morceaux. Les logarithmes des tailles efficaces sur les différents morceaux sont modélisés à l’aide d’un processus gaussien. Pour réduire le temps de calcul, la généalogie de l’échantillon est modélisée à l’aide d’un arbre de Tajima plutôt qu’à l’aide d’un coalescent de Kingman.

Inférence. L’inférence des paramètres est réalisée dans un cadre bayésien. Elle est mise en œuvre à l’aide de méthodes MCMC, plus précisément un algorithme de Gibbs qui échantillonne successivement les temps de coalescence, les tailles efficaces et l’arbre généalogique. L’échantillonnage des temps de coalescence et des tailles efficaces utilise la technique du Monte Carlo Hamiltonien.

Evaluation. BESTT est évaluée à l’aide de données simulées et est comparée au logiciel BEAST.

Application. BESTT est utilisée pour étudier l’évolution démographique d’une population humaine à l’aide de données mitochondriales.

Implémentation. BESTT peut être mise en œuvre à l’aide du package R phylodyn.

Résultats principaux

BESTT donne de bons résultats avec les données simulées. Cette méthode semble réduire le temps de calcul : les données simulées ont été analysées avec 10 millions d’itérations pour BEAST et avec seulement 200 000 itérations pour BESTT. BESTT prend de l’ordre de quelques heures pour analyser un échantillon d’une trentaine de séquences.

BESTT suggère que la taille efficace de la population humaine considérée a d’abord été constante puis a connu une croissance exponentielle à partir d’il y a 20 000 ans.

Commentaire / brève évaluation, limites, ouvertures possibles

On pourrait chercher à appliquer la méthode BESTT à l’analyse des séquences du SARS-CoV-2. Il faudrait d’abord bien préciser l’objectif de l’analyse. D’un côté, les données épidémiologiques comme les données hospitalières apportent déjà beaucoup d’information sur les variations de la taille de la population virale : pourquoi vouloir les estimer à nouveau avec des séquences ? D’un autre côté, BESTT estime des tailles efficaces, qui peuvent intégrer d’autres phénomènes que les variations de tailles réelles de population, ce qui pourrait fournir des informations complémentaires aux données épidémiologiques.

Dans la discussion de l’article, les auteurs disent que BESTT “is not appropriate for modeling molecular data from other organisms such as pathogens and viral populations”. Ceci vient probablement du fait que cette méthode ne prend pas en compte la recombinaison, la structure de la population, la sélection, qu’elle est basée sur le modèle mutationnel avec une infinité de sites et qu’elle suppose que toutes les séquences ont été échantillonnées à une même date. Cependant, pour aider à satisfaire ces hypothèses, on pourrait analyser des séquences échantillonnées dans une région pas trop grande et pendant un intervalle de temps assez court. On pourrait aussi supprimer certains sites des séquences qui ne vérifient pas les hypothèses du modèle mutationnel.

Une autre question intéressante concerne le nombre de morceaux nécessaires dans la fonction constante par morceaux qui représente la taille efficace de la population pour expliquer les observations.