URL

https://www.nature.com/articles/s41467-020-18877-9

Type d’article

Article peer-reviewed

Thème

Autre : modelling (Bayesian phylogeographic inference)

Que retenir de cet article, en 1-2 phrases ?

Cet article analyse des données chinoises de Mars 2020, incorporant les informations disponibles sur les trajets des personnes contaminées pour construire un arbre phylogéographique de l’évolution du virus et retracer la source d’origine, en fournissant une évaluation de l’incertitude associée.

Objectifs de l’étude / Questions abordées

L’article vise à incorporer des covariables sur les voyages et la localisation des personnes contaminées afin de raffiner l’inférence sur l’arbre phylogéographique de l’évolution du virus et de compenser le biais dans les données disponibles.

Méthode

Le modèle adopté est un processus de Markov en temps continu, l’arbre phylogénétique incorporant des nœuds associés aux positions des personnes contaminées. L’analyse bayésienne du modèle est faite par des algorithmes MCMC standard, puisque la vraisemblance est disponible via l’algorithme d’élagage de Felsenstein. Les variables explicatives sont utilisées pour les sauts markoviens entre positions afin de diminuer le nombre de paramètres. L’article rapporte également une évaluation de la précision prédictive. Les données sont les génomes de 282 patients (Chine et Hong Kong), disponibles sur GISAID au 10/03/2020. Une évaluation des capacités du modèle est faite sur 500 patients supplémentaires disponibles en juin 2020.

Résultats principaux

L’incorporation des covariables sur les voyages et la (les) localisation(s) des personnes contaminées permet de contrebalancer jusqu’à un certain point la faible représentativité et les autres biais des données disponibles. L’approche bayésienne permet de plus de (i) fournir une évaluation de l’incertitude sur les conclusions de l’analyse et (ii) créer des données factices pour mieux évaluer l’importance des hypothèses faites sur le modèle. Un code en BEAST et R est disponible.

Commentaire/brève évaluation

Le modèle proposé cherche à corriger les biais existants par l’incorporation de covariables, mais il est toujours délicat de connaître les capacités prédictives de tels modèles, en particulier du fait de l’incertitude sur les données de voyage et les réseaux de contacts entre malades. L’évaluation de l’incertitude rapportée au côté des arbres les plus probables est bienvenue, mais est sans doute sous-évaluée du fait de l’impact du choix de modèle.