URL

https://www.pnas.org/content/early/2020/10/30/2018490117

Type d’article

Article peer-reviewed

Thème

Autre : Modélisation des événements d’infection

Que retenir de cet article, en 1-2 phrases ?

En s’appuyant sur les cas reportés où une personne infectée a infecté directement un grand nombre de cas secondaires, les auteurs concluent que de tels événements de grande ampleur ne sont pas bien décrits par la loi binomiale négative classique et devraient être modélisés par des variables aléatoires à queue lourde. Comme les seconds moments de telles distributions divergent pour certaines valeurs de leur paramètre, estimer la variance à partir de données empiriques du nombre de cas secondaires peut conduire à des conclusions erronées.

Objectifs de l’étude / Questions abordées

Utiliser les résultats de valeurs extrêmes pour étudier la queue de distribution de Z, où Z décrit le nombre de personnes infectées secondairement par un individu donné. On s’intéresse aux grandes valeurs de Z, i.e. les événements dits de superspreading (SSE). Sur un modèle de graphe de transmission aléatoire, comparer l’impact de l’isolement des superspreaders entre un modèle avec un degré à queue lourde vs à queue exponentielle.

Méthode

Les auteurs ont recensé 45 événements de SSE pour la Covid-19 établis dans la littérature médicale, avec plus de 6 cas secondaires, auxquels ils ont ajouté 15 événements de SSE associés à l’épidémie de SRAS de 2003.

2 méthodes visuelles sont utilisées :

  • un Zipf plot qui confronte log(Z) à log(1-CDF) où CDF décrit la fonction de répartition, en comparant les données reportées à la loi binomiale négative approchée
  • un meplot qui présente l’estimation empirique de E(Z|Z>u) pour les différentes valeurs seuils de u. L’estimateur statistique de Hill est en outre utilisé pour estimer la queue de distribution.

Pour valider la robustesse de leurs résultats, les auteurs ont refait ces analyses avec une duplication par 1000 des données combinée à leur multiplication par un facteur aléatoire (marquant l’incertitude de mesure) compris entre 0.5 et 1.5. Pour représenter le fait que les données sont incomplètes, cette étape de duplication a aussi été faite après avoir enlevé selon une loi uniforme entre 1 et 10 valeurs du jeu de données (a priori sans les facteurs aléatoires).

La distribution empirique des SSEs est aussi comparée via une loi du chi2 à différentes lois caractéristiques des réalisations de maxima de larges échantillons. Les lois considérées de Gumbel, Fréchet et Weibull correspondent par le théorème de Fisher–Tippett–Gnedenko à des lois d’échantillons de queue resp. exponentielle, lourde et fine.

Pour évaluer l’impact de l’isolement des superspreaders, des simulations ont été réalisées avec deux modèles de graphes d’interactions en champ moyen et pour l’infection un SIR classique. Le degré d’un individu dans le premier graphe est décrit par une loi à queue lourde (graphe de Barabási–Albert avec alpha =2), tandis qu’il a dans le second cas une queue exponentielle (graphe de Watts–Strogatz). Les paramètres de ces graphes sont ajustés pour avoir les mêmes valeurs de R0 à 3 et la même connectivité moyenne 10. La stratégie d’isolement des superspreaders est alors comparée entre ces deux graphes et selon que l’on isole les sommets de plus haut degré jusqu’à un R0 de 1.5 ou tous les sommets au-delà du seuil de 10.

Résultats principaux

De tels événements de grande ampleur ne seraient pas bien décrits par la loi classique binomiale négative et devraient être modélisés par des variables aléatoires à queue lourde. Comme les seconds moments de telles distributions divergent (pour alpha<2), estimer la variance à partir de données empiriques du nombre de cas secondaires peut conduire à des conclusions erronées. Seule la loi de Fréchet n’est pas rejetée par le test du Chi2 (correspondant à des événements à queue lourde). Pour une telle distribution à queue lourde, l’action qui consiste à empêcher tous les grands événements de se produire serait efficace, alors qu’elle ne le serait pas clairement pour une distribution exponentielle. Juger de l’efficacité simplement sur la valeur du R0 ne serait pas aussi pertinent .

Commentaire/brève évaluation

Le recueil de ces données de SSE est intéressant et mériterait sans doute plus d’analyse statistique pour en identifier les causes et tenter de les éviter. La pertinence de ces résultats vis-à-vis des données à disposition peut cependant être questionnée. Le fait que les deux valeurs les plus extrêmes proviennent de l’épidémie de 2003 pose problème vu l’impact qu’elles ont sur l’interprétation du Zipf plot, sur l’estimateur de Hill et sans doute aussi sur le meplot. La manière dont on finit par acquérir ces données d’infections secondaires induit aussi des biais d’observation qui rendent très difficile une analyse statistique de leur occurrence. Comme il ne semble pas raisonnable d’y penser comme les maxima d’échantillons de taille fixée, l’analyse proposée pour l’adéquation à différentes lois asymptotiques ne semble pas pertinente.
Par ailleurs, les résultats présentés pour la première stratégie sur le graphe WS avec un R0 de 1.5 semblent délicats à interpréter en l’état : l’épidémie ne démarre visiblement jamais, ce qui semble contredire cette valeur de R0 affirmée et est sans doute dû au fait que seulement 30 nœuds sur les 1000 de départ sont conservés.