URL
https://www.medrxiv.org/content/10.1101/2020.12.08.20246082v1
Type d’article
Preprint
Thème
Analyse statistique de stratégie d’inférence
Que retenir de cet article, en 1-2 phrases ?
Cet article conclut que les niveaux de superinfection reportés s’expliquent plus raisonnablement par des variations très importantes de contacts entre individus plutôt qu’en terme d’écarts d’infectiosité. Par les modèles simples considérés, les auteurs justifient que la précision des estimations de super-infection reste limitée et biaisée dans le sens d’une sur-représentation.
Objectifs de l’étude / Questions abordées
Comprendre dans quelle mesure l’hétérogénéité des comportements et celle des niveaux d’infectiosité sont en mesure de générer des événements massifs de contaminations, et juger la précision statistique de l’estimateur du paramètre de super-infection, en terme de sa dispersion (bruit) et de son biais inhérent.
Méthode
Les auteurs utilisent une modélisation de la propagation d’infection basée sur un graphe de contacts (les sommets sont les individus et les arrêtes les interactions pouvant mener à des transmissions). Un modèle de configuration avec hétérogénéité du nombre de contacts et du niveau d’infectiosité est utilisé en simulations. Face au modèle avec nombre fixé de voisins, des modèles de contacts avec loi de puissance sont introduits.
A taux de reproduction fixé (à 2,5), les auteurs comparent la contribution respective de l’hétérogénéité en terme de contacts (ou comportement) et en terme de transmissibilité. Les échelles de 0 à 100 employées ne sont pas rattachées à une relation explicite, ce qui gêne l’interprétation. Vu les autres figures présentées, on peut penser que c’est le ratio entre variance et moyenne (de ces distributions entre individus) qui est utilisé. Le taux de reproduction et le paramètre de dispersion sont alors estimés par maximum de vraisemblance de la loi empirique agrégée du nombre d’infections secondaires contre une loi négative binomiale.
Deux types d’intervalles de confiances sont comparés : ceux de Wald qui supposent une approximation normale, et ceux donnés par du boostrap via 100 simulations de Monte-Carlo. Dans le cas des intervalles de Wald, la manière de paramétriser la dispersion est a priori réalisée en suivant la méthode de la référence [38]. Pour en analyser la robustesse, différentes valeurs de taux de croissance et de paramètre de dispersion sont employées, ainsi que différentes tailles d’échantillons (jusqu’à 200 sources d’infection, avec leurs infections secondaires). L’incertitude dans l’inférence de ces infections secondaires est prise en compte dans un deuxième temps en supposant simplement que les cas secondaires ont (indépendamment pour chacun) une certaine probabilité p_obs d’être reportés. Le biais introduit est alors analysé pour différentes valeurs de p_obs et de dispersion.
Dans ces simulations, la taille du graphe est de 5000 individus, et une épidémie débutant via un unique individu est analysée si et seulement si elle touche plus de 5 % des individus (i.e. ici 250). Dans ces cas, 1000 échantillons sont produits pour chaque jeu de paramètres.
Résultats principaux
Sur l’échelle de 0 à 100 proposée, l’hétérogénéité en terme de contacts a un effet beaucoup plus notable sur le paramètre de dispersion que celle en terme de transmissibilité.
Pour des niveaux extrêmes de super-infection tels que reportés pour la Covid dans la littérature, il semblerait qu’il faille introduire des lois de puissance pour représenter la très forte hétérogénéité requise en terme de contacts.
Même avec de larges échantillons (200 cas), on trouve de larges intervalles de confiance du paramètre de dispersion qui témoignent de la difficulté à faire cette inférence.
Les intervalles de confiance de Wald ne sont pas pertinents dans l’inférence de faibles paramètres de dispersion, en particulier face à des méthodes de bootstrap qui sont plus fiables. En appliquant ces méthodes de bootstrap plutôt que les intervalles de Wald, les auteurs concluent que plusieurs estimations sur données réelles ont visiblement sur-évalué l’effet de super-infection.
Plus la probabilité d’observation est faible et plus le niveau de dispersion est sur-évalué. Le recueil de données de traçage de contacts ne peut complètement éviter ce biais qui est très difficile à quantifier. Cet effet est rendu encore plus marqué par le fait que les transmissions sont analysées a posteriori, donc avec un biais vers une plus grande probabilité d’échantillonner des événements avec de nombreux contacts secondaires.
Commentaire / brève évaluation, limites, ouvertures possibles
Si des variations de la charge virale sont observées, il semble que les modèles de transmission vont dans le sens déclaré par les auteurs, à savoir que la variation de transmission entre individus n’est pas un facteur déterminant pour les niveaux de super-infections observés. Cela semble bien indiquer à quel point les changements de comportements peuvent permettre de fortement limiter la propagation de l’infection.
Il est sans doute à noter que cette variation du nombre de contacts dépend d’un certain nombre de facteurs (d’âge, socio-économiques…) susceptibles d’introduire des corrélations d’un individu infectant aux individus infectés. Considérer les chaînes d’infection en début d’épidémie est donc susceptible de sur-représenter des individus “à risque” et d’expliquer en partie cette hétérogénéité. Cela pourrait faire l’objet d’une autre analyse.
En considérant un modèle simple et des conditions d’inférence quasi optimales, les auteurs de cette étude manifestent en tout cas à quel point il est difficile d’estimer la dispersion du nombre de cas secondaires (au moins via des observations de traçage de contacts).