URL

https://www.medrxiv.org/content/10.1101/2020.09.02.20186502v1

Type d’article

Preprint

Thème

Stratégies de contrôle

Que retenir de cet article, en 1-2 phrases ?

L’article vise à construire un algorithme permettant de détecter l’éruption de la COVID-19 et l’évolution de son taux d’incidence. L’algorithme proposé est issu de méthodes statistiques classiques d’estimation et de décision. Testé sur données synthétiques et réelles, les performances de l’algorithme sont comparables à celles du modified Farrington algorithm (cf. ref. 14 de l’article), tout en étant plus simple et flexible.

Objectifs de l’étude / Questions abordées

Détecter les changements soudains dans les courbes d’incidence de la COVID-19 par un algorithme plus simple et plus flexible que la référence citée plus haut. Sélectionner les points de rupture optimaux afin de pouvoir éliminer les données lors de la procédure d’estimation des tendances. Tester la méthode sur données simulées et réelles et se comparer à la méthode de référence de Farrington.

Méthode

Sur une fenêtre, les auteurs estiment la tendance qui servira de référence pour détecter des écarts significatifs par rapport à celle-ci. La méthode est donc une détection d’anomalie par rapport à un modèle issu des données passées. L’originalité de l’approche réside dans l’utilisation de plusieurs méthodes d’estimation des tendances. On retient alors la méthode qui fournit l’erreur quadratique moyenne la plus faible à l’issue d’une procédure de validation croisée. La détection d’anomalie est basée sur la détection de changement par carte de Shewhart. Les auteurs ont utilisé les données réelles du NHS Pathways qui fait état des cas de COVID-19 potentiels en Angleterre, notifiés par téléphone et les systèmes en ligne. Ces données ne sont pas des cas confirmés. Les données peuvent donc être biaisées. La méthode proposée a aussi été évaluée sur signaux simulés par un outil de simulation proposé par un des auteurs, qui permet de faire varier le nombre moyen de reproduction du virus dans le temps et de simuler l’éruption de l’épidémie et son évolution.

Résultats principaux

La méthode ASMODEE proposée par les auteurs obtient des résultats similaires à ceux du modified Farrington algorithm qui fait office de référence. ASMODEE est cependant plus flexible car cet algorithme permet d’intégrer facilement des méthodes statistiques alternatives et requiert moins de paramètres à ajuster. Les auteurs fournissent aussi un pipeline automatisé pour télécharger les données NHS, appliquer ASMODEE et présenter des résultats. Ce pipeline est accessible sur une page web publique.

Commentaire / brève évaluation, limites, ouvertures possibles

Les auteurs soulignent les limitations suivantes.

  1. ASMODEE ne tient pas compte de l’effet potentiel de retards de notification, qui provoquent généralement une diminution artificielle des taux d’incidence au cours des derniers jours de données. Cette limitation est classique pour de telles méthodes car les retards de notification sont intrinsèquement caractéristiques de la plupart des données épidémiologiques. Cette limitation entrave la capacité de la méthode à détecter de récentes augmentations du nombre de cas.
  2. ASMODEE ne tient pas compte de la répartition spatiale des foyers. La méthode permet d’analyser séparément les données issues d’endroits différents, mais l’approche ne tient pas compte de la transmission entre les différents lieux. L’auteur de ce résumé ajoute que les auteurs disent s’inspirer des cartes de contrôle classique de Shewhart pour détecter les anomalies. Au-delà du fait qu’il aurait été souhaitable que les auteurs donnent plus de détails sur leur mise en œuvre (dire s’en inspirer est un peu vague), il faut mentionner les limitations intrinsèques des cartes de Shewhart qui, comme les tests de Neyman-Pearson, ne sont pas robustes lorsque les données n’obéissent pas au modèle sous-jacent de la carte de contrôle. Il existe alors des méthodes alternatives de détection de changements qui devraient être étudiées dans le contexte épidémiologique. L’auteur de ce résumé a participé à la conception de ces méthodes qui ont été publiées en 2019 dans la revue IEEE Transactions dans un contexte de traitement statistique du signal, c’est-à-dire, dans le cas où les données sont des échantillons d’un signal physique. L’application de ces méthodes à des données telles que celles considérées dans l’article qui nous intéresse ici reste un problème ouvert mais potentiellement pertinent car ces méthodes prennent en compte des déviations possibles entre les modèles théoriques et la réalité des données. Par exemple, leurs versions préliminaires ont été employées avec succès entre 2010 et 2012 pour détecter des anomalies dans des signaux physiologiques selon une méthode qui calculait un modèle nominal des données sur une fenêtre de référence et une détection d’anomalies à partir du modèle estimé.