ALFONSO NAYA Victor (TAU, Université Paris-Saclay), LANDES François (TAU, Université Paris-Saclay

https://www.kaggle.com/fplandes/covid19-granular-demographics-and-times-series

https://gitlab.inria.fr/flandes/covid-19-fr-socio-demographics

La caractérisation des facteurs dominants dans la propagation de l’épidémie de covid-19 et dans l’importance de son impact sur le système de soin et la population peut s’appuyer sur les développement récents de l’apprentissage statistique. Une voie possible est d’utiliser l’apprentissage supervisé pour prédire le développement de l’épidémie, et utiliser la qualité relative de la prédiction selon les entrées comme indicateur de l’importance relative des variables d’entrée (features). Ici, on développe l’idée que l’échelle départementale, en France, est à la fois suffisamment grande pour que le bruit statistique soit relativement réduit, et cela fourni tout de même une centaine d’exemples d’apprentissage. Le préalable à cette approche est bien entendu d’agréger les données : indicateurs démographiques, sociaux, de structures de soin, de prévalence de maladies chroniques, d’une part, et les séries temporelles, d’autre part.

C’est ce que nous avons fait dans le présent dépôt de donnée, disponible sur le site Kaggle, qui permet de partager ouvertement ses travaux (code source et conclusions). Le dépôt gitlab fourni tous les codes qui ont servi au pré-traitement des données, ainsi que toutes les sources et métadonnées.