URL:
https://www.nature.com/articles/s42256-020-0180-7
Type d’article :
Article peer-reviewed
Type de contenu :
Données cliniques, Prédictions ,
Thème :
Autre : Prédiction de la survie chez les patients Covid-19
Que retenir ? :
Un algorithme de classification XGBoost entrainé sur 375 patients Covid-19 hospitalisés à Wuhan semble prédire la survie avec une très bonne performance. Les variables cliniques les plus informatives sont le LDH, le hs-CRP, et les lymphocytes.
Description de l’article :
Objectifs. L’article décrit une méthode de classification de l’outcome de survie (oui/non) chez les patients atteints de Covid-19 à partir de biomarqueurs.
Méthode. Les auteurs ont appliqué un algorithme de classification XGBoost. L’algorithme a sélectionné trois variables qui permettent d’avoir une bonne performance de prédiction. Les auteurs ont ensuite appliqué à nouveau l’algorithme en considérant uniquement ces trois variables pour obtenir un simple arbre de décision. Cet arbre permettrait de prédire la survie d’un patient sur la base de au plus trois décisions oui/non basées sur les variables retenues.
Données. L’algorithme a été entraîné sur une base de données constituée de 375 patients Covid-19 et validé sur un échantillon externe de taille 110. Tous les 485 patients ont été hospitalisés dans le même hôpital de Wuhan. Les données sont disponibles en supplementary material.
Résultats. Les trois variables qui ont le plus d’importance dans la prédiction de la survie sont le LDH, le hs-CRP, et les lymphocytes. L’estimation de l’AUC de l’algorithme XGboost faite à partir de l’échantillon externe de validation est de 0.95. L’arbre de décision construit à partir des trois variables retenues a également une bonne performance prédictive.
Commentaire : Deux points faibles:
- La base de données a été collectée dans l’hôpital prenant en charge les cas les plus graves à Wuhan. Cela pourrait être à l’origine d’un biais de sélection qui est difficile à apprécier sans analyser des données d’autres hôpitaux.
- Pour la plupart des patients, les variables ont été mesurées à des temps différents. Malgré une section spécifique dans l’article, il n’est pas très clair comment cela a été pris en compte.