COVID-19 : les IA capables de détecter le virus ne sont finalement pas très fiables

Une coalition de chercheurs en IA et de professionnels de la santé spécialisés en maladies infectieuses, radiologie et ontologie a découvert plusieurs lacunes courantes, mais graves avec l’apprentissage automatique conçu pour le diagnostic ou les pronostics du COVID-19.

Des changements majeurs nécessaires

Après le début de la pandémie, des startups comme DarwinAI, de grandes entreprises comme Nvidia et des groupes comme l’American College of Radiology ont lancé des initiatives pour détecter le COVID-19 à partir de tomodensitogrammes, de rayons X ou d’autres formes d’imagerie médicale. Pour les professionnels de la santé, ces technologies étaient la promesse d’un meilleur processus de distinction entre la pneumonie et le COVID-19 ou de plus d’options pour le diagnostic des patients. 

Certains modèles ont même été développés pour prédire si une personne décèdera de la maladie ou si elle aura besoin d’être placée sous oxygène. Cependant, les chercheurs affirment que des changements majeurs sont nécessaires avant que cette forme d’apprentissage automatique puisse être utilisée dans un contexte clinique. 

Les chercheurs ont évalué plus de 2 200 articles énonçant des modèles  pour n’en retenir que 62. Suite à un examen approfondi, ils ont déduit que la moitié environ n’a pas tenté d’effectuer une validation externe des données de formation, n’a pas évalué la sensibilité ou la robustesse du modèle et n’a pas rendu compte des données démographiques des personnes représentées dans les données de formation.

Aucune traduction clinique pour les modèles d’IA

Dans leur forme actuelle, aucun des modèles d’apprentissage automatique inclus dans cette revue n’est probablement candidat à une traduction clinique pour le diagnostic/pronostic du COVID-19. Malgré les efforts considérables des chercheurs pour développer des modèles d’apprentissage automatique pour le diagnostic et le pronostic du COVID-19, des failles méthodologiques et de nombreux biais dans la littérature persistent.

L’absence d’évaluation des biais et le fait d’être généralement formé sans suffisamment d’images sont autant de problèmes courants rencontrés avec les modèles d’apprentissage automatique développés à l’aide de données d’imagerie médicale. Presque tous les articles examinés présentaient un risque de biais élevé ou incertain. Seuls six étaient considérés comme présentant un faible risque de biais.

Par ailleurs, les ensembles de données accessibles au public souffraient généralement de la mauvaise qualité des images qui n’étaient pas non plus assez nombreuses pour former des modèles d’IA fiables. Les chercheurs ont utilisé la liste de contrôle pour l’intelligence artificielle en imagerie médicale (CLAIM) et le score de qualité radiomique (RQS) pour aider à évaluer les ensembles de données et les modèles.

Les solutions ?

Des ensembles de données de meilleure qualité, des manuscrits avec une documentation suffisante pour être reproductible et une validation externe sont nécessaires pour augmenter la probabilité que les modèles soient repris et intégrés dans les futurs essais cliniques. Ceci afin d’établir une validation technique et clinique indépendante ainsi que la rentabilité.

Le groupe de chercheurs en IA et de professionnels de la santé suggère également la garantie de la reproductibilité des résultats de performance des modèles énoncés dans les documents de recherche et l’examen de la manière dont les ensembles de données sont assemblés et rassemblés.

Pin It on Pinterest