Verizon a créé le CORD-19 Search : un moteur de recherche Big Data pour permettre aux chercheurs de trouver facilement des informations parmi les articles scientifiques sur le COVID-19. Cet outil est basé sur le programme de traitement open source Vespa, et permet d’explorer l’ensemble de données ouvert CORD-19…
Depuis le début de la pandémie de COVID-19, les chercheurs du monde entier ont rédigé plus de 50 000 articles sur le coronavirus SARS-CoV-2, la maladie qu’il provoque et sur les solutions envisageables pour sortir de cette crise sanitaire. De nombreuses données ouvertes sont mises à disposition des chercheurs, au même titre que des outils Cloud offerts gracieusement par les géants de la tech… mais il peut être difficile de naviguer parmi ces volumes d’informations titanesques.
Afin de faciliter l’exploration et l’analyse de ces nombreuses sources d’informations, Verizon Media a créé un moteur de recherche spécialement dédié à la recherche scientifique : CORD-19 Search.
Ce moteur de recherche est basé sur Vespa, un programme de traitement Big Data open source. La principale différence avec les autres outils similaires est que Vespa combine le texte et la recherche structurée pour permettre l’exploration par similarité sémantique via le modèle scibert-nli. Il s’agit d’un modèle de langage de data-mining pré-entraîné pour permettre de chercher efficacement du texte scientifique. En combinant ainsi les méthodes, Vespa permet de meilleurs résultats.
Verizon aide les chercheurs à explorer plus facilement les données sur le COVID-19
D’ordinaire, l’opérateur américain Verizon utilise Vespa pour des applications telles que les recommandations d’articles, la personnalisation, ou le ciblage publicitaire de ses abonnés. Dans ce contexte de pandémie, grâce à l’indexation des articles sur le COVID-19, l’outil va permettre aux chercheurs de parcourir plus facilement les dizaines de milliers d’articles scientifiques à disposition.
Le moteur de recherche CORD-19 Search permet d’utiliser Vespa pour parcourir le » COVID-19 Open Research Dataset (CORD-19). Cet ensemble de données ouvert est pensé pour aider les chercheurs à trouver de nouvelles pistes pour lutter contre le SARS-CoV-2.
Ce dataset est mis à jour chaque semaine à mesure que de nouvelles études sont publiées dans les journaux scientifiques et les services d’archives comme bioRxiv et medRxiv. Des articles en provenance d’autres sources comme PubMed, Microsoft Academic et la base de données de l’OMS sont également inclus.
Notons que les chercheurs disposant des compétences techniques nécessaires peuvent accéder aux données via l’API CORD-19. Il est aussi possible de télécharger le code et d’exécuter l’application sur son propre serveur. Ce projet est en développement, et les fonctionnalités devraient elles aussi continuer à évoluer au fil des jours à venir…
https://www.youtube.com/watch?v=KdPVGjjatFU
- Partager l'article :