Un petit monde est caché sous nos yeux, où des milliers de virus inconnus circulent dans l’air, l’eau et les terres. Apparemment, des chercheurs ont mis au jour plus de 70 000 nouveaux virus grâce à une IA. Ces virus étranges, invisibles et largement incompris, représentent un nouvel horizon pour la science. Et avec cette découverte, l’IA vient littéralement de repousser les frontières de la virologie.
Les virus sont à la fois une menace permanente, un mystère millénaire, et aujourd’hui, un potentiel à explorer. Longtemps cantonnés à leur réputation de perturbateurs de la santé humaine, les virus n’ont pourtant pas livré tous leurs secrets. Bien plus omniprésents que nous pouvons l’imaginer, ils peuplent nos océans, l’atmosphère et le sol, et même des lieux aussi hostiles que la glace de l’Antarctique ou les profondeurs marines. Pendant des décennies, scientifiques et biologistes ont tenté de décoder cet univers viral, souvent en vain, tant ces entités mutent et évoluent à une vitesse prodigieuse.
Et puis, l’IA est entrée dans l’univers des virus. Grâce à une technologie nommée LucaProt, des chercheurs ont analysé des milliers d’échantillons génétiques prélevés aux quatre coins du monde. Ainsi, plus de 70 000 nouveaux virus à ARN ont été identifiés, ce qui ouvre une nouvelle page dans notre compréhension des écosystèmes microbiens. Ces entités, autrefois invisibles, se révèlent enfin sous un nouveau jour, et avec elles, des perspectives inédites s’offrent aux scientifiques. Notamment, de nouveaux traitements médicaux, biotechnologies avancées, et même préparation à de futures pandémies.
De nouveaux virus inconnus découverts grâce à LucaProt
Les virus se cachent dans l’air qu’on respire, l’eau qu’on boit, et jusqu’aux endroits les plus extrêmes, comme les sources hydrothermales bouillantes ou les lacs hypersalés. Certains sont peut-être aussi vieux que les toutes premières cellules, voire plus anciens. Je les comparerai à des fantômes biologiques de la Terre, et nous cohabitons avec eux depuis l’aube des temps.
Mais malgré leur omniprésence, la virosphère est encore largement inexplorée. Les scientifiques ont passé des décennies à récolter des échantillons et à séquencer leur matériel génétique. Toutefois, les virus mutent tellement vite que les progrès restent lents.
Par ailleurs, il existe une « matière noire » génétique, un monde microscopique d’inconnues que nous n’arrivons pas à comprendre. Mang Shi et son équipe de l’Université Sun Yat-sen ont écrit un article dessus dans la revue Cell. Ils y dévoilent leur nouvelle approche pour percer le mystère viral. Pour cela, ils ont fait appel à une alliée de choix qui n’est autre que l’IA, ou plus précisément, LucaProt.
En entendant le mot virus, nous pensons tout de suite aux maladies. Oui, certains, comme le SARS-CoV-2 (responsable de la Covid-19), sont à éviter. Par contre, d’autres peuvent nous être utiles ! Les experts les utilisent par exemple pour des thérapies géniques, pour fabriquer des vaccins, ou même pour lutter contre les bactéries résistantes aux antibiotiques. Savez-vous qu’explorer l’univers viral pourrait même aider à anticiper la prochaine pandémie.
Comment fonctionne la chasse au virus avec l’IA ?
LucaProt utilise un modèle linguistique — un peu comme le cerveau d’un traducteur, mais pour l’ARN — afin d’analyser des fragments de matériel génétique des virus. Par conséquent, l’IA a trouvé de nouveaux virus à ARN en scannant près de 10 500 échantillons venant du monde entier.
Les virus jouent également selon leurs propres règles. Notre matériel génétique est basé sur l’ADN tandis que les virus, eux, utilisent uniquement de l’ARN pour coder leurs informations génétiques. Ce sont les fameux virus à ARN, comme le SARS-CoV-2. Vous voyez, leurs protéines sont souvent inconnues et pourraient détenir des secrets utiles pour la science.
Depuis des années, les chercheurs collectent de l’ARN viral de sources variées, qu’ils placent ensuite dans des bases de données. Le processus de collecte s’appelle la métagénomique. Mais ces bases de données sont si vastes que les méthodes informatiques classiques patinent.
ESMFold, l’IA qui prévoit les structures
Pour déchiffrer ces séquences virales, une autre IA, ESMFold, entre en scène. Développée par Meta, elle utilise les grands modèles de langage (ceux-là mêmes qui font tourner ChatGPT !) pour prédire les structures protéiques. C’est cette technologie qui permet de comprendre comment les protéines se plient en formes complexes.
LucaProt utilise donc ce modèle pour prédire la structure des protéines de la matière noire biologique. Elle déchiffre ainsi des séquences d’acides aminés inconnues jusqu’ici. L’équipe de Shi s’est alors demandé : et si on essayait cela avec les virus à ARN ?

Donc, pour trouver de nouveaux virus, les scientifiques se sont concentrés sur l’ARN polymérase dépendante de l’ARN (RdRP). Il s’agit d’une protéine essentielle dans la plupart des virus à ARN et ils ont utilisé un double système d’IA. Le premier canal est extrait des mots-clés d’acides aminés, tandis que le second, ESMFold, prédit la structure 3D des protéines virales.
Alors le résultat ? LucaProt a identifié 70 458 nouveaux virus inédits, y compris certains parmi les plus longs jamais découverts. Par exemple, les Flaviviridae qui sont responsables de maladies comme l’hépatite et la fièvre jaune. En ajoutant ces nouveaux virus aux bases de données, les scientifiques élargissent notre compréhension des groupes viraux.
Parmi ces virus, certains sont si distincts qu’ils pourraient ouvrir une nouvelle ère de la virologie. Babaian, un chercheur de l’Université de Toronto, a décrit cette découverte comme une plongée dans de « petites poches de biodiversité virale » jusque-là inaccessibles.
Et vous, que pensez-vous de cette découverte dans la virosphère ? Quels autres mystères pensez-vous que l’IA pourrait dévoiler ? Partagez vos idées en commentaire !
- Partager l'article :