Summit, le cinquième superordinateur le plus rapide au monde, bat des records grâce à un algorithme de Machine Learning. Ce dernier a permis de traiter des ensembles de données massifs qui dépassent la mémoire disponible d'un ordinateur. L'algorithme a franchi le cap de l'exaoctet.
Nouvel algorithme de Machine Learning : diviser les données en lots gérables
Un algorithme développé via le Machine Learning au Laboratoire national de Los Alamos est parvenu à factoriser d'énormes ensembles de données. Ces derniers dépassent la mémoire disponible d'un ordinateur. L'algorithme a franchi le cap de l'exaoctet. Pour réussir cet exploit, l'algorithme a identifié les caractéristiques clés des données avant de les diviser en lots gérables.
Grâce à cette technique, l'algorithme a réussi à traiter ces ensembles de données massifs sans surcharger la mémoire de l'ordinateur. Traditionnellement, l'analyse des données est soumise à des contraintes de mémoire. Cependant, l'algorithme de Los Alamos brise cette barrière en introduisant une solution de manque de mémoire.
Lorsque le volume de données dépasse la mémoire disponible, l'algorithme le divise en segments plus petits, puis les traite un par un. Ceci, en les faisant entrer et sortir de la mémoire. Cette approche permet l'analyse efficace d'ensembles de données extrêmement volumineux.
Suivre des ensembles de données en croissance exponentielle
« Nous atteignons la factorisation en exaoctets, ce que personne d'autre n'a fait à notre connaissance », explique Boian Alexandrov, physicien théoricien à Los Alamos. Conçu pour être évolutif, cet algorithme est efficace sur les ordinateurs portables autant que sur les superordinateurs.
Ismael Boureima, physicien computationnel au Laboratoire national de Los Alamos déclare : « Nous avons développé une implémentation hors mémoire de la méthode de factorisation matricielle non négative qui vous permet de factoriser des ensembles de données plus volumineux que ce qui était auparavant possible sur un matériel donné ».
« Notre mise en œuvre décompose simplement le Big Data en unités plus petites qui peuvent être traitées avec les ressources disponibles. Par conséquent, il s'agit d'un outil utile pour suivre des ensembles de données en croissance exponentielle », ajoute-t-il.
Cela résout les problèmes de mémoire associés au traitement des informations provenant d'applications riches en données. Les chercheurs évoquent un apport pour certaines applications comme la recherche sur le cancer, l'imagerie satellite, les réseaux de médias sociaux, la science de la sécurité nationale ou encore la recherche sur les tremblements de terre.
- Partager l'article :
L’article qui répète 5 fois la même phrase de 5 façon pour faire croire qu’il a des trucs à dire…