google seed rl

Machine Learning : Google lance un framework open source pour l’apprentissage renforcé

Research lance SEED RL : un nouveau framework d'apprentissage renforcé permettant de multiplier les performances par 80 pour le . Plutôt que d'exploiter les CPU et les GPU, ce framwork effectue le traitement de façon centralisée.

L'apprentissage par renforcement est l'une des principales techniques employées dans le domaine du Machine Learning. Elle consiste à laisser un agent autonome apprendre à effectuer des actions à partir d'expériences dans le but d'optimiser une récompense quantitative au cours du temps.

Cette méthode est efficace pour l'apprentissage automatique, mais l'approche actuelle présente plusieurs faiblesses. L'apprentissage par renforcement est généralement exécuté sur des CPU et des GPU. Le CPU est utilisé pour mettre à jour les paramètres des modèles d'interface avant d'envoyer des données spécifiques aux modèles pour l'entraînement sur le GPU.

Or, comme l'explique Lasse Espeholt, ingénieur chez Google Research, l'utilisation des CPU est bien moins efficace et beaucoup plus lente que l'utilisation d'accélérateurs. Ceci devient un problème lorsque les modèles deviennent plus larges et requièrent des calculs plus intensifs.De plus, la bande passante nécessaire pour envoyer les paramètres et les états intermédiaires des modèles peut être contraignante.

Machine Learning : SEED RL multiplie les performances par 80

Pour remédier à ce problème, Google Research dévoile un nouveau framework IA open source dédié à l'apprentissage par renforcement. Celui-ci peut être étendu massivement à des milliers de machines. Les performances s'en trouvent multipliées par 80 par rapport aux précédentes approches.

L'architecture SEED RL effectue le traitement sur une interface de réseau de neurones de façon centralisée sur du hardware spécialisé. Ainsi, une machine seule peut prendre en charge plusieurs millions de requêtes par seconde. Avec l'extensibilité à plusieurs milliers de machines, il est possible d'étendre les performances à plusieurs millions de frames par seconde.

Ainsi, l'inférence est accélérée et le transfert de données n'est plus restreint. Les paramètres et les états des modèles sont conservés en local. Bien que les observations soient envoyées à l'agent autonome en cours d'apprentissage à chaque étape de l'environnement, la latence reste faible grâce à une bibliothèque réseau très efficace basée sur le framework gRPC.

SEED RL est basée sur l'API TensorFlow 2 et accélérée par les TPU (tensor processing units). Tous les détails sur ce framework sont disponibles dans un livre blanc intitulé “SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference” , et le code de SEED RL est disponible sur Github à cette adresse.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *