Roblox, célèbre opérateur de plateforme de jeux vidéo, a décidé d’étendre ses data center en installant un nouveau récemment. Cette décision a été prise après qu’une panne durant 73 heures ait fait des ravages dans ses infrastructures.
Daniel Sturman, CTO de Roblox, explique la situation
Bien avant la panne et l’installation d’un nouveau data center, Roblox était capable d’exploiter 18 000 serveurs et 170 000 conteneurs. Afin de venir à bout des milliers de serveurs, ils exploitaient la suite technologique HashiStack. Grâce aux technologies Nomad, Consul et Vault, ils géraient les conteneurs des services et serveurs de Roblox dans le monde entier.
« Quelques mois avant la venue de la panne en octobre, Roblox exécutait Consul 1.10 pour bénéficier d’une fonctionnalité de streaming originale. Cela permettait la réduction considérable du processeur et de la bande passante réseau nécessaire à la distribution des mises à jour sur les grands clusters comme ceux de Roblox. »
La communication des services Roblox passait via Consul pour connaître exactement la localisation du service destinataire. Ce procédé posait problème. Le 28 octobre, les services Consul se dégradaient considérablement pour finalement provoquer une panne conséquentielle.
La société a passé de longues heures d’essais de relancement, mais s’est heurtée à des erreurs. Sturman se demandait alors pourquoi la nouvelle fonctionnalité de streaming bloquait.
HashiCorp dévoile la raison du problème : « La conception du streaming augmentait intensément la quantité de contention sur un seul canal Go. Cela a causé un blocage dans les écritures. Il a fallu désactiver le streaming pour fluidifier la charge de contention et rétablir le cluster Consul. »
D’autres séries de problèmes se sont présentées, mais ont été résolues le 30 octobre.
Un nouveau data center privé pour remédier à la panne de Roblox
La résolution de Roblox pour éviter des problèmes similaires a été de réviser son logiciel backend. Mais surtout, d’installer Consul dans un data center supplémentaire dans une zone bien précise. Roblox opte pour le recrutement massif pour optimiser ce nouveau data center.
Cette panne s’élevant à 25 millions de dollars n’a pas modifié les intentions de Roblox quant à la nécessité d’exploiter son infrastructure personnelle.
Pour les tâches lourdes en performance et en latence, ils préfèrent créer leur infrastructure propre sur le site. Sturman ajoute qu’ils ont exercé un contrôle positif sur les coûts par rapport au cloud public. Comment ? En se focalisant sur l’exploitation des data center de Roblox pour les services Edge et backend. Cette économie financière permettra de subvenir aux créateurs sur la plateforme.
Le fait de posséder leur infrastructure privée Edge faciliterait la gestion des variations de performance et de latence de leurs joueurs dans le monde entier. Ces derniers exigeant toujours une performance constante et une latence moindre même s’ils se trouvent loin des data center publics.
Sturman ne restreint pas son approche à la privatisation et continue d’exploiter le cloud public pour charger les flux de travail, ses analyses internes et la capacité de rafale.
- Partager l'article :