Dropbox met sous tension un data center pour en éprouver la résilience

Dropbox a débranché son data center à San José pour expérimenter sa faculté de résistance aux catastrophes naturelles.

Dropbox dépendait fortement de ce data center à San José. Quelques pannes avaient eu lieu auparavant et avaient démontré que le data center mettait trop longtemps à récupérer. Ce constat avait poussé la société à expérimenter un débranchement en cas de catastrophe naturelle. L’équipe testait alors le RTO ou temps de récupération standard de la planification de reprise après sinistre.

Focus sur le système de Dropbox

Les systèmes de Dropbox se départagent habituellement en deux parties : une pour l’hébergement des données et une autre pour stocker les métadonnées issues des premières. Une architecture nommée Magic Pocket permet de servir les données de bloc à la source de plusieurs data centers. Un des objectifs de Dropbox était d’augmenter la capacité de résilience de ces métadonnées, mais jusqu’à présent la société peine à l’atteindre.

Une équipe de planification des catastrophes a été mise en place et expérimente depuis 2019 des basculements formalisés. Mais en mai 2020, un basculement a provoqué une longue panne de 47 minutes. A partir de cela, une autre équipe ayant pour soin de gérer les situations de catastrophes a pris place. La même année, on a procédé à des améliorations au niveau des outils de basculements. Celles-ci mettaient en opération un graphe acrylique dirigé et ont permis d’alléger les tâches et la reprise des opérations après des échecs.

Bien avant de débrancher ce data center, les techniciens ont testé une méthode de procédure sur le data center de Dallas Forth Worth. Cette expérience montrait que l’ensemble fonctionnait quand même en cas de débranchement. Cependant, ce test avait décelé un problème sur le service proxy S3.

Les techniciens conclurent qu’il fallait tester sur des régions intégrales et non sur un unique data center. Un deuxième test a eu lieu, et cette fois-ci, avec des meilleurs résultats. Les techniciens ont pu déconnecter le data center de San Jose et démontrer que Dropbox pouvait être actif même sans San Jose.

Les exigences en formation et en préparation lors des situations à risque ont été mis en exergue à travers ces expériences. Dropbox peut actuellement continuer à s’exercer dans ces domaines sans perturber les utilisateurs.

Des stratégies de gestion de risque axées sur le client

La société ne reste pas inerte face aux défis des situations problématiques pouvant provoquer des pannes et des échecs dans les data centers. Elle a élaboré des stratégies basées sur les tests de basculements. D’une part, elle effectue régulièrement des tests de routine. D’autre part, les tâches du personnel lors des basculements ont été clarifiées. Et enfin, la société a préféré déterminer les critères et procédures d’abandon pour un basculement.

La gestion des services internes du data center de San Jose intègre également la mobilisation d’un équilibreur de charge Envoy et de l’utilisation de clients RPC de basculements communs. Cela permettrait de réorienter les exigences des clients vers un autre data center.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Pin It on Pinterest