Dropbox décide de débrancher son data center

Dropbox a mis hors ligne provisoirement son data center de San José. Trois data centers avaient été déconnectés de la fibre optique en novembre dernier.

Contrairement à ce que l’on peut penser, cet évènement appelé « trou noir SJC » n’a pas eu de répercussions négatives au niveau mondial. Suite à ce trou noir, Dropbox affirme qu’ils gèrent désormais mieux les ressources pour réduire leur objectif de temps de récupération de quatre à cinq minutes. Avant cela, ce temps de récupération avoisinait environ les huit à neuf minutes.

Pour quelles raisons Dropbox a déconnecté ses data centers ?

Après la rupture d’avec AWS, Dropbox avait construit ses propres data centers. Celui-ci avait alors réalisé un point faible sur les métadonnées. Elles étaient hautement répliquées hormis les données en bloc. Vu la proximité de la ville avec San Andreas, les techniciens de Dropbox voulaient s’assurer de la robustesse de Dropbox durant un cataclysme naturel.

Magic Pocket, la première tentative de Dropbox pour éliminer sa centralité, consistait à la distribution d’un certain nombre de blocs de données. Cette expérience permettait de distribuer en même temps des fichiers sans avoir peur des pannes potentielles au niveau des data centers. Cette procédure appelée « actif-actif » rendait possible à plusieurs nœuds de servir en simultané des fichiers à divers utilisateurs.

Pour des raisons de choix personnels sur la gestion de données, l’industrie a choisi ce modèle « actif-actif ».

Dropbox choisit de se relever après chaque défaillance

Rappelons qu’en 2020, un souci au niveau de l’outil de basculement a bloqué Dropbox durant 47 minutes. Cela a poussé l’industrie à réfléchir plus profondément sur ses systèmes de reprise après sinistre. Une équipe responsable de ce genre de situation a pris place pour mieux gérer le logiciel de basculement de Dropbox. Des tests ont eu lieu après cette prise en main dont un premier arrêt volontaire en novembre 2021.

C’est à Dallas Fort Worth que les techniciens ont exécuté les premiers tests sur deux data centers. Ne réalisant plus tard que tous les proxys S3 étaient connectés au data center mis hors ligne, l’équipe a quelque peu galéré. Un deuxième test s’en est ensuivi.

L’objectif de Dropbox était de faire durer un trou noir de 30 minutes. Et l’expérience s’est avérée plus avantageuse. L’ensemble du système de Dropbox est non seulement plus résilient, mais ils peuvent également se permettre de distribuer leurs services de manière plus efficiente.

Il est aussi à noter que réaliser ce genre d’expérience en dit long sur l’endurance de l’entreprise Dropbox. Tous les efforts portés pour augmenter la résilience s’étalaient sur un projet pluriannuel et divisés sur plusieurs équipes. Ils avaient gagné en expérience et en gestion sur la reprise après sinistre.

Après avoir pu surmonter ses problèmes et trouvé une solution efficace, Dropbox pousse les autres entreprises à s’exercer dans les simulations de situation de sinistre. Comme dans toute situation, une pratique régulière est la garantie de la maîtrise d’une compétence.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Pin It on Pinterest