Dans la nuit du mardi 28 février au mercredi 1er mars, certains Web Services étaient indisponibles après l’arrêt de quelques serveurs. Jeudi 2 mars, AWS a dévoilé l’origine de la panne d’ Amazon S3 : une erreur humaine.
Dans la nuit de mardi à mercredi dernier en Virginie, la panne d’un centre de données d’AWS a provoqué l’arrêt de sites, des applications, des objets connectés et des services liés à la plateforme. Un possible manque à gagner pour les utilisateurs du service Cloud propulsé par le géant du Web qui ont dû attendre trois heures avant la réactivation des services.
Evidemment, les clients et Amazon cherchaient à savoir l’origine de cette panne. Le système Amazon S3 pour Simple Storage Service a fait les frais d’une erreur humaine. L’équipe en charge de la maintenance, en tentant de résoudre le problème du système de facturation, a étendu la panne aux autres services. La cause ? Une erreur humaine. Une malheureuse faute de frappe.
L’erreur de frappe qui chamboule les services
Cette ligne de code qui était « censée retirer un petit nombre de serveurs dans l’un des sous-systèmes S3 utilisé dans le processus de facturation S3 » a également touché deux autres sous-systèmes d’après le rapport à propos du cas Amazon S3.
Le premier gère « les métadonnées et les informations de localisation de tous les objets de la région » et le second est alloué à l’allocation de nouveau stockage et demande que les sous-systèmes indexés fonctionnent correctement pour accomplir sa fonction ».
Les requêtes gérées par ces sous-systèmes assurent l’opérabilité des APIS Amazon S3. En cas de panne, les services sont donc indisponibles. La solution : redémarrer l’ensemble des sous-systèmes concernés affectant ainsi la région US EAST 1.
Amazon S3 : une maintenance renforcée
En conséquence, la réparation a pris plus de temps que prévu et a entraîné les arrêts de service pour les commerçants pendant près de trois heures et demie. Il faut dire que l’opération de redémarrage n’avait pas été effectuée depuis près d’un an. L’équipe Amazon S3 apprend de ses erreurs et prévoit dès lors une partition des sous-systèmes.
Si AWS s’excuse platement pour l’indisponibilité du service, il s’agit surtout d’une prise de conscience pour les fournisseurs comme Instagram, Slack ou encore American Airlines dont les services ont directement été impactés. Enfin, les possesseurs d’objets connectés qui ont connu de sérieux problèmes : Smart TV indisponibles, serrure connectée ouverte, etc. Etre leader du marché n’empêche pas de rencontrer des problèmes et certains clients devraient suivre prochaine la voie d’Instagram.
- Partager l'article :