Le 8 juin 2020, certains clients ont connu des problèmes de connectivité aux services de base de PaymentEvolution. Ce rapport d'incident détaille la nature de la panne et notre réponse.
Voici le rapport d'incident concernant les problèmes de connectivité rencontrés par certains clients des services principaux de PaymentEvolution le 8 juin 2020. Nous comprenons que ce problème de service a eu un impact sur nos clients, et nous nous excusons auprès de tous ceux qui ont été affectés.
Résumé du problème
Le 8 juin 2020, de 11:43:44 HE à 11:48:44 HE, puis de 13:23:44 HE à 14:48:44 HE, les demandes de résolution de certaines entrées DNS de *.paymentevolution.com n'ont pas abouti. Certains utilisateurs n'ont pas pu accéder aux services de base de PaymentEvolution, notamment le traitement des salaires et notre calculateur de salaires public. D'autres services n'ont pas été touchés, notamment notre service d'assistance, nos blogs et nos sites de marketing. La cause principale était une panne de NIC chez notre fournisseur de centre de données.
Chronologie (toutes les heures sont à l'heure de l'Est)
08 Juin 2020 11:43:44 Début des problèmes de résolution DNS
08 juin 2020 11:44:14 Alerte de l'équipe PE
08 juin 2020 11:48:44 Service restauré
08 Juin 2020 13:23:44 Problèmes de résolution DNS
08 Juin 2020 13:24:14 L'équipe PE est alertée
08 Juin 2020 13:30:00 L'équipe du Datacentre a tenté de remplacer la NIC défaillante
08 Juin 2020 14:48:44 PM Service restauré
La Cause
Le matin du 8 juin 2020, certaines parties du réseau du centre de données sont devenues inaccessibles. L'équipe du centre de données a immédiatement demandé à plusieurs membres du personnel d'examiner le problème. Le problème était dû à une carte de ligne unique à 48 ports sur l'un des commutateurs du réseau central.
L'équipe du centre de données a d'abord tenté de remettre la carte en place à deux reprises, mais elle n'a pas été détectée par le commutateur. L'équipe a alors débranché tous les câbles réseau de la carte et a installé une autre carte de rechange identique provenant du matériel de rechange d'urgence sur site. La carte de remplacement n'a pas non plus été détectée après avoir été remise en place trois fois. L'équipe a ensuite essayé une troisième carte de ligne dans le logement et elle n'a pas non plus été détectée après plusieurs tentatives de remise en place.
Il a alors été décidé d'essayer de mettre le commutateur sous tension pour voir si la carte pouvait être détectée avec un démarrage complet du commutateur. Avant le cycle de mise sous tension, la carte avait une durée de vie de plus de huit ans. Cela n'a pas résolu le problème et la carte n'a toujours pas été détectée, bien que le reste du commutateur ait fonctionné de manière nominale.
Résolution et récupération
Pour résoudre le problème, l'équipe a dû remplacer un châssis de commutateur identique par un châssis de rechange provenant du matériel de rechange d'urgence sur place. Pour ce faire, il a fallu débrancher tous les câbles (cuivre et fibre) des sept modules du commutateur, retirer tous les modules et les alimentations, retirer le châssis, mettre le châssis de rechange en rack, remettre tous les modules et les alimentations en place, allumer le commutateur et reconnecter tous les câbles des différents modules du commutateur. Trois membres du personnel du centre de données ont aidé à déplacer physiquement les pièces matérielles et à brancher les câbles pour que tout soit fait aussi vite que possible. Un câble de console a été connecté au commutateur pendant le démarrage pour s'assurer qu'il n'y avait pas d'erreurs et il a montré que tout fonctionnait correctement. Les services ont été rétablis à 14h48.
Mesures correctives et préventives
Au cours des deux derniers jours, nous avons effectué un examen et une analyse internes de la panne. Voici les mesures que nous prenons pour traiter les causes sous-jacentes du problème, pour éviter qu'il ne se reproduise et pour améliorer les temps de réponse :
-
L'équipe du centre de données a mis en œuvre le plan de reprise afin de s'assurer que le service soit rétabli aussi rapidement que possible.
-
L'équipement de secours a fonctionné comme prévu. L'équipement a été réapprovisionné.
-
Les services de base, les données et les informations clients de PaymentEvolution n'ont PAS été affectés et nos plans de redirection de sites redondants n'ont pas été nécessaires.
PaymentEvolution s'engage à améliorer continuellement et rapidement sa technologie et ses processus opérationnels pour éviter les pannes. Nous apprécions votre patience et nous nous excusons à nouveau pour l'impact sur vous, vos utilisateurs et votre organisation. Nous vous remercions de votre confiance et de votre soutien continu.