Incidencia: Interrupción de servicio en servidores DC TX (SOLUCIONADO)
Resuelto -
Todos los servicios se encuentran estables y online. Confirmamos que la totalidad de los servidores afectados (
Monitoreando -
Confirmamos que los servidores
Monitoreando -
Confirmamos que el servidor
Actualización -
Las instalaciones del Datacenter ya han alcanzado las temperaturas adecuadas y se ha iniciado el proceso de re-energización de los distintos racks. Esperamos que el proceso de arranque tome solo unos minutos para que los servidores estén nuevamente online.
Actualización -
El Datacenter reporta que, aunque las instalaciones se están enfriando, la temperatura aún es demasiado alta para energizar los equipos de forma segura. Se estima que en aproximadamente 15 minutos comenzarán las maniobras de encendido. Siendo conservadores con los tiempos de arranque y verificación de sistemas, proyectamos que los servicios comenzarán a estar disponibles progresivamente entre las 21:50 y las 22:15.
Identificado -
Hemos recibido un reporte oficial del Datacenter actualizando el diagnóstico. La causa raíz no es un ataque de red, sino un fallo mecánico en el sistema de climatización (HVAC) de las instalaciones, lo que ha elevado las temperaturas. El personal técnico ya está re-energizando las unidades de refrigeración. Estimamos que tomará aproximadamente 30 a 40 minutos enfriar la sala a niveles seguros para poder encender nuevamente los servidores
Identificado -
Hemos identificado una posible causa del problema es un ataque DDoS de alta magnitud sobre la red, ya que vimos alta carga en los servidores previo a la caida. Además de los equipos reportados anteriormente, confirmamos que los servidores
Investigando -
Hemos detectado que los servidores
23:00 🟢Todos los servicios se encuentran estables y online. Confirmamos que la totalidad de los servidores afectados (
CP005, CP015, DA007 y NODE002) están operando con normalidad. No se esperan problemas futuros derivados de este incidente, sin embargo, mantendremos un monitoreo proactivo para garantizar la continuidad del servicio.Monitoreando -
22:12 🟡Confirmamos que los servidores
CP005 y CP015 ya han completado su proceso de arranque y se encuentran online. Nuestros sistemas de monitoreo verifican que los servicios responden correctamente.Monitoreando -
21:55 🟡Confirmamos que el servidor
DA007 ya se encuentra online y operativo. Continuamos a la espera de que CP005, CP015 y NODE002 completen su proceso de arranque y estén disponibles en breve.Actualización -
21:52 🟠Las instalaciones del Datacenter ya han alcanzado las temperaturas adecuadas y se ha iniciado el proceso de re-energización de los distintos racks. Esperamos que el proceso de arranque tome solo unos minutos para que los servidores estén nuevamente online.
Actualización -
21:30 🟠El Datacenter reporta que, aunque las instalaciones se están enfriando, la temperatura aún es demasiado alta para energizar los equipos de forma segura. Se estima que en aproximadamente 15 minutos comenzarán las maniobras de encendido. Siendo conservadores con los tiempos de arranque y verificación de sistemas, proyectamos que los servicios comenzarán a estar disponibles progresivamente entre las 21:50 y las 22:15.
Identificado -
21:00 🟠Hemos recibido un reporte oficial del Datacenter actualizando el diagnóstico. La causa raíz no es un ataque de red, sino un fallo mecánico en el sistema de climatización (HVAC) de las instalaciones, lo que ha elevado las temperaturas. El personal técnico ya está re-energizando las unidades de refrigeración. Estimamos que tomará aproximadamente 30 a 40 minutos enfriar la sala a niveles seguros para poder encender nuevamente los servidores
CP005, CP015, DA007 y NODE002 sin riesgo de daño físico.Identificado -
20:45 🟠Hemos identificado una posible causa del problema es un ataque DDoS de alta magnitud sobre la red, ya que vimos alta carga en los servidores previo a la caida. Además de los equipos reportados anteriormente, confirmamos que los servidores
DA007 y NODE002 (también en DC TX) presentan caída. Estamos trabajando en una mitigación eficiente y efectiva para restaurar los servicios en los próximos minutos.Investigando -
20:31 🔴Hemos detectado que los servidores
CP005 y CP015 (ubicados en DC TX) se encuentran actualmente offline debido a un problema de red. Estamos gestionando activamente el restablecimiento del servicio y proporcionaremos más detalles en unos minutos. 