🎁 ¡AliExpress Big Save Day! ¡Cupones hasta 50€ en tecnología, consolas y más! [Más info ]
La caída que experimentaron ayer Facebook, WhatsApp e Instagram nos ha dejado pensando a qué se pudo deber el fallo.
Ya se sabe que la causa del problema fue la eliminación de la publicación de las rutas de acceso a las redes de la compañía, lo que dejó fuera de servicio a los servidores DNS que traducen los dominios (por ejemplo, facebook.com) a sus direcciones IP.
Esto provocó que las aplicaciones o navegadores devolvieran mensajes de error al intentar contactar con los servidores de Facebook. Era como si hubieran sido desconectados repentinamente de la red.
Lo que no está tan claro es cuál es el origen del problema, ya que un fallo de estas características no es algo habitual.
Antes de que el problema se extendiese, un supuesto empleado de Facebook que trabajaba en el equipo de investigación y recuperación aportó en un hilo de Reddit [archivo] una explicación sobre qué había ocurrido, pero posteriormente borró su cuenta y el mensaje (¿por qué?).
Se trata de una interrupción global de todos los servicios/infraestructuras relacionados con FB (fuente: actualmente estoy en el equipo de recuperación/investigación).
Como muchos de vosotros sabeis, los DNS para los servicios de FB se han visto afectados y esto es probablemente un síntoma del problema real, y es que el peering BGP con los routers de peering de Facebook se ha caído, muy probablemente debido a un cambio de configuración que entró en vigor poco antes de que ocurrieran los cortes (comenzó aproximadamente a las 1540 UTC).
Ahora hay personas que intentan acceder a los routers de interconexión para aplicar las correcciones, pero las personas con acceso físico están separadas de las personas con conocimientos sobre cómo autenticarse en los sistemas y de las personas que saben qué hacer realmente, por lo que ahora hay un reto logístico para unificar todos esos conocimientos.
Parte de esto también se debe a la reducción de personal en los centros de datos debido a las medidas contra la pandemia.
Más tarde, volvió al hilo para aportar información adicional:
No hay ninguna discusión que yo sepa todavía que esté considerando un vector de amenaza/ataque.
Creo que el cambio original era «automático» (como en la configuración realizada a través de una interfaz web). Sin embargo, ahora que la conexión con el mundo exterior ha caído, el acceso remoto a esas herramientas ya no existe, por lo que el procedimiento de emergencia es obtener acceso físico a los routers de peering y hacer toda la configuración localmente.
Así que todo apunta a que el fallo se debió a una actualización automática que no funcionó como se esperaba, que se vio agravada por el hecho de que no era posible acceder a los routers remotamente. Esto obligó a desplazar técnicos a los centros de datos de Facebook para llevar a cabo las correcciones manualmente.