昨天爬了一下小幸运,爬取了大约4000条左右的愿望信息。爬取的过程中我没有设置代理和设置延迟,任由代码迅速的发送请求。爬取的过程相当顺利。这说明小幸运的服务端没有做限制来访IP请求频率的处理。这很容易引发DDOS(分布式拒绝服务)攻击。基于此,我研究了一下对客户端请求限制的方法。收获记录如下!
NGINX有多个内建的模块可以帮助我们控制客户端对应用的使用。比如:限制连接数,限制请求和响应的速率,限制带宽等。
限制连接
我们可以通过某一个预定义的变量来限制某一客户端的连接数,通常这个预定义的变量是客户端的IP地址。我们可以构建一个共享内存的域来存储连接指标,然后使用limit_conn指令来限制打开的连接数,具体的配置如下:
1 | http{ |
上述配置文件创建了一个共享内存区域(zone)并命名为limitbyaddr。使用的预定义的变量是$binary_remote_addr,也就是客户端的IP地址的二进制形式。共享内存区域的大小被设置为了10MB.limit_conn指令需要两个参数:一个是limit_conn_zone的名字,第二个是允许的最大连接数。limit_conn_status指令设置连接数超过指定值之后的服务器响应,默认的响应是503(service unavailable),在上述配置中如果同一个客户端同时打开的连接数超过40,那么就会收到429响应(too many requests)。limit_conn_zone只在http指令块中可用,limit_conn和limit_conn_status在http,server,location指令块中都可用。
限制请求速率
通过预定义的变量可以来限制请求的速率,通常这个预定义的变量也是客户端的IP地址。利用rate-limiting模块来限制请求的速率。配置如下:
1 | http{ |
第一个参数:设置使用哪个配置区域来做限制,与上面limit_req_zone 里的name对应
第二个参数:burst=5,重点说明一下这个配置,burst爆发的意思,这个配置的意思是设置一个大小为5的缓冲区,当有大量请求(爆发)过来时,超过了访问频次限制的请求可以先放到这个缓冲区内
第三个参数:nodelay,如果设置,超过访问频次而且缓冲区也满了的时候就会直接返回limit_req_status的值,如果没有设置,则所有请求会等待排队
上述配置创建了一个共享内存的区域(zone)并将其命名为limitbyaddr.预定义的键是客户端的IP地址的二进制形式。共享内存区域的大小被设置成了10MB,这个共享内存区域还设置了rate的关键字参数,用来指定允许客户端请求的频率上限。limit_req指令需要两个可选的关键字参数:zone,burst。zone指明了使用的共享内存区域。当某一个共享内存区域的请求速率达到了之后,请求就会被延迟处理,直到达到burst值。burst值默认为0.limit_req的第三个可选参数是:nodelay,此参数使客户端在受限制之前无延迟地使用其突发。
限制带宽
如果你需要限制每个客户端的下载带宽,你可以使用NGINX的limit_rate和limit_rate_after指令来实现:
1 | location /download/ { |
上面的配置指明了对于/download/开头的URL的请求,在成功返回10MB的数据之后,开始以每秒1MB的速率传输数据至客户端。