恶意爬虫危害合特征
正常爬虫通常会带有包含xxspider的user-agent标识,并且爬取的请求量不大,爬取的URL和时间段都比较分散。合法的爬虫IP通过执行反向nslookup或tracert,一般都可以看到合法的来源地址。例如,对百度的爬虫IP执行反向nslookup,即可查询到其来源地址信息。
而恶意爬虫则可能会在某个时间段大量请求某个域名的特定地址或接口,这种情况很可能是伪装成爬虫的CC攻击,或是经第三方伪装后针对性爬取敏感信息的请求。当恶意爬虫请求量大到一定程度,往往造成服务器的CPU飙升,导致网站无法访问等业务中断问题。