题目描述

X老师上课讲了Robots协议,小宁同学却上课打了瞌睡,赶紧来教教小宁Robots协议是什么吧。

Solution

Robots 协议是互联网爬虫的一项公认的道德规范,全称是“网络爬虫排除标准(Robots exclusion protocol)”,这个协议用来告诉通用型爬虫,哪些页面是可以抓取的,哪些不可以。
大多数网站都有 Robots 协议,那如何查看网站的 Robots 协议呢 ?很简单,在网站的根目录域名后加上/robots.txt就可以了。Allow 代表允许访问,Disallow 就是禁止访问,User-agent 可以判断是哪家爬虫,经常产生新数据网站 sitemap 文件会用的比较多。

002.png

根据提示,访问服务器的flag_is_h3re.php文件,得到 Flag:

002-2.png