为什么叫网络爬虫?
因为爬虫程序会检测当前网站中的url,再去爬这些url对应的网站,这些网站组成就像是一张网,而爬虫程序爬完这个网站爬另一个,就像是蜘蛛所以称为爬虫程序
如何告知爬虫哪些内容不可爬取?
在项目根目录下声明robots.txt,其中可以声明以下字段:
User-agent允许哪些机器人Disallow禁止访问某些目录Crawl-delay访问间隔秒数,防止爬虫占用所有带宽Allow抵消Disallow命令Sitemap支出站点地图的URI
可参考Google的robots.txt:https://www.google.com/robots.txt
