为什么叫网络爬虫?
因为爬虫程序会检测当前网站中的url,再去爬这些url对应的网站,这些网站组成就像是一张网,而爬虫程序爬完这个网站爬另一个,就像是蜘蛛所以称为爬虫程序

比如电商网站希望Google爬取以取得更好的SEO

如何告知爬虫哪些内容不可爬取?

在项目根目录下声明robots.txt,其中可以声明以下字段:

  1. User-agent允许哪些机器人
  2. Disallow禁止访问某些目录
  3. Crawl-delay访问间隔秒数,防止爬虫占用所有带宽
  4. Allow抵消Disallow命令
  5. Sitemap支出站点地图的URI

可参考Googlerobots.txthttps://www.google.com/robots.txt