Robots.txt即爬虫协议,是搜索引擎蜘蛛进入网站第一个寻找的文件,它告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
当我们网站出现错误页面,或者某些页面不想让蜘蛛爬取时,合理的配置robots协议可以让蜘蛛更高效快捷的爬取到需要抓取的内容。当搜索引擎蜘蛛进入网站,首先查找网站根目录下是否存在robots.txt文件,若存在,则按照该文件的规范抓取内容;若不存在该文件,则按照默认的规则爬取网站中所有网页。因此,下面介绍一些robots语法和常用实例。

网站设置robots.txt的好处:

禁止搜索引擎收录部分页面;引导蜘蛛爬网站地图;能够一定程度上保护网站安全;节省流量等。

Robot文件:需要告诉蜘蛛不抓取某个目录或页面就要有这个文件。

  1. 这个文件不超过48k<br /> Robots.txt必须放在根目录<br />Robots规则怎么写:User-agent(只能*或者一个蜘蛛)、AllowDisallow、<br /> *:匹配0或多个任意字符,通配符、<br /> $:匹配行结束符,美元符号<br />先写例外的,后写大部分的<br />例如:禁止所有蜘蛛抓取网站任何内容<br /> User-agent: * 所有搜索引擎蜘蛛<br /> Disallow: / 根目录,所有文件都不让访问<br />例如:允许所有蜘蛛抓取网站任何内容,直接不写就行<br /> User-agent: * 所有搜索引擎蜘蛛<br /> Allow: / 根目录,所有文件都让访问<br />例如:仅禁止百度的抓取任何内容<br /> User-agent: Baiduspider 百度搜索引擎蜘蛛<br /> Disallow: / 根目录,所有文件都不让访问<br /> User-agent: * 这个声明让其它的抓取,可以不写<br /> Allow: /<br />例如:仅允许百度的抓取任何内容<br /> User-agent: Baiduspider 百度搜索引擎蜘蛛<br /> Allow: / 根目录,所有文件都让访问<br /> User-agent: * 这个声明让其它的不抓取,可以不写<br /> Disallow: /<br />例如:进允许百度和谷歌的抓取内容<br /> User-agent: Baiduspider 百度搜索引擎蜘蛛<br /> Allow: / 根目录,所有文件都让访问<br /> User-agent: Googlebot 谷歌搜索引擎蜘蛛<br /> Allow: /<br /> User-agent: * 这个声明让其它的不抓取,可以不写<br /> Disallow: /<br />例如:仅允许百度,不允许360<br /> User-agent: Baiduspider 百度搜索引擎蜘蛛<br /> Allow: / 根目录,所有文件都让访问<br /> User-agent: 360Spider 360搜索引擎蜘蛛<br /> Disallow: /<br /> User-agent: * 这个声明让其它的不抓取,可以不写<br /> Disallow: /<br />例如2:不许所有蜘蛛抓取网站上所有jpggifpng图片<br /> User-agent: * <br /> Disallow: /*.jpg$<br /> Disallow: /*.gif$<br /> Disallow: /*.png$<br />例如3:不许抓seo目录<br /> User-agent: *<br /> Disallow: /seo 禁止所有搜索引擎访问/seo目录(包括子目录)<br /> Disallow: /seo/ 禁止所有搜索引擎访问/seo目录<br />User-agent: * <br />Allow: /<br />Disallow: /.css$<br />Disallow: /.js$<br />Disallow: /.php$<br />Disallow: /*?*<br />Disallow: /control/<br />Disallow: /uploads/<br />Disallow: /plus/<br />Disallow: /public/<br />Disallow: /skin/<br />Disallow: /public_180731/<br />Disallow: /public_m190307/<br />Disallow: /gongcha/<br />Disallow: /public_m/<br />Disallow: /m_public/<br />Sitemap: [http://m.xishupaofu.net/sitemap.xml](http://m.xishupaofu.net/sitemap.xml)<br />Sitemap: [http://m.xishupaofu.net/sitemap.html](http://m.xishupaofu.net/sitemap.html)<br />Sitemap: [http://m.xishupaofu.net/sitemap.txt](http://m.xishupaofu.net/sitemap.txt)