一、什么是robots.txt?
robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,
如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。
二、 robots.txt基本语法:
1、允许所有搜索引擎访问网站的所有部分
robots.txt写法如下:
User-agent:
Disallow:
或者
User-agent:
Allow: /
注意: 1. 全国个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
2) 、禁止所有搜索引擎访问网站的所有部分
robots.txt写法如下:
User-agent:
Disallow: /
3) 、只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
robots.txt写法如下:
User-agent:
Disallow: /css/
Disallow: /admin/
Disallow: /images/