robot.txt的写法详解

  • Post author:
  • Post category:其他



其实robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。




那么robots.txt语法到底有哪些呢?




robots.txt语法有三个语法和两个通配符。




三个语法:




1.首先要定义网站被访问的搜索引擎是那些。




User-agent:(定义搜索引擎)




语法:User-agent: * 或 搜索引擎的蜘蛛名称




例子:User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)




User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取)




User-agent:*(定义所有搜索引擎)




2:屏蔽搜索引擎爬去语法




Disallow:(禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。




写法:DisAllow:/文件夹目录/ (表示禁止蜘蛛爬取网站的其中一个目录)




或 DisAllow:/文件名称 (表示禁止蜘蛛爬取网站的其中一个页面)




例如



isallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)




Disallow:/admin (禁止蜘蛛爬取admin目录)




Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)




Disallow:/help.html (禁止蜘蛛爬去help.html页面)




整套语法示范:




User-agent: *




Disallow:/目录1/ (禁止所有搜索引擎的蜘蛛爬取站点的目录1)




Disallow:/目录2/ (禁止所有搜索引擎的蜘蛛爬取站点的目录2)




3:允许搜索引擎爬去语法




Allow:(允许语法) 用来定义允许蜘蛛爬取的页面或子目录




例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)




Disallow:/admin (禁止蜘蛛爬取admin目录)




Allow:/admin/abc.html(“/” 表示根目录下,允许蜘蛛爬去admin目录中的abc.html页面)




两个通配符:




匹配符”$”和 “*”




$ 通配符:匹配URL结尾的字符; * 通配符:匹配0个或多个任意字符;




例子1:




允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址,代码如下:




User-agent: *




Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)




例2:




设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,代码如下:




User-agent: *




Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)




以上是西西对于robots写法(语法)的领悟,分享给大家,如果大家有什么不懂的可以联系西西qq或者email。为了让大家巩固下robots.txt语法知识,下篇文章西西给大家写robots.txt综合列子,尽情期待。




本文发自

站长百科

: http://www.software8.co 收藏分享