robot.txt的写法详解

Post author:xfxia
Post published:2023年7月18日
Post category:其他

其实robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。

那么robots.txt语法到底有哪些呢？

robots.txt语法有三个语法和两个通配符。

三个语法：

1.首先要定义网站被访问的搜索引擎是那些。

User-agent：（定义搜索引擎）

语法：User-agent: * 或搜索引擎的蜘蛛名称

例子：User-agent：Googlebot （定义谷歌，只允许谷歌蜘蛛爬取）

User-agent：Baiduspider （定义百度，只允许百度蜘蛛爬取）

User-agent：*（定义所有搜索引擎）

2：屏蔽搜索引擎爬去语法

Disallow:（禁止语法）用来定义禁止蜘蛛爬取的页面或目录。

写法：DisAllow:/文件夹目录/ （表示禁止蜘蛛爬取网站的其中一个目录）

或 DisAllow:/文件名称（表示禁止蜘蛛爬取网站的其中一个页面）

例如

isallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)

Disallow:/admin (禁止蜘蛛爬取admin目录)

Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)

Disallow:/help.html (禁止蜘蛛爬去help.html页面)

整套语法示范:

User-agent: *

Disallow:/目录1/ （禁止所有搜索引擎的蜘蛛爬取站点的目录1）

Disallow:/目录2/ （禁止所有搜索引擎的蜘蛛爬取站点的目录2）

3：允许搜索引擎爬去语法

Allow:（允许语法）用来定义允许蜘蛛爬取的页面或子目录

例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)

Disallow:/admin (禁止蜘蛛爬取admin目录)

Allow:/admin/abc.html(“/” 表示根目录下，允许蜘蛛爬去admin目录中的abc.html页面）

两个通配符：

匹配符”$”和 “*”

$ 通配符：匹配URL结尾的字符； * 通配符：匹配0个或多个任意字符；

例子1：

允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址，代码如下:

User-agent: *

Allow: .htm$ 说明(其中“.htm”，表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件，注意，这里并不包括以”.html”为后缀的文件)

例2：

设定某种类型文件禁止被某个搜索引擎蜘蛛抓取，代码如下:

User-agent: *

Disallow: /*.htm 说明(其中“.htm”，表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件，注意，这里并不包括以”.html”为后缀的文件)

以上是西西对于robots写法（语法）的领悟，分享给大家，如果大家有什么不懂的可以联系西西qq或者email。为了让大家巩固下robots.txt语法知识，下篇文章西西给大家写robots.txt综合列子，尽情期待。

本文发自

站长百科

： http://www.software8.co 收藏分享

你可能也喜欢