robots.txt 及 robots Meta 标签用法

2006-7-13 Joseffu

1. 什么是 robots.txt 文件?

搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。

您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

2. robots.txt 文件放在哪里?

robots.txt 文件应该放在网站根目录下。举例来说，当robots访问一个网站（比如 //www.abc.com ）时，首先会检查该网站中是否存在 //www.abc.com/robots.txt 这个文件，如果机器人找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

网站 URL	相应的 robots.txt的 URL
//www.w3.org/	//www.w3.org/robots.txt
//www.w3.org:80/	//www.w3.org:80/robots.txt
//www.w3.org:1234/	//www.w3.org:1234/robots.txt
//w3.org/	//w3.org/robots.txt

3. robots.txt 文件的格式

"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：

"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：

User-agent:

该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。

Disallow:

该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问，而"Disallow:/help/"则允许robot访问/help.html，而不能访问/help/index.html。任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

4. robots.txt 文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分下载该 robots.txt 文件	User-agent: * Disallow: /
例2. 允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt" file)	User-agent: * Disallow:
例3. 禁止某个搜索引擎的访问	User-agent: BadBot Disallow: /
例4. 允许某个搜索引擎的访问	User-agent: baiduspider Disallow: User-agent: * Disallow: /
例5.一个简单例子在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不要写成 "Disallow: /cgi-bin/ /tmp/"。 User-agent:后的具有特殊的含义，代表"any robot"，所以在该文件中不能有"Disallow: /tmp/" or "Disallow:*.gif"这样的记录出现.	User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/

5. robots.txt 文件参考资料

robots.txt 文件的更具体设置,请参看以下链接：

Web Server Administrator's Guide to the Robots Exclusion Protocol

HTML Author's Guide to the Robots Exclusion Protocol

The original 1994 protocol description, as currently deployed

The revised Internet-Draft specification, which is not yet completed or implemented

以上资料来自：//www.baidu.com/search/robots.html

一. 常见搜索引擎机器人Robots名字

名称	搜索引擎
Baiduspider	//www.baidu.com
Scooter	//www.altavista.com
ia_archiver	//www.alexa.com
GoogleBot	//www.google.com
FAST-WebCrawler	//www.alltheweb.com
Slurp	//www.inktomi.com
MSNBot	//search.msn.com

二. robots.txt 举例

下面是一些著名站点的 robots.txt:

//www.cnn.com/robots.txt

//www.google.com/robots.txt

//www.ibm.com/robots.txt

//www.sun.com/robots.txt

三. 常见 robots.txt 错误

颠倒了顺序

错误写成

User-agent: *

Disallow: GoogleBot

正确的应该是:

User-agent: GoogleBot

Disallow: *

把多个禁止命令放在一行中

例如，错误地写成

Disallow: /css/ /cgi-bin/ /images/

正确的应该是

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

行前有大量空格

例如写成

Disallow: /cgi-bin/

尽管在标准没有谈到这个，但是这种方式很容易出问题。

404重定向到另外一个页面：

当Robot访问很多没有设置robots.txt文件的站点时，会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题，但是最好能放一个空白的robots.txt文件在站点根目录下。

采用大写

例如

USER-AGENT: EXCITE

DISALLOW:

虽然标准是没有大小写的，但是目录和文件名应该小写:

user-agent:GoogleBot

disallow:

语法中只有Disallow，没有Allow

错误的写法是

User-agent: Baiduspider

Disallow: /john/

allow: /jane/

忘记了斜杠 /

错误的写做

User-agent: Baiduspider

Disallow: css

正确的应该是

User-agent: Baiduspider

Disallow: /css/

四、 Robots META 标签

1、什么是 Robots META 标签

Robots.txt 文件主要是限制整个站点或者目录的搜索引擎访问情况，而 Robots META 标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样，Robots META 标签也是放在页面的中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似：

<html>

<head>

<title>新华网-全球新闻网</title>

<meta name="Robots" content="index,follow">

<meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">

<meta name="keywords" content="新华社…… ">

<meta name="description" content="新华网是由……">

<link rel="stylesheet" href="/public/css.css" type="text/css">

</head>

2、Robots META 标签的写法:

Robots META 标签中没有大小写之分，name=“Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为 name=“BaiduSpider”。content 部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta 标签的缺省值是INDEX和FOLLOW，只有 inktomi 除外，对于它，缺省值是INDEX,NOFOLLOW。

这样，一共有四种组合:

其中 <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"> 可以写成 <META NAME="ROBOTS" CONTENT="ALL">；<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> 可以写成 <META NAME="ROBOTS" CONTENT="NONE">

要注意的是:上述的 robots.txt 和 Robots META 标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则，需要搜索引擎机器人的配合才行，并不是每个ROBOTS都遵守的。

目前看来，绝大多数的搜索引擎机器人都遵守 robots.txt 的规则，而对于 Robots META 标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。例如：<META NAME="googlebot" CONTENT="index,follow,noarchive"> 表示抓取该站点中页面并沿着页面中链接抓取，但是不在Google上保留该页面的网页快照。

发表评论：