控制搜索引擎访问和索引你的网站

豆豆网   技术应用频道   2007年09月11日  【字号: 收藏本文

内容摘要:这是我们关于如何使用 robots.txt 来控制对你的网站的存取的一系列帖子的第一篇。

  精细控制

  除了 robots.txt 文件让您为你的一大堆文件简洁明了给出指令外,你也可以利用 robots META 标签来精确控制对你的单个网页的访问。为了做到这一点,你只需要对你的 HTML 网页添加特定的 META 标签来控制怎样对单个网页索引。归而总之,robots.txt 和 META 标签让你更灵活地表达复杂的访问规定变得比较容易。

  一个简单的例子

  这里是一个简单的例子,它是一个 robots.txt 文件。

  User-Agent: Googlebot

  Disallow: /logs/

  User -Agent 行指明下面部分的一套指令只是为 Googlebot。所有主要搜索引擎都阅读并听从你放在 robots.txt 的指令。只要你愿意,你可以为不同的搜索引擎指定不同的规则。Disallow 行告诉 Googlebot 不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索 结果中。

  禁止访问单个文件

  如果你有一篇只有注册用户才能访问的文章,你一定想让它排除在谷歌的结果之外。为了做到这一点,你只需要在该文章对应的 HTML 文件中添加一个 META 标签。该文件的代码的最开始有点像:

  <html>

  <head>

  <meta name="googlebot" content="noindex">

  ...

  这段代码会阻止谷歌索引此文件。标签 META 特别有用,如果你只被允许编辑单个文件,而不是全站的 robots.txt。他们还允许你逐页地指定复杂的访问控制规定。

  了解更多

  你可以在 http://www.robotstxt.org/谷歌的站长帮助中心找到更多有关 robots.txt 的更多有用信息,包括:

  如何构造一个 robots.txt 文件

  对谷歌使用的每个 User-agent 的描述

  如何使用模式匹配

  要多久我们才重新抓取您的 robots.txt 文件?

  我们也在我们的站长博客里写了一些关于 robots.txt 的帖子,也许对你有用。例如:

  使用 robots.txt 文件

  Googlebot 汇总

  这里还有一个主要搜索引擎使用的机器人的有用清单:http://www.robotstxt.org/wc/active/html/index.html

  下次……

  即将推出:关于详述 robots 和 metatags 使用的帖子,和关于一些对常见情况的具体例子。

来源:谷歌    作者:Dan Crow    责编:豆豆技术应用

正在加载评论...