已收藏,可在 我的资料库 中查看
关注作者
您可能还需要

Google SEO:网站robots.txt文件是什么?robots.txt文件限制

对于一个网站来说,应该有一些人并不喜欢网站所有页面都被Google抓取,因此就产出了robots.txt文件这一东西。本篇文章将详细讲解robots.txt文件是什么以及robots.txt文件的限制。

Google SEO:网站robots.txt文件是什么?robots.txt文件限制

对于一个网站来说,应该有一些人并不喜欢网站所有页面都被Google抓取,因此就产出了robots.txt文件这一东西。本篇文章将详细讲解robots.txt文件是什么以及robots.txt文件的限制。

robots.txt文件是什么

robots.txt 文件规定了搜索引擎抓取工具可以无法请求抓取您网站上的哪些网页或文件。此文件主要用于使您的网站避免收到过多请求;它并不是一种用于阻止 Google 访问某个网页的机制。

注意:

1.需要在禁止抓取某些内容时,robots.txt文件才有意义。robots.txt不存在或者是一个空文件意味着允许抓取网站上的所有内容。

2.有些因服务器设置的问题,robots.txt文件不存在时会返回状态码“200”,而不是“404”状态码。这可能导致搜索引擎错误解读robots文件。因此为了避免此类情况的发生,即使你允许抓取网站上所有的内容,也要在网站根目录下放一个空的robots.txt文件。

二、robots.txt文件对网站有什么优点

1、疾速增加网站权重和拜访量;

2、制止某些文件被查找引擎索引,能够节约服务器带宽和网站拜访速度;

3、为查找引擎供给一个简洁明了的索引环境

三、robots.txt 的限制

在创建或修改 robots.txt 之前,您应了解这种网址屏蔽方法的限制。有时候,您可能需要考虑采用其他机制来确保搜索引擎无法在网络上找到您的网址。

1.并非所有搜索引擎都支持 robots.txt 指令

robots.txt 文件中的命令并不能强制抓取工具对您的网站采取的行为;是否遵循这些命令由抓取工具自行决定。Googlebot 和其他正规的网页抓取工具都会遵循 robots.txt 文件中的命令,但其他抓取工具未必也会如此。因此,如果您想确保自己网站上的特定信息不会被网页抓取工具抓取,我们建议您采用其他屏蔽方法(如为您服务器上的隐私文件提供密码保护)。

2.不同的抓取工具对语法的解析各不相同

虽然正规的网页抓取工具会遵循 robots.txt 文件中的指令,但这些抓取工具可能会以不同的方式来解析这些指令。您应该好好了解一下适用于不同网页抓取工具的正确语法,因为有些抓取工具可能会无法理解某些命令。

3.如果其他网站上有链接指向被 robots.txt 文件屏蔽的网页,则此网页仍可能会被编入索引

尽管 Google 不会抓取被 robots.txt 屏蔽的内容或将其编入索引,但如果网络上的其他位置有链接指向被禁止访问的网址,我们仍可能会找到该网址并将其编入索引。因此,相关网址和其他公开显示的信息(如相关页面链接中的定位文字)仍可能会出现在 Google 搜索结果中。要正确阻止您的网址出现在 Google 搜索结果中,您应为您服务器上的文件设置密码保护,或者使用 noindex 元标记或响应标头(或者彻底移除网页)。(来源:SEO轻松学)

以上内容属作者个人观点,不代表雨果网立场!如有侵权,请联系我们。

分享到:

--
评论
最新 热门 资讯 资料 专题 服务 果园 标签 百科 搜索
雨果跨境顾问
Google顾问-Sandy
OceanWeb新客独家福利:前100名免费送$20广告体验金,点击按钮咨询顾问并领取,雨果跨境官方顾问

收藏

--

--

分享
SEO轻松学
分享不易,关注获取更多干货