自2019年9月1日起,谷歌将不再支持robots.txt索引指令。这意味着,如果您只依赖robots.txt noindex指令从搜索结果中删除这些页面,那么谷歌将开始为您的页面建立索引,你必须在9月1日前移除它并使用另一种方法。

什么是noindex robots.txt?

它是robots.txt文件中的一个标记(通常在HTML中),它阻止搜索引擎将该页面包含在搜索结果中。

为什么谷歌不再支持它?

因为noindex robots.txt指令不是官方指令,正如谷歌所说:

为了维护一个健康的生态系统,并为未来可能的开源版本做准备,我们将在2019年9月1日停用所有处理不受支持和未发布规则(如noindex)的代码。

Robots.txt -机器人排除协议(REP)

机器人排除协议(REP),更广为人知的是机器人。txt自1994年开始使用,但从未成为官方的互联网标准。但是,如果没有合适的标准,网站管理员和爬行器都对爬行的内容感到困惑。此外,该代表从未更新到涵盖今天的情况。

根据谷歌官方博客:

REP从未成为正式的Internet标准,这意味着多年来开发人员对协议的解释有些不同。而且自从它成立以来,代表还没有更新到涵盖今天的角落的情况。对于网站所有者来说,这是一个具有挑战性的问题,因为模糊的标准使得正确编写规则变得困难。

为了结束这种混乱,谷歌记录了如何在web上使用REP,并将其提交给IETF (Internet Engineering Task Force),这是一个开放标准组织,旨在使Internet更好地工作。

这对你来说意味着什么?

如果您在robots.txt文件中使用noindex,谷歌将不再支持它。

如果继续在robots.txt文件中使用noindex,您将在谷歌搜索控制台中看到一个通知。

使用Robots.txt索引指令的替代方法

如果你的网站仍然依赖robots.txt noindex指令,那就需要做出改变,因为从2019年9月1日开始,google机器人将不会遵守该指令。但是你应该用什么来代替呢?以下是一些替代方案:

1.使用“noindex”元标记阻止搜索索引

为了防止搜索引擎爬行器索引页面,可以使用“noindex”元标记并将其添加到页面的部分。

< meta name = ” robots” content = ” noindex ” >

或者,您可以使用HTTP响应头和一个X-Robots-Tag指示爬虫程序不索引页面:

HTTP / 1.1 200 OK

(…)

X-Robots-Tag: noindex

2.使用404和410 HTTP状态码

410是当目标资源在源服务器上不再可用时返回的状态码。

410响应主要是为了协助web维护任务,通知接收方该资源是故意不可用的,服务器所有者希望删除到该资源的远程链接。

404类似于410状态码,从我们的角度来看,从中长期来看,404和410对我们来说是一样的。在这两种情况下,我们都从索引中删除这些url。

3.使用密码保护

您可以在登录之后隐藏页面,因为谷歌不会索引隐藏在付费内容或登录之后的页面。

4.禁止机器人使用Robots.txt

您可以使用robots.txt文件中的disallow指令来指示搜索引擎不允许对所选页面进行索引,这仅仅意味着告诉搜索引擎不要抓取特定的页面。

5.使用搜索控制台删除URL工具

您可以使用搜索控制台删除URL工具从搜索结果中临时删除URL,将持续90天。如果希望永久删除,则可以使用上面建议的四种方法中的任何一种。