我最近帮助客户从其网站中删除了旧的联系方式,他们并没有打算将其公之于众,也没有意识到,直到百度索引了那些页面。

虽然这不会立即从百度取消索引,但它让我想到有人可能想要阻止搜索引擎在任何损坏完成之前索引页面的原因。

阻止百度对网页编制索引的3个理由

虽然您可能想了解如何阻止百度对网页编制索引的紧迫原因很少,但以下是一些营销原因。

1.改善您的跟踪和目标归因

对于许多网站管理员和营销人员,通过访问“感谢您”页面来跟踪表单完成的目标。为了防止感谢页面意外收到自然流量,您需要了解如何防止百度完全索引页面。

如果除了填写表单的用户之外,您的网页上还有自然流量登陆,那么您的目标和目标转化率就不准确。

2.减少没有用户价值的页面

虽然这是一个过于简单化的模型,但您几乎可以想象您的网站拥有一个SEO值。

对于有10页的网站,每个页面大约是SEO值的十分之一。如果网站所有者已经学会了如何进行关键字研究并优化了所有页面,那么所有这些页面都将高效且有效地生成有机流量。

相反,对包含100页的网站进行成像。实际上有四个页面涉及业务服务,其他96个页面是“博客帖子”,实际上只是所有者将信息转储到他们的网站上。这些页面未满足已知的受众需求,也未针对任何相关的关键字组进行优化。

在我们的简化模型中,SEO值池稀薄。四个服务页面中的每一个都接收到网站聚合SEO值的1/100,即使它们相对优化也非常弱。其他96页正在接收96/100的价值,但它们是陷入困境并浪费您网站排名潜力的死路。

学习如何防止搜索引擎索引页面(或96)是一种很好的方法来保持您的网站的SEO值不会过于分散。您可以隐藏搜索引擎中的大多数网站,以便百度只知道应该找到的有用且相关的网页。

3.避免重复内容问题

发布与互联网上的另一个页面相同或几乎相同的页面可能会导致一些不必要的决策。

哪个页面是原始的?即使其中一个页面首先发布,重复页面是否跟随更权威的来源?如果这两个页面都在您的网站上,您打算将哪一个页面包含在百度的搜索结果中?你可能并不总是喜欢这个结果。

为避免导致重复的内容问题,您可以尝试阻止漫游器抓取您网站上的某些网页。

如何防止百度索引页面

阻止搜索引擎索引页面的最简单和最常用的方法是包含meta noindex标记。

包括Noindex标签

noindex元标记用于网页上的<head> </ head> HTML标记之间,以防止搜索引擎机器人在其索引中包含该页面。这仍然允许抓取工具读取您的网页,但它表明它们不包含在其搜索结果中提供的副本。

阻止搜索引擎索引页面的noindex标记如下所示:

<meta name =“robots”content =“noindex”>

如果您只是担心阻止百度将网页编入索引,您可以使用以下代码:

<meta name =“Baiduspider”content =“noindex”>

如果您使用WordPress作为您的CMS(我强烈推荐),那么您可能想要使用Yoast SEO插件(我也强烈推荐)。只需点击几下鼠标,就可以将noindex标记添加到您想要的任何页面。

在任何页面的后端,向下滚动到您的Yoast SEO框。然后单击齿轮图标,并更改“允许搜索引擎在搜索结果中显示此帖子?”的下拉字段,说“不”。

这不是指令,因此搜索引擎可以选择忽略您的meta noindex标记。要获得更加坚固的技术,您可以使用robots.txt文件。

在你的Robots.txt中禁止机器人

如果您想确保Googlebot和Baiduspider等机器人根本无法抓取您的网页,您可以在robots.txt文件中添加指令。

Robots.txt是在Apache服务器的根目录中找到的文件,它可以禁止某些机器人首先进入您的页面。重要的是要注意,可以指示某些机器人忽略您的robots.txt文件,因此您实际上只能使用此技术阻止“好”机器人。

要禁止所有机器人访问此页面,您可以在robots.txt中使用以下代码:

User-agent: *

Disallow:/ example-page /

请注意,您不必使用完整的URL,只需使用域名后面的URI。如果您只想阻止Baiduspider抓取该网页,您可以使用以下代码:

User-agent:Baiduspider

Disallow:/ example-page /

使用.htaccess阻止机器人抓取您的网站

我个人不知道任何需要使用它的客户端,但您可以使用.htaccess文件来阻止任何用户代理抓取您的网站。

这是一种彻底阻止Baiduspider抓取您的网站的方法,即使是“坏”机器人也无法忽略。需要注意的是,这更像是一个全面的解决方案,而且针对特定页面的目标较少。管理.htaccess文件内多个页面的目标拒绝访问将是一场噩梦。

阻止Baiduspider的代码如下所示:

RewriteEngine OnRewriteCond%{HTTP_USER_AGENT} Baiduspider [NC]RewriteRule。*  -  [F,L]

如果您想一次阻止几个机器人,可以像这样设置代码:

RewriteEngine OnRewriteCond%{HTTP_USER_AGENT} ^。*(Googlebot | Bingbot | Baiduspider)。* $ [NC]RewriteRule。*  -  [F,L]

学习如何防止搜索引擎索引你的某个页面有时是必要的,而且根据你选择的方式而定并不是很困难。