本文将教您如何利用站点服务器日志作为SEO分析工具,以更好地了解搜索引擎机器人与站点的交互方式。在本文中,我们将只关注Google的Googlebot和Googlebot Smartphone。因此,从现在开始,每当提到机器人时,是在指Google。(本教程适用于百度)

同样值得注意的是,服务器日志通常也包含其他交互数据,但是我们在这里只涉及搜索引擎机器人流量。

什么是服务器日志文件?

简而言之,服务器日志文件是服务器自动生成的记录,列出了搜索引擎机器人与其中包含的页面/资源的每次交互。简而言之,每次漫游器请求服务器上的页面时,都会创建一个日志项,其中显示了各种数据点,例如:

*Warning: Jargon Zone*

请求了什么页面或资源?

请求了哪种资源?(HTML,JavaScript等)

使用什么方法?(获取或发布)

该请求何时发生?

请求的响应代码是什么?(200、301、404、500等)

还有最重要的数据点…* drumroll * …哪个搜索引擎机器人发出了请求以及发出了多少请求!(Googlebot,Googlebot Smartphone,Bingbot,Baidu等)

为什么机器人抓取如此重要?

能够一目了然地确定机器人在一段时间内正在请求哪些页面,这使我们能够识别潜在的“问题”页面。

什么是“问题”页面?

我将这些页面定义为在一个特定的时间范围内(至少一个月或三个月)几乎没有机器人请求的页面。为了进行衡量,假设在一个月内任何具有10个或更少的漫游器请求的页面都是潜在的“问题”页面。由于这是一个可缩放的比例,请根据网站大小(例如,小于10,小于30,小于50等)随意从此数字开始并继续进入列表。

机器人流量低的原因有哪些?

页面位于网站导航的深处,导致机器人平均需要更长的时间才能到达。

跨多个页面的内容稀少或重复,导致漫游器在请求页面时没有那么紧迫性或重要性。

页面未包含在XML网站地图中,导致漫游器仅依靠自然爬网进行查找。

缺少指向页面的内部/外部链接,从而使机器人找到它们的途径少得多。

技术问题,例如格式不正确的robots.txt文件阻止了bot爬行网站上的某些区域。

机器人流量低有什么影响?

页面根本没有被拾取和索引。

如果在索引页面上更新页面内容,则刷新后的内容可能需要更长的时间才能被检索和建立索引,意味着网站的访问者可能会看到过时的内容。

话虽这么说,重要的是要注意,具有低漫游器流量的页面并不总是引起人们关注的。这只是为了帮助识别潜在问题页面的晴雨表,并不保证实际上有任何错误。

网站大小如何影响机器人爬行?

大型 – 如果大型网站包含1000多个页面,则机器人可能会遇到一个问题,即通过自然的爬网进度持续到达较深的页面。这些可能是将与日志文件一起审核的页面,以确定重要性和优先级。

中小型网站 – 对于中型网站和小型网站而言,其网页大约少于500页,因此漫游器应该能够毫无问题地抓取大部分页面。在这种情况下,您可能正在审核日志文件,以查找逻辑上应更频繁地进行爬网的页面。

利用服务器日志分析seo

1.访问网站的服务器日志

获得对站点日志文件的访问权限并将之解析后,开始审核潜在的“问题”页面。(我将使用Screaming Frog的Log Analyzer工具进行此特定演练)

就最佳做法而言,需要审核至少一个月的数据,以准确描绘出网站上机器人活动的状态。要分析的数据量实际上取决于站点的大小,页面越多,将拥有更多的“事件”,这实际上会减慢导入速度。

2.验证机器人

开始导入过程后,将出现一个框,询问您是否要在导入时“验证”机器人。该过程实质上涉及对向服务器发出请求的每个漫游器的IP地址执行反向DNS查找,以识别假机器人。(当然,也可以利用nslookup命令符进行识别IP)

3.筛选和过滤

导入要分析的日志文件数据量后,可以自行调整视图结构,请注意下面提到的两个Googlebot列,这我们稍后将重点讨论的列。

接下来导出数据,以便更好地过滤和处理数据,在“行”列上方的左侧找到导出按钮。

4.审核数据

数据导出到Excel电子表格后,可以通过Googlebot和Googlebot Smartphone过滤数据,将请求数量最多的页面过滤到数量最少的页面将隔离潜在的“问题”页面。

如下所示,网站上有很多页面,在一个月的时间里,它们仅收到一个Googlebot请求!这可能是一个问题,但是我们需要进一步调查。

编译好要分析的页面列表后,就该重新讨论前面有关机器人流量低的可能原因的部分。

结论

服务器日志文件为我们提供了搜索引擎机器人如何与特定网站交互的视图,为进一步的seo优化提供了必要的信息,以更好地了解机器人为何会忽略网站上的某些页面以及如何进行最佳优化。