搜索引擎的目的是从互联网上可用资源的庞大数据库中提取所请求的信息,搜索引擎成为日常的重要工具,用于查找所需信息,而无需知道存储的确切位置。有不同类型的搜索引擎可以获取您正在寻找的信息。

不同类型的搜索引擎,搜索引擎根据其工作原理分为以下三类。

1.基于爬虫的搜索引擎

所有基于爬虫的搜索引擎都使用爬虫或机器人或蜘蛛来抓取新内容并将其编入索引数据库,有四个基本步骤。

1.1:爬行

搜索引擎抓取整个网络以获取可用的网页,一个名为crawler  或bot或  spider 的软件可以执行整个Web的爬网。抓取频率取决于搜索引擎,抓取间隔可能需要几天时间。这就是有时您可以在搜索结果中看到旧的或已删除的页面内容的原因。一旦搜索引擎再次抓取您的网站,搜索结果就会显示新的更新内容。

1.2:索引

索引是爬网后的下一步,这是识别能描述页面的单词和表达式的过程。所识别的单词被称为关键字,并且页面被分配给所识别的关键字。有时,当抓取工具无法理解网页的含义时,您的网站可能会在搜索结果中排名较低。在这里,您需要针对搜索引擎抓取工具优化网页,以确保内容易于理解。一旦抓取工具提取正确的关键字,网页就会被分配到这些关键字并在搜索结果中排名靠前。

1.3:计算相关性

搜索引擎将搜索请求中的搜索字符串与数据库中的索引页面进行比较。由于可能有多个页面包含搜索字符串,因此搜索引擎开始计算其索引中每个页面与搜索字符串的相关性。

1.4:检索结果

搜索引擎活动的最后一步是检索结果。基本上,它只是按顺序在浏览器中显示。搜索引擎按照最相关的顺序对搜索结果的无限页面进行排序。

2.人力资源目录

人力目录也称为开放目录系统,取决于基于人类的列表活动。以下是人力资源目录中索引的工作原理:

站点所有者向目录提交站点的简短描述以及要列出的类别。

然后手动审查提交的网站并将其添加到适当的类别中。

在搜索框中输入的关键字将与网站的描述相匹配,这意味着不考虑对网页内容所做的更改,因为它只是关于描述。

雅虎目录和DMOZ是人力资源目录的示例。不幸的是,像Google这样的自动搜索引擎将所有这些人性化的目录式搜索引擎从网络中删除了。

3.混合搜索引擎

混合搜索引擎使用基于爬虫和手动索引的方式在搜索结果中列出网站。大多数基于爬虫的搜索引擎(如谷歌)基本上都使用爬虫作为主要机制,将人力驱动目录作为辅助机制。例如,Google可以从人力资源目录中获取网页的描述并显示在搜索结果中。随着人力资源目录的消失,混合类型正在成为越来越多基于爬虫的搜索引擎。

4.其他类型的搜索引擎

除了上述三种主要类型之外,搜索引擎可以根据用途分为许多其他类别。以下是一些示例:

搜索引擎具有不同类型的机器人,用于专门显示图像,视频,新闻,产品和本地列表。例如,百度新闻页面可用于仅搜索来自不同新闻源站点的新闻。

一些像Dogpile这样的搜索引擎从其他搜索引擎和目录中收集页面的元信息,以显示在搜索结果中,这种类型的搜索引擎称为元搜索引擎。

像Swoogle这样的语义搜索引擎通过了解搜索查询的上下文含义,在特定区域提供准确的搜索结果。

结论

在互联网的早期阶段,人力搜索引擎是流行的重要信息来源。技术世界正朝着自动化和人工智能的方向发展,像谷歌和百度这样拥有热门搜索引擎的大型科技公司正在推动这一变革并从中获益。

没有一个人力搜索引擎能够在这种快速转变中幸存下来。虽然人们使用非常小规模的专用搜索引擎,但在这个时间点,基于人工或基于爬虫的搜索引擎充当信息的主要来源,而人为干预最少。

相关内容:搜索引擎的工作原理