正文

搜索引擎索引——在世界上最大的草垛中寻针(9)

改变未来的九大算法 作者:(美)约翰·麦考密克


元词把戏能让搜索引擎以极端高效的方式回应有关一个文件结构的查询。上面的例子只是搜索页面标题内,但类似的技术能让用户搜索超链接、图片描述和网页其他有用部分内的词。而且所有这类查询都可以像上面的例子一样得到高效回应。正如我们之前讨论过的查询,搜索引擎无须返回查看原始网页:搜索引擎只需查阅小部分索引项,就能回应查询。同样重要的是,搜索引擎只需遍历每个索引项一次。还记得我们在完成处理第2页的首个命中后,转向第3页的可能命中时发生了什么吗?搜索引擎并没有返回索引项<titleStart>和<titleEnd>的开端,而是从之前离开的地方继续进行扫描。这也是让IN查询高效的关键因素。

标题查询和其他取决于网页结构的“结构查询”类似于之前讨论的NEAR查询,虽然人们极少执行结构查询,但搜索引擎无时无刻不在内部使用它们。原因之前提过:搜索引擎的生死由其排名的质量决定,而通过利用网页结构,排名质量能够得到大幅提升。比如,标题中有“dog”的网页包含与狗有关信息的可能性,要比在网页正文中提及“dog”的网页大得多。因此,当一名用户输入简单的查询dog,搜索引擎能在内部执行一个dog IN TITLE查询(即便用户并未详细地要求这一点),以寻找最有可能与狗有关的网页,而非只是恰好提到狗的网页。

索引和匹配把戏并非是全部内容

搭建一个搜索引擎并不是一件容易的事情。最终成品就像一个巨大的复杂机器,带有许多不同的轮子、发动机和杠杆。这些装置都必须安装正确,系统才能有用。因此,单靠在本章中出现的两个把戏并不能解决创建一个高效搜索引擎索引的问题,意识到这一点很重要。不过,词位置把戏和元词把戏无疑展现了真正的搜索引擎构建和使用索引的“风味”。

元词把戏的确帮助过AltaVista——其他搜索引擎则失败了——成功地在整个互联网中寻找有效匹配。我们之所以知道这一点,是因为AltaVista在1999年递交的美国专利文件《索引的限制搜索》(Constrained Searching of an Index)中描述了元词把戏。不过,AltaVista超级精巧的匹配算法并不足以让其从搜索行业波涛汹涌的早期脱颖而出。正如我们已经知道的,有效匹配只是一个高效搜索引擎的一半,另一大挑战是对匹配网页进行排名。正如我们将在下一章中看到的,一种新排名算法的出现足以让AltaVista相形见绌,并让谷歌一跃进入网络搜索世界的最前沿。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号