正文

第6章 是法国的巴黎,还是拉斯韦加斯的巴黎?(2)

Google时代的工作方法 作者:(美)道格拉斯·梅里尔


尽管大多数搜索引擎都遵从这个通用模式,然而没有哪两个搜索引擎的运作模式完全相同。在不同的搜索引擎上使用同样的条件进行搜索,得到的结果不尽相同,原因就在这里。

Google公司的PageRank好(网页等级)算法是Google搜索区别于其他搜索引擎的重要一点。Google公司的共同创始人拉里·佩奇和谢尔盖·布林(Sergey Brin)认识的时候,两人都是斯坦福大学研究生。他们有一个课程设计项目,要寻找一种从大量数据中获取有价值信息的途径。正是这个项目导致了PageRank算法的开发。

PageRank算法根据特定网页的相似度判定其“好坏”,这种方式跟我们通常判定别人的方式一样。例如,你在大街上偶然遇到一个陌生人,这个人莫名其妙地给你解释什么是搜索,你大概不会当真。为什么要当真呢?他是个陌生人啊。你不知道他说的是不是合情合理。

然而,你却买了这本书,而且看到了这一章。很有可能,你相信我可以在计算机搜索方面说出些门道。为什么你容易相信我,而不是相信街上遇到的那个陌生人呢?这在很大程度上是因为假如我对自己谈论的主题一无所知,那么出版社是不会给我出版这本书的。(对吧?)换言之,你之所以相信我,是因为你信任的出版社信任我。

PageRank算法本质上就是采用同样的工作机理。这个算法不是去询问它所信任的人,而是要看网页是否链接到它的排序页面上。它更“信任”那些大量相关网页链接所指向的页面。换句话说,如果很多相关网页链接到某个页面上,那这个页面必定会有值得其他网页链接的理由,这个页面大概就是“好的”。同样,这个页面在PageRank排序中会有一个更高的等级,序列等级的提高有助于该页面在Google搜索结果排序位置的前移。

顺便说一句,你可能会以为PageRank源于Web page(网页)。不过,你错了。这是一个双关语,佩奇(Larry Page)是用自己的名字给这个算法命名的。

对搜索结果进行精确排序是件难事,这首先是因为我们使用的语言十分复杂。例如,假如我只是告诉你我要去bank(银行或河边),你能确定我是要去取钱吗?或许你还以为要到河边溜达呢?

与此类似,如果你在计算机上搜索apples(苹果),搜索引擎怎么能知道你要找的是一种水果还是一个公司呢?Google搜索算法以从亿万条过去的搜索结果中汇总提取的庞大数据为基础,形成有根据的猜测。如果像刚才所说的那样,你在Google搜索框中输入apples这个单词,Google搜索通常会猜想你要搜索有关水果的信息。Google搜索也会作好两手准备,排在前面的搜索结果有水果信息,同时也会有苹果公司的信息。然而,如果你输入的是单数形式的apple,那么你搜索苹果公司的可能性就会显著加大。在这种情况下,排在前面的搜索结果当中,跟苹果公司有关的信息就会占有压倒性的多数。如此一来,Google会依据搜索条件中是否含有复数标志s给出不同的排位结果。对于其他的搜索内容,问题可能会更加复杂。Google公司及其竞争对手之所以聘请数以百计的工程师,锲而不舍地调整它们的搜索引擎,以便提供相关度最高的搜索结果,原因就在于此。

获取相关度最高的搜索结果


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号