正文

PageRank——让谷歌腾飞的技术(6)

改变未来的九大算法 作者:(美)约翰·麦考密克


注意,随机访问者模型天生能同时和超链接把戏及权重把戏相配合。换句话说,每个网页链入链接的质量和数量都会被纳入考虑范围。网页B就展示了这些:网页B的访问者权重值相对较高(10%),得益于三个链入链接所在的网页拥有适中的访问者权重值,从4%到7%不等。

随机访问者把戏的美妙之处在于,和权重把戏不同,不管超链接有没有形成循环,随机访问者把戏都能完美地运作。回到早前的炒蛋例子,我们能轻易地运行一次随机访问者模拟。在数百万次访问之后,我的模拟产生了如上图所示的访问者权重值。请留意,和之前使用权重把戏进行的计算一样,伯特的网页访问者权重值要比欧尼的网页高很多(28%VS 1%)——尽管这两个网页都只有一个链入链接。因此,伯特的网页在网络搜索查询“scrambled eggs”(炒蛋)中排名更高。

现在让我们再转向前文中更困难的例子:对于最初的权重把戏而言,由于超链接循环的存在,第39页的图产生了一个不可解的问题。和前面一样,运行一次随机访问者的计算机模拟很容易,于是产生了如上图所示的访问者权重值。由这一模拟判定的访问者权重值给出了网页的最终排名,这些排名会被搜索引擎在返回结果时使用:网页A排名最高,之后是B和E,C和D的排名同列最后一名。

实际中的PageRank

谷歌的两位联合创始人于1998年在他们著名的会议论文《解析大规模超文本网络搜索引擎》中描述了随机访问者把戏。通过和其他许多技术结合,这一把戏的变体仍被主流搜索引擎所使用。不过,由于众多复杂因素,应用在现代搜索引擎中的实际技术和本章描述的随机访问者把戏略有不同。

其中一个复杂因素直击PageRank的核心:有时候,假设超链接传输的合法权威性有争议。我们先前已了解到,尽管超链接能代表批评而非推荐,但这在现实中并不是个很大的问题。另一个更加严重的问题是,人们可以滥用超链接把戏,人为地提高自己网页的排名。假设你运营着一个名为BooksBooksBooks.com的网站来售书(惊讶吧)。通过使用自动化技术,创建一大堆不同的网页——比如一万个——并让这些网页都链向BooksBooksBooks.com,做到这一切相对很容易。因此,如果搜索引擎和本章描述的一样来计算PageRank权重,BooksBooksBooks.com的权重值就能比其他书店高数千倍,进而有更高的排名和更多的销售额,而这都不是BooksBooksBooks.com应得的。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号