正文

PageRank——让谷歌腾飞的技术(3)

改变未来的九大算法 作者:(美)约翰·麦考密克


权重把戏

你可能已经在想,为什么要对网页的所有链入链接一视同仁。来自专家的推荐肯定就要比菜鸟的推荐更有价值?要细致地理解这一点,我们继续研究上面的炒蛋例子,不过研究的是另一组链入链接。下页的图对链入链接进行了重新设置:现在,伯特和欧尼的菜谱的链入链接数相等了(只有一个),但欧尼的链入链接来自我的主页,而伯特的则来自于著名主厨艾利斯·沃特斯。

如果没有其他信息,你更喜欢哪个菜谱?很显然,选择由一位著名主厨推荐的菜谱,要比选择由一名计算机科学相关书籍作者推荐的菜谱更好。我们称这一基本原则为“权重把戏”(the authority trick):来自高“权重”网页的链接排名要比来自低“权重”网页链接的排名高。

这个原则很好,但其实际形式对搜索引擎而言一点用都没有。计算机如何才能自动判定艾利斯·沃特斯在炒蛋方面比我更具有权威性呢?有个想法对此也许会有所帮助:让我们把超链接把戏和权重把戏结合起来。所有网页的初始权重值(authority score)都是1,但如果一个网页有链入链接,在计算该网页权重时就要加入指向其的网页的权重。也就是说,如果X和Y网页链向Z网页,那么Z网页的权重就是X网页和Y网页权重相加的值。

下面的图在计算这两个炒蛋菜谱网页的权重值上很详细。终值显示在圆圈中。图中有两个网页链向我的主页;这些网页本身没有链入链接,因此权重值为1。我的主页的权重值是所有链入链接权重值的总和,相加得2。艾利斯·沃特斯的主页有100个链入链接,每个链入链接的权重值为1,因此它的权重是100。欧尼的菜谱只有一个链入链接,但这个链入链接的权重值是2,因此将其所有链入链接的权重值相加(这个例子中只有一个数可加),欧尼菜谱网页的权重值为2。伯特菜谱网页也只有一个链入链接,但其权重值为100,因此伯特菜谱网页的权重值为100。而因为100大于2,所以伯特的网页排名要比欧尼的高。

随机访问者把戏

就自动计算权重值来说,我们似乎拥有了一个真正奏效的策略,无须计算机真正地理解网页内容。不幸的是,这种方法有个大问题。超链接很有可能形成被计算机科学家称为“循环”(cycle)的东西。循环指访问者可以通过点击超链接返回出发时的网页。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号