正文

开放与封闭(4)

星球Google 作者:(美)兰德尔·斯特罗斯


克雷格·希尔弗斯坦(Craig Silverstein)是1998年被两位创始人录用的雇员,他后来说,如果公司的成立提前两年,或者一年,都注定要失败。1998年以前,Web一直都很小,小到任何搜索方法都足够用,与网页相匹配的网站单子短到完全可以很轻易地就扫描下来。但到1998年,Web一下子就多起来了,对搜索引擎的强烈需求也在这时候出现,人们不单单希望它能与搜索词语在文本上完全匹配,而且要求同所有包含该词语的网页都能匹配。希尔弗斯坦说,它还必须能“辨别出哪些结果是好的,哪些结果是不那么好的”。

谷歌公司之所以能够提供搜索服务,是因为它有可以进入Web网页的“蜘蛛”,这是一种能够通过系统进入Web的软件,它将搜集后的Web网页立即进行检索和分析,随时准备好当有访问者键入搜索要求时进行匹配。(谷歌软件之所以能有如此高的速度,乃是因为它并不是在收到搜索请求之后才临时到全世界的网站上去检索的,而是在此前就早已检查了这些网站的网页,并将它们收集起来,存储在谷歌的服务器里。)在“蜘蛛”软件还是以相当简单的形式编写成的时候(谷歌的最初版本就是如此),它会给爬过的网站带来很多问题。在有些情况下,如在带宽不足的时候,谷歌“蜘蛛”的到访会让网络出现拥堵,使网站无法访问。它还会将网站冻结,拒绝所有的到访者。这让谷歌受到网站所有者的厌恶,他们中的有些人还曾经给布林和佩奇发邮件或打电话,表达他们的愤怒和反感。

混乱状态已经过去了,内置于谷歌“蜘蛛”中的代码有了改进,使它缩短了在每个网站停留的时间,进而降低了导致被访系统崩溃的危险性。与此同时,网站的所有者也习惯了自动化软件程序的来访,理解了“蜘蛛”的访问反过来也可以将他们的网站带到搜索引擎中,有助于吸引人前来造访。

Web起初的设计者们一致同意,Web网站的所有者们能够使用一段代码提示“蜘蛛”或任何其他类型的“机器人”软件的来访都是不受欢迎的。谷歌应该感到庆幸的是,在网站的所有者还未根据这一倾向阻止谷歌“蜘蛛”造访之前,Web就已经壮大起来了。谷歌的搜索结果的意义在于,它尽最大可能在网页范围内进行了广泛的搜索。这些搜索结果为谷歌对相关内容进行排行提供了可靠的计算依据,同时将它认为最权威的网页放在排行表的顶端。

为了评估任一具体网页的权威性,谷歌的软件必须在它所链接的所有网页的数据库中进行查找,记下哪些网站同那个页面有实质性的链接,然后做出推荐。这只不过是刚刚开始。对要做出推荐的网站必须仔细检查,以便决定这个推荐是加以重视还是归为一般甚或完全忽略。软件再回到链接的数据库,看看是谁推荐了哪些网站,那些网站是何时发现的,然后再去看看是谁推荐了那些网站……如此往复不已。这个过程是回溯性的、递归式循环的。检查由谁指向谁可以看作一个无尽的过程,但是一连串的计算将萃取出Web网上的每一个网页的相对权威性的精华,它是用从1到10的数字来表现的,表示某一网页在其他网站的编辑看来其权威性如何,是否值得推荐给他人。谷歌将这个数字称为网页级别(PageRank,其中Page在形式上又是指拉里·佩奇(Larry Page),是他研发了最初的公式,但他的姓氏使得这个词即使在其来源不为读者所知时仍具有明确的意味)。PageRank不是第一个被用于Web结构分析的系统――康奈尔大学的计算机科学家乔恩·克莱伯格于20世纪90年代中期在IBM的阿尔马登研究中心的工作一般都被认为是该领域的一个里程碑――但PageRank却是第一个走出实验室的研究成果。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号