正文

搜索引擎索引——在世界上最大的草垛中寻针(7)

改变未来的九大算法 作者:(美)约翰·麦考密克


元词把戏

到目前为止,我们一直都在使用极其简单的网页示例。然而,绝大多数网页拥有众多结构,包括标题、标头、链接和图片,可我们还一直认为网页只是普通的词表。接下来,我们将探索搜索引擎如何处理网页中的结构。不过,为了尽可能保持简单,我们只会引入一层结构:网页的顶部会有一个标题,之后是页面的正文。上图显示了我们熟悉的三页示例,并附加了一些标题。

实际上,要像搜索引擎一样分析网页结构,我们需要了解更多编写网页的知识。网页是由一种特殊语言编写的,以便网络浏览器能用很好的格式展示它们。(编写网页最常用的语言被称为HTML,不过HTML的细节对本次讨论不重要。)标头、标题、链接、图片等格式化结构是用被称为元词的特殊单词编写的。比如,网页标题开始使用的元词也许是<titleStart>,而结束这个标题的元词可能是<titleEnd>。类似的,网页正文可能是以<bodyStart>开始,以<bodyEnd>结束。不要纠结于“<”、“>”这些符号。它们出现在绝大多数计算机键盘上,人们通常只知道这些符号的数学意义是“大于”和“小于”。不过在这里,这些符号和数学没有任何关系,只是方便的象征,将这些元词和网页中的正常单词区分开来。

和上图一样的网页集,但展示的是用元词编写的情况,而非在网络浏览器中显示的样子。

看一下上面的图。这张图展示的内容和前一张图一样,但显示的是实际编写网页的样子,而非在网络浏览器中显示的样子。绝大多数网络浏览器都能让用户检验网页的原始内容,这需要选择名为“查看网页源代码”的菜单选项——我建议你下次有机会试验一下。(注意,在这里使用的元词,如<titleStart>和<titleEnd>是帮助你理解的虚构的、易于辨认的示例。在真实的HTML中,元词被称作标签(tag)。HTML中开启和结束标题的标签是<title>和</title>——你可以在使用“查看网页源代码”的菜单选项后搜索这些标签。)

在创建一份索引时,囊括所有元词是件很简单的事。无须新把戏:你只要像存储正常单词一样存储元词位置就行。下页的图显示了从带有元词的三个网页中创建的索引。看一下这张图,确保自己理解了其中所有的奥秘。比如,“mat”的项是1-11、2-11,表示“mat”是第1页的第11个词,也是第2页的第11个词。元词位置的解读也一样,“<titleEnd>”的项是1-4、2-4和3-4,也就是说“<titleEnd>”是第1页、第2页和第3页的第4个词。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号