正文

搜索引擎索引——在世界上最大的草垛中尋針(6)

改變未來的九大算法 作者:(美)約翰·麥考密克


排名和鄰度

到目前為止,我們一直專注于匹配階段:為一個給出的查詢高效地找出所有命中的問題。不過正如之前強(qiáng)調(diào)的,第二個階段“排名”對于一個高質(zhì)量的搜索引擎是絕對必不可少的:這是挑選出前幾個命中并展示給用戶的階段。

讓我們更細(xì)致地來檢驗排名的概念。一個網(wǎng)頁的“排名”究竟取決于什么?真正的問題不是“這個網(wǎng)頁和查詢匹配嗎”,而是“這個網(wǎng)頁和查詢相關(guān)嗎”。計算機(jī)科學(xué)家們使用“相關(guān)度”(relevance)這個術(shù)語來形容一個結(jié)果網(wǎng)頁和某個特定查詢有多么相配或多么有用。

舉個具體的例子,假設(shè)你對導(dǎo)致瘧疾的原因感興趣,并在一個搜索引擎中輸入查詢malaria cause(導(dǎo)致瘧疾)。簡化考慮,假設(shè)搜索引擎對這一查詢只有兩個命中——下圖顯示的兩個網(wǎng)頁?,F(xiàn)在來看看這兩個網(wǎng)頁。作為人類,你很快就知道第1頁和瘧疾起因有關(guān),而第2頁似乎是對剛剛發(fā)生的一些軍事行動的描述,只不過恰巧使用了“cause”和“malaria”這兩個詞。因此,和第2頁相比,第1頁無疑和查詢malaria cause更具相關(guān)性。可計算機(jī)不是人,讓計算機(jī)理解這兩頁的主題也很難,似乎不可能讓搜索引擎正確地對這兩個命中進(jìn)行排名。

不過,事實上,有一種很簡單的方法讓這個例子中的排名正確。查詢詞彼此相鄰的網(wǎng)頁比那些查詢詞相距很遠(yuǎn)的網(wǎng)頁相關(guān)度更高。在瘧疾這個例子中,“malaria”和“cause”在第1頁中僅相距1個詞,而在第2頁中則相距17個詞。(記住,搜索引擎只通過查看索引項就能高效地發(fā)現(xiàn)這一點,無須返回查看網(wǎng)頁。)因此,盡管計算機(jī)并不真正地“理解”查詢的主題,它也能猜測網(wǎng)頁1比網(wǎng)頁2更具相關(guān)性,因為網(wǎng)頁1查詢詞之間的距離要比網(wǎng)頁2更近。

總而言之,盡管人們不經(jīng)常使用NEAR查詢,搜索引擎也在不斷地使用和鄰度有關(guān)的信息,提高搜索排名。而它們能高效地做到這點的原因則是,它們使用詞位置把戲。

一個網(wǎng)頁范例集,每個網(wǎng)頁都有一個標(biāo)題和一段正文。

我們已經(jīng)了解到,早在距今5 000年以前,巴比倫人就開始使用索引。而詞定位把戲也不是由搜索引擎發(fā)明的:這是互聯(lián)網(wǎng)出現(xiàn)以前,另一種信息檢索中用到的著名技術(shù)。不過,在下一部分,我們將了解一個看起來的確是由搜索引擎設(shè)計者發(fā)明的新把戲:元詞把戲(metaword trick)。對這一把戲和眾多相關(guān)思想的精巧運用,使AltaVista搜索引擎在20世紀(jì)90年代晚期迅速成為搜索行業(yè)的領(lǐng)頭羊。


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號