正文

《搜》 神秘技術(shù)配方(2)

搜(第2版) 作者:(美)約翰·巴特爾


所幸的是,布林非凡的數(shù)學(xué)天賦可以解決這個(gè)問題。出生于前蘇聯(lián)的布林,母親是美國(guó)國(guó)家航空航天局的科學(xué)家,父親是大學(xué)的數(shù)學(xué)教授。他在6歲的時(shí)候和家人一起移民到美國(guó)。就讀于馬里蘭郊區(qū)的一所中學(xué)的時(shí)候,他是公認(rèn)的數(shù)學(xué)天才。他提前一年高中畢業(yè),進(jìn)入其父任教的馬里蘭大學(xué)學(xué)習(xí)。一畢業(yè),他很快就進(jìn)入了斯坦福。他非凡的才華使他在斯坦福的日子過得非常悠閑。他告訴我,那里的環(huán)境如此宜人,他上的課大都是非學(xué)術(shù)性的,比如航海、游泳和潛水,他把自己的智能都用在有趣的項(xiàng)目上而不是課程上。

佩奇和布林并肩作戰(zhàn)創(chuàng)造出一種新的評(píng)級(jí)體系,這個(gè)體系重視始于重要來源的鏈接,卻對(duì)始于無關(guān)緊要的網(wǎng)站的鏈接評(píng)價(jià)很低。比如說,有許多鏈接都是指向IBM網(wǎng)站的。這些鏈接可能來自技術(shù)行業(yè)的商業(yè)伙伴(也許是英特爾),也可能來自伊利諾伊郊區(qū)的一個(gè)十幾歲的小編程迷,而這個(gè)孩子建立指向IBM的鏈接的原因是,他剛收到一臺(tái)電腦作為圣誕禮物。算法怎樣確定這兩者誰的等級(jí)更高呢?對(duì)于一個(gè)人類觀察者來說,鑒于其對(duì)IBM在世界上的地位的理解,商業(yè)伙伴是一個(gè)更重要的鏈接。但是等級(jí)算法怎樣才能理解這樣的事實(shí)呢?

佩奇和布林工作的突破性就在于他們發(fā)明了一種新算法。這種算法的名稱取自佩奇的姓(Page),因此叫做PageRank。它可以同時(shí)計(jì)算指向某個(gè)特定網(wǎng)站的鏈接的數(shù)量,以及這些鏈接的來源網(wǎng)站所接入的鏈接數(shù)量。這是對(duì)學(xué)術(shù)文獻(xiàn)引用計(jì)數(shù)的粗略模仿,事實(shí)證明,它是可行的。還是以上面的IBM案例為例,讓我們假設(shè)只有幾個(gè)網(wǎng)站的鏈接指向這個(gè)孩子的網(wǎng)站,再假設(shè)沒有多少網(wǎng)站指向這幾個(gè)網(wǎng)站鏈接。與之形成鮮明的對(duì)比,數(shù)千條鏈接指向英特爾,而且平均起來看,這些網(wǎng)站也擁有上千條指向它們的鏈接。在PageRank體系下,這個(gè)孩子的網(wǎng)站會(huì)被認(rèn)為不如英特爾的網(wǎng)站重要。在這個(gè)例子中,佩奇和布林的分級(jí)方法可以判斷出英特爾比那個(gè)郊區(qū)孩子重要,至少是在同IBM的關(guān)系這一方面。

這不過是一個(gè)簡(jiǎn)化了的說明,當(dāng)然,佩奇和布林還要改正許多運(yùn)算上的死角。總之,更受歡迎的網(wǎng)站在它們的評(píng)級(jí)表上會(huì)被排在頂端,而相對(duì)人氣弱的網(wǎng)站就被排在底部了。

就在他們漫不經(jīng)心地翻看自己所得到的結(jié)果的時(shí)候,布林和佩奇意識(shí)到他們可能發(fā)明了能夠用于網(wǎng)絡(luò)搜索的技術(shù)。事實(shí)上,根據(jù)佩奇的回憶,將經(jīng)過BackRub分級(jí)的網(wǎng)頁用于搜索的想法自然而然就出現(xiàn)了,自然到他們根本就沒有意識(shí)到自己邁出了多么關(guān)鍵的一步。而且,BackRub本身就像搜索引擎一樣工作,你輸入一條URL(網(wǎng)頁地址),它就會(huì)列出一張根據(jù)重要性排序的反向鏈接的列表。“我們意識(shí)到自己擁有了一個(gè)探索工具,一種可以有許多用途的網(wǎng)頁分級(jí)體系。”佩奇回憶道,“它能夠提供全面的網(wǎng)頁評(píng)級(jí)和后續(xù)網(wǎng)頁的排序?!?


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)