拉里幾乎是偶然地撞入了創(chuàng)建搜索引擎之路,推動他的是兩股不同的力量――一個政府資助的研究項目和互聯(lián)網(wǎng)的興盛。他們的工作受到了一個名為“數(shù)字圖書館倡議”的研究項目的資助,該項目的啟動是國防部的一個嘗試,旨在以電子手段更容易地搜索到計算機研究論文。
“數(shù)字圖書館倡議”原本與互聯(lián)網(wǎng)無關,它在1994年還沒有成為數(shù)字世界的重要力量。斯坦福政府原來的撥款提案甚至沒有提及互聯(lián)網(wǎng)。
但在1994年,網(wǎng)景通信公司推出了具有圖形界面的Web瀏覽器。接下來的一年里,整個世界突然有了一個存儲和共享一切信息的系統(tǒng),這使得“數(shù)字圖書館倡議”成為昨日黃花。也是在這一年,雅虎公司成立?!盎ヂ?lián)網(wǎng)完全改變了我們腳下的一切?!睍r任斯坦福大學計算機科學系主任的埃克托爾.加西亞 莫利納教授說。
每當一種新技術出現(xiàn)時,很少有人真正懂得怎樣去恰當運用。通常只有第二代公司才能取得實質(zhì)性進展。對于搜索引擎而言,這確是事實。在整個20世紀90年代,搜索引擎先是根據(jù)某站點的特定關鍵詞的發(fā)現(xiàn)次數(shù)來檢索網(wǎng)頁。這些引擎并未利用互聯(lián)網(wǎng)的互聯(lián)特性,只是尋找站點、存儲信息。互聯(lián)網(wǎng)所要求的新技術尚不存在。是拉里締造了它。
當谷歌的搜索引擎在1998年12月正式推出時,它在一個杰出特質(zhì)方面卓爾不群:它確實管用。
它的核心是PageRank系統(tǒng),這是由拉里(并以其名字命名)在攻讀博士期間發(fā)明的。它利用了網(wǎng)絡的獨特優(yōu)勢――與其名稱如此貼切的互聯(lián)網(wǎng)絡。
加西亞 莫利納回憶了公司起步階段的點點滴滴。他是佩奇的顧問,1995年的一天,他的學生走進辦公室,給他看所發(fā)現(xiàn)的巧妙把戲。AltaVista搜索引擎不僅從各個站點收集關鍵詞,還能顯示出與其鏈接的其他網(wǎng)站。AltaVist并沒有以谷歌的方式利用這一鏈接信息,但那天在加西亞 莫利納的辦公室里,佩奇暗示這是一個排名網(wǎng)站重要程度的好辦法。
起先,這只是一個游戲?!拔覀兡翘旌荛_心,一直在看哪些計算機科學網(wǎng)頁在各個大學中最受歡迎。”加西亞 莫利納回憶道。他們高興地發(fā)現(xiàn),像斯坦福大學的數(shù)據(jù)庫小組就比對手威斯康星大學的類似部門吸引了更多鏈接。
拉里對于鏈接有自己的看法。他告訴加西亞 莫利納:“既然它對我們?nèi)绱酥匾?,為什么不把它作為搜索程序的一部分??/p>
拉里的想法是受其科學背景的啟發(fā)。眾所周知,在科學界,當研究人員在自己的論文中引用你的論文時,就會提高你的論文的可信度。你被引用的次數(shù)越多,你的論文就越被科學界關注。這個想法體現(xiàn)在尤金.加菲爾德(Eugene Garfield)1960年創(chuàng)建的科學引文索引數(shù)據(jù)庫上,尤金是科學情報研究所的創(chuàng)始人。拉里推斷,網(wǎng)絡鏈接與科學引文相似,鏈接最多的引文,可能就是最受研究人員歡迎的引文,并將被證明最為有用。這些站點應該在搜索結果中首先列出。然后他開始開發(fā)自己的軟件,用于分析站點之間的鏈接。
這需要一些棘手的程序。該系統(tǒng)不僅需要計算某個特定站點的鏈接次數(shù),還要進一步確定所鏈接網(wǎng)站的重要性。這要通過計算對反向鏈接網(wǎng)站的鏈接數(shù)來實現(xiàn),從而大大增加了分析的復雜性。為了計算相關性,PageRank還必須反向追蹤兩步鏈接,并將數(shù)據(jù)與關鍵詞關聯(lián)。鑒于該系統(tǒng)反向追蹤鏈接的特性,拉里最初稱其為BackRub,但他后來將其命名為更復雜的PageRank,這是他姓氏的雙關語。
也是出于偶然,謝爾蓋開始了搜索引擎的研究。在斯坦福大學主修數(shù)學和計算機科學博士課程時,他在數(shù)據(jù)庫小組里致力于一個研究項目。1995年,他和布賴恩.蘭特試圖研究另一種被稱為“關聯(lián)數(shù)據(jù)挖掘”(associative data mining)的計算機科學方法。這個過程是用來尋找往往同時發(fā)生的信息片段。零售商用它來查詢其銷售記錄,并確定客戶是否經(jīng)常一并購買其他物品。不過,數(shù)據(jù)挖掘是計算機科學的一個新領域。它需要存儲大量的網(wǎng)絡數(shù)據(jù),所以謝爾蓋不得不寫了一個“爬蟲”(Crawler)程序――用來訪問網(wǎng)站、總結其內(nèi)容并在研究生和搜索公司可以訪問的中心位置存儲數(shù)據(jù)的軟件。其他搜索引擎已經(jīng)有了自己的爬蟲程序。
謝爾蓋是一個了不起的程序員和工程師。他的互聯(lián)網(wǎng)數(shù)據(jù)挖掘工作涉及對海量數(shù)據(jù)的解析。“他的大手筆其他人根本不會去考慮?!敝x爾蓋的顧問杰弗里.烏爾曼(Jeffrey Ullman)說。(謝爾蓋關于谷歌搜索引擎概況的論文,被他自己在另一篇科學論文《服務質(zhì)量和電子報紙:Etel解決方案》中引用。)
謝爾蓋也是一個聰明的硬件工程師。他需要磁盤驅(qū)動器來存儲所收集的數(shù)據(jù),但是他資金不足,所以他買下了所能找到的最便宜的驅(qū)動器。但是當他試用時,驅(qū)動器卻不夠快。謝爾蓋沒有將它們?nèi)拥簦窍氤隽艘粋€辦法,通過加倍驅(qū)動器接口的終端數(shù)量,總算使它們可以使用?!拔覐奈聪脒^這么做,”烏爾曼說,“這是一流的工程技術。”
1995年年底,拉里和謝爾蓋各自的項目使兩人走到了一起?!拔液屠锪牧撕芏啵敝x爾蓋回憶說,“我們相處得很愉快?!比绻镆阉骶W(wǎng)頁,他也需要一個爬蟲。所以他招募謝爾蓋參與數(shù)字圖書館項目,將他的搜索技術和謝爾蓋的網(wǎng)絡爬蟲結合起來。
這是一個偉大的結合。“謝爾蓋喜歡數(shù)學方面的東西,”斯坦福大學教授安德烈亞斯.佩普基(Andreas Paepcke)說,他負責數(shù)字圖書館項目?!袄镏幌矚g開發(fā)。這正好合乎成長之道。”
另一位與拉里和謝爾蓋共事的斯坦福大學研究生斯科特.哈?;貞浾f,那個項目主要以拉里為主?!皩τ诶锒裕鞘撬钪匾氖虑?。謝爾蓋的參與只是因為感興趣。”他們常常工作到深夜,在供應5美元“學生特餐”的帕羅奧多“新選擇”餐館編寫網(wǎng)頁索引,并進行解析。他們經(jīng)常忙碌到凌晨5點。