正文

第74節(jié):微軟對(duì)聯(lián)背后的故事(2)

揭秘微軟亞洲研究院:微軟的夢(mèng)工場(chǎng) 作者:微軟亞洲研究院


評(píng)論二:

我也從來沒有在家門貼春聯(lián)的習(xí)慣,但是老爸喜愛書法藝術(shù),也略有小成,用著這套好玩的微軟對(duì)聯(lián)機(jī),心想:趕著春節(jié)將至,不如編個(gè)春聯(lián)讓老爸寫寫,也蠻熱鬧喜慶的,即成上聯(lián):木土杜家喜迎吉祥鼠,對(duì)聯(lián)機(jī)略做運(yùn)算即成下聯(lián):車干軒戶春接富貴人,橫批:駿業(yè)順風(fēng)?!?/p>

我常常在思考,這個(gè)微軟對(duì)聯(lián)系統(tǒng)究竟有什么值得總結(jié)的地方??吹轿④泴?duì)聯(lián),再看到這么多網(wǎng)上的評(píng)論,我的腦海里就總象在放電影一樣,把這個(gè)歷程里出現(xiàn)的人物和有趣的事情一幕一幕地閃現(xiàn)出來。值此微軟研究院十周年之際,我想確實(shí)應(yīng)該趁現(xiàn)在記憶還清晰的時(shí)候,把這段歷史好好地總結(jié)一下,以便讓十年、二十年之后的人們還能夠看到曾經(jīng)發(fā)生的有趣的故事。

誓與李敖比高低

微軟對(duì)聯(lián)這個(gè)項(xiàng)目,跟前任院長沈向洋大有淵源。此事說來有點(diǎn)話長了。

2004年底的時(shí)候,沈向洋把我叫去,說搞個(gè)自動(dòng)對(duì)聯(lián)吧。所謂自動(dòng)對(duì)聯(lián),就是說人出上聯(lián),由計(jì)算機(jī)對(duì)出下聯(lián)。他之前跟幾個(gè)人都聊過這個(gè)設(shè)想,所有的人都告訴他別想了,不可能做出來。他失望,不甘心,反復(fù)提起來?!胺凑闶窃洪L,你說做就做吧?!贝蠹艺f。有點(diǎn)像傣族的潑水節(jié),潑的都是冷水。

他跟我說你能做也得做,不能做也得做。我說我肯定做,而且肯定能做出來。不過,要允許下聯(lián)有多個(gè)候選,還要允許人機(jī)交互。另外,我需要時(shí)間。我當(dāng)時(shí)可說是窮困潦倒,自然語言組不足10人,有兩名骨干即將轉(zhuǎn)到微軟別的部門去。還有幾個(gè)項(xiàng)目同時(shí)在做技術(shù)轉(zhuǎn)移,包括搜索引擎的拼寫檢查。大家還要趕寫很多文章。我就從清華大學(xué)中文系招了一位同學(xué),他的名字是馬艷軍,聽上去像一個(gè)女孩的名字,人也是彬彬有禮的。

我設(shè)計(jì)了一個(gè)簡單的模型,把對(duì)聯(lián)的生成過程看作是一個(gè)翻譯的過程。給定一個(gè)上聯(lián),根據(jù)字的對(duì)應(yīng)和詞的對(duì)應(yīng),生成很多選字和候選詞,得到一個(gè)從左到右相互關(guān)聯(lián)的詞圖,然后根據(jù)一個(gè)動(dòng)態(tài)規(guī)劃算法,求一個(gè)最好的下聯(lián)出來。一個(gè)好的下聯(lián)其評(píng)價(jià)標(biāo)準(zhǔn)也很簡單,第一就是它跟上聯(lián)的對(duì)應(yīng)程度,一般用詞和詞的對(duì)應(yīng)概率來代表,第二就是生成對(duì)聯(lián)的語言模型,就是衡量它像不像一個(gè)對(duì)聯(lián)。馬艷軍在我的指導(dǎo)下,在兩個(gè)多月的時(shí)間里,根據(jù)這個(gè)思路,就做了一個(gè)簡單的對(duì)聯(lián)生成系統(tǒng)出來。我于是向沈向洋報(bào)告進(jìn)展,這也是沈向洋第一次審核這個(gè)項(xiàng)目。

在他辦公室里,我給他看了這個(gè)簡單的系統(tǒng)輸出的幾個(gè)結(jié)果。他看過之后,很驚訝地說,看來我們有戲呀,繼續(xù)努力吧!馬艷軍三個(gè)月之后,導(dǎo)師要求他回去,我只好去找語音組幫忙提供新的學(xué)生。我曾經(jīng)在語音組干過半年的經(jīng)理,有點(diǎn)人緣。周健來很慷慨地介紹了吳法洲同學(xué),他是清華軟件學(xué)院的研究生,曾經(jīng)幫助健來做了手機(jī)上的輸入法。吳法洲同學(xué)來了之后不久,我又請(qǐng)我的實(shí)習(xí)生蔣龍同學(xué)加入。后來沈向洋讓他在北航的預(yù)定將來要讀他的博士的兩位實(shí)驗(yàn)學(xué)院的大四同學(xué)加入這個(gè)研究小組。女孩子叫陶李天,男孩子叫蘇昊。我當(dāng)時(shí)又請(qǐng)了北京大學(xué)中文系的兩位同學(xué)整理從網(wǎng)絡(luò)上挖掘的對(duì)聯(lián)數(shù)據(jù)以及生成的對(duì)聯(lián)詞典。

后來是每隔三個(gè)月,沈向洋就會(huì)安排一次評(píng)審。每一次都鼓勵(lì)說,大有進(jìn)步。每一次都強(qiáng)調(diào)“要多挖數(shù)據(jù)呀,沒有數(shù)據(jù)不行啊”。為了加強(qiáng)數(shù)據(jù)挖掘,他特別請(qǐng)王堅(jiān)派人幫助加強(qiáng)數(shù)據(jù)挖掘。王堅(jiān)就派了陳偉柱來,我就請(qǐng)偉柱幫助從網(wǎng)絡(luò)上挖掘更多的對(duì)聯(lián)數(shù)據(jù)。偉柱果真了不起,在兩個(gè)月的時(shí)間里,很快挖掘了大批的對(duì)聯(lián)數(shù)據(jù)。有了更多的數(shù)據(jù),系統(tǒng)的性能得到了大幅度的提升。然后大家就討論能不能把橫批做出來。蔣龍同學(xué)很聰明,在一次開會(huì)的時(shí)候提出了一個(gè)方案——通過語義距離計(jì)算來和已有的上聯(lián)、下聯(lián)的句子最佳匹配的橫批。蘇昊根據(jù)這個(gè)方案實(shí)現(xiàn)了橫批模塊。我們于是就盼望著下一次給沈向洋做匯報(bào)的時(shí)候給他一個(gè)驚喜。當(dāng)時(shí)的院長助理李世鵬安排了時(shí)間。在五樓的一個(gè)會(huì)議室里面,我給沈向洋和李世鵬演示了最新的對(duì)聯(lián)系統(tǒng)。沈向洋出了一個(gè)上聯(lián):“李敖對(duì)聯(lián)強(qiáng)”,電腦沉思了一毫秒,對(duì)出來“魯迅絕句多”。沈向洋說:“不錯(cuò),那么橫批呢”。這時(shí)候我很忐忑,鬼才知道會(huì)對(duì)出來個(gè)爺爺還是奶奶。瞬間結(jié)果出來了,系統(tǒng)對(duì)出來的橫批是“語妙天下”。沈向洋一拍桌子,說“絕了!”。


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)