正文

第84節(jié):歌曲大搜索之哼哼也可以(2)

揭秘微軟亞洲研究院:微軟的夢工場 作者:微軟亞洲研究院


為了尋求哼唱搜索手機鈴聲的可行性,我們同相關(guān)的同事進行了多次討論。最后,我們覺得哼唱搜索和手機鈴聲下載將是一個完美的結(jié)合:

首先,手機鈴聲的下載是一個相當大的市場。有資料顯示2005年全球手機鈴聲業(yè)務(wù)達到令人驚訝的50億美元。

第二,手機作為一個便攜式手提設(shè)備,用鍵盤輸入文本并不太方便。但是,聲音對手機來說卻是一個非常自然的輸入方式,因為手機本身便是用來做聲音交流的。哼唱是聲音的一種。

第三,手機鈴聲通常有多個版本以便用于不同的手機型號,而MIDI版本的手機鈴聲是最基本的。這樣,只要將MIDI同其他格式關(guān)聯(lián)起來,旋律提取便不再是個問題。

第四,通過手機下載手機鈴聲是個一步式的解決方案。不再需要通過電腦等中介系統(tǒng)。

同時,我們也發(fā)現(xiàn)在這個應(yīng)用場景下,直接使用我們以前的方法效果并不理想。新的問題帶來了新的挑戰(zhàn):

第一,在以前系統(tǒng)中,哼唱是通過麥克風(fēng)錄制的,質(zhì)量比較好。在現(xiàn)在的應(yīng)用場景下,我們需要用手機錄制。同時,我們必須還要考慮到錄制時引入的背景噪聲(用戶可能在大街上使用這個系統(tǒng)),還有由于無線傳輸而可能引起的信號畸變。

第二,我們將要面對一個大的多的數(shù)據(jù)庫(通常手機鈴聲庫可能包含1-10萬首鈴聲)。這就要求我們更進一步的提高搜索精度和速度。利用一切可以使用的信息,優(yōu)化旋律模型和節(jié)奏模型。同時需要建立一個更大的開發(fā)集和測試集,來優(yōu)化參數(shù)選擇和性能評價。

當時,由于媒體計算組的重組,我加入了語音組繼續(xù)從事音頻分析和檢索的工作。語音組研究項目負責人Frank Seide和語音組帶頭人宋謌平博士也非常支持這個項目。于是我們就立即開始了分工合作,來搭建一個端到端(end-to-end)的系統(tǒng)原型。其中,我和一個實習(xí)生翁銳浩主要負責哼唱搜索算法的改進,其他幾位同事,包括STC的歐佳凡和WLMC的王曉兵,負責搭建搜索平臺。

重拾哼唱搜索

曉兵和佳凡的工作卓有成效,他們同中國移動的高陽公司合作,很快就搭建了一個系統(tǒng)平臺,并申請了一個臨時聲訊服務(wù)號碼(當時是125905988)。通過這個平臺,我們就可以有效地采集真實數(shù)據(jù)。用戶可以通過手機直接撥打服務(wù)號碼,系統(tǒng)會記錄下每一條哼唱記錄。我記得當時我們有一部手機專門用來做數(shù)據(jù)采集。我們邀請了很多同事和實習(xí)生,把手機交給他們,讓他們留下自己“美妙”的哼哼聲。對于哼唱環(huán)境、哼唱方式、哼唱歌曲,我們都沒有加以限制,以期得到符合用戶習(xí)慣的最真實的數(shù)據(jù)。通過這個系統(tǒng),我們得到了大量的數(shù)據(jù)。

有了真實的數(shù)據(jù),我們就著手算法的改進了。算法的改進主要在兩方面:一是哼唱的旋律提取,我們考慮了不同的背景噪聲和信號畸變,提出了更精確的方法來檢測和分割每一個音符;二是匹配模型的改進,我們使用了隱馬爾科夫模型 來作旋律匹配,明確考慮了哼唱和數(shù)據(jù)庫音樂之間的音符對齊問題,將它更有效地集成到了改進的旋律模型、節(jié)奏模型和匹配時的容錯模型中。我們還提出了一個更加系統(tǒng)化的匹配過程。

經(jīng)過幾個月的努力,我們終于開發(fā)出了一個更高性能的算法。測試顯示,第一位歌曲的正確率 (top 1 accuracy) 達到了82%,在前五位中找到的比率更是接近90%。我們也搭建了一個在線服務(wù)原型:你可以使用你的手機,撥打一個服務(wù)號碼,根據(jù)提示音哼唱一段旋律,你就能得到你要找的手機鈴聲。這也是業(yè)界第一個哼唱搜索手機鈴聲的系統(tǒng)。為了能在中國市場運作,我們還將此技術(shù)轉(zhuǎn)讓給了位于上海的美斯恩有限公司。

我們還把這個技術(shù)展示在微軟一年一度的技術(shù)節(jié)上(TechFest)上, 得到了非常不錯的反響。比爾?蓋茨也過來看了我們的演示。我也第一次獲得了與比爾?蓋茨面對面的機會。后來有在微軟總部雷德蒙工作的同事對我說:“你的演示很成功啊,很多同事回來后還在討論呢?!?/p>

結(jié)束語

哼唱搜索,只是我所經(jīng)歷的眾多項目中的一個。之所以講講它的故事,不僅是因為它是我第一個獨立項目,而且它也讓我懂得,做一個項目,不只是僅僅做一個實驗室算法,而是要系統(tǒng)地綜合地考慮其應(yīng)用場景甚至商業(yè)模型,考慮真實使用環(huán)境并使用大數(shù)量多樣化的真實數(shù)據(jù)。做到這一點,才有可能使你的技術(shù)應(yīng)用于現(xiàn)實生活中,才有機會讓用戶感受到科技改變生活。

我想,無論工業(yè)界的研究員,還是高等院校里的學(xué)生,都可以從這個角度去重新審視一下手中的問題和解決方案。

作者介紹:

蘆烈,2000年加入微軟亞洲研究院,現(xiàn)為語音組研究員。主要研究方向是機器學(xué)習(xí),音頻、音樂的內(nèi)容分析和檢索。他在國際一流期刊和會議上發(fā)表過50多篇論文,擁有近20項專利;曾多次在國際會議上擔任技術(shù)委員會成員。他于2000年獲上海交通大學(xué)電路與系統(tǒng)專業(yè)碩士學(xué)位,現(xiàn)兼于荷蘭代爾夫特理工大學(xué)攻讀博士學(xué)位。他寥有所好,溺于技術(shù)而疏于藝術(shù)。好音樂而做音樂分析,卻常因沒有音樂細胞而心有戚戚。 希望有朝一日自己的研究成果可被廣泛應(yīng)用。


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號