正文

《大數(shù)據(jù)時(shí)代》全數(shù)據(jù)模式,樣本=總體(2)

大數(shù)據(jù)時(shí)代 作者:(英)維克托·邁爾-舍恩伯格


通過使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會(huì)在大量數(shù)據(jù)中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識(shí)別的,只有掌握了所有的數(shù)據(jù)才能做到這一點(diǎn)。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進(jìn)行對(duì)比。這是一個(gè)大數(shù)據(jù)問題。而且,因?yàn)榻灰资羌磿r(shí)的,所以你的數(shù)據(jù)分析也應(yīng)該是即時(shí)的。

大數(shù)據(jù)先鋒

Xoom與跨境匯款異常交易報(bào)警

Xoom是一個(gè)專門從事跨境匯款業(yè)務(wù)的公司,它得到了很多擁有大數(shù)據(jù)的大公司的支持。它會(huì)分析一筆交易的所有相關(guān)數(shù)據(jù),一旦發(fā)現(xiàn)用“發(fā)現(xiàn)卡”從新澤西州匯款的交易比平常多的話,系統(tǒng)就會(huì)報(bào)警。 Xoom公司的首席執(zhí)行官約翰·孔澤(John Kunze)解釋說:“這個(gè)系統(tǒng)關(guān)注的是不應(yīng)該出現(xiàn)的情況。”單獨(dú)來看,每筆交易都是合法的,但是事實(shí)證明這是一個(gè)犯罪集團(tuán)在試圖詐騙。而發(fā)現(xiàn)異常的唯一方法就是,重新檢查所有的數(shù)據(jù),找出樣本分析法錯(cuò)過的信息。然而,使用所有的數(shù)據(jù)并不代表這是一項(xiàng)艱巨的任務(wù)。大數(shù)據(jù)中的“大”不是絕對(duì)意義上的大,雖然在大多數(shù)情況下是這個(gè)意思。谷歌流感趨勢預(yù)測建立在數(shù)億的數(shù)學(xué)模型上,而它們又建立在數(shù)十億數(shù)據(jù)節(jié)點(diǎn)的基礎(chǔ)之上。完整的人體基因組有約 30億個(gè)堿基對(duì)。但這只是單純的數(shù)據(jù)節(jié)點(diǎn)的絕對(duì)數(shù)量,并不代表它們就是大數(shù)據(jù)。大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。谷歌流感趨勢和喬布斯的醫(yī)生們采取的就是大數(shù)據(jù)的方法。

日本國民體育運(yùn)動(dòng)“相撲”中非法操縱比賽結(jié)果的發(fā)現(xiàn),就恰到好處地說明了使用“樣本 =總體”這種全數(shù)據(jù)模式的重要性。消極比賽一直被極力禁止,備受譴責(zé),很多運(yùn)動(dòng)員深受困擾。芝加哥大學(xué)的一位很有前途的經(jīng)濟(jì)學(xué)家斯蒂夫·列維特( Steven Levitt),在《美國經(jīng)濟(jì)評(píng)論》上發(fā)表了一篇研究論文,其中提到了一種發(fā)現(xiàn)這個(gè)情況的方法:查看運(yùn)動(dòng)員過去所有的比賽資料。他的暢銷書《魔鬼經(jīng)濟(jì)學(xué)》(Freakonomics)中也提到了這個(gè)觀點(diǎn),他認(rèn)為檢查所有的數(shù)據(jù)是非常有價(jià)值的。

列維特和他的同事馬克·達(dá)根( Mark Duggan)使用了 11年中超過 64 000場摔跤比賽的記錄,來尋找異常性。他們獲得了重大的發(fā)現(xiàn)。非法操縱比賽結(jié)果的情況確實(shí)時(shí)有發(fā)生,但是不會(huì)出現(xiàn)在大家很關(guān)注的比賽上。冠軍賽也有可能被操縱,但是數(shù)據(jù)顯示消極比賽主要還是出現(xiàn)在不太被關(guān)注的聯(lián)賽的后幾場中。這時(shí)基本上沒有什么風(fēng)險(xiǎn),因?yàn)檫x手根本就沒有獲獎(jiǎng)的希望。


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)