正文

《大數(shù)據(jù)時(shí)代》全數(shù)據(jù)模式,樣本=總體(1)

大數(shù)據(jù)時(shí)代 作者:(英)維克托·邁爾-舍恩伯格


在信息處理能力受限的時(shí)代,世界需要數(shù)據(jù)分析,卻缺少用來分析所收集數(shù)據(jù)的工具,因此隨機(jī)采樣應(yīng)運(yùn)而生,它也可以被視為那個(gè)時(shí)代的產(chǎn)物。如今,計(jì)算和制表不再像過去一樣困難。感應(yīng)器、手機(jī)導(dǎo)航、網(wǎng)站點(diǎn)擊和 twitter被動(dòng)地收集了大量數(shù)據(jù),而計(jì)算機(jī)可以輕易地對(duì)這些數(shù)據(jù)進(jìn)行處理。

采樣的目的就是用最少的數(shù)據(jù)得到最多的信息。當(dāng)我們可以獲得海量數(shù)據(jù)的時(shí)候,它就沒有什么意義了。數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生了翻天覆地的改變,但我們的方法和思維卻沒有跟上這種改變。

然而,采樣一直有一個(gè)被我們廣泛承認(rèn)卻又總有意避開的缺陷,現(xiàn)在這個(gè)缺陷越來越難以忽視了。采樣忽視了細(xì)節(jié)考察。雖然我們別無選擇,只能利用采樣分析法來進(jìn)行考察,但是在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生了。如果可能的話,我們會(huì)收集所有的數(shù)據(jù),即“樣本 =總體”。

正如我們所看到的,“樣本 =總體”是指我們能對(duì)數(shù)據(jù)進(jìn)行深度探討,而采樣幾乎無法達(dá)到這樣的效果。上面提到的有關(guān)采樣的例子證明,用采樣的方法分析整個(gè)人口的情況,正確率可達(dá) 97%。對(duì)于某些事物來說, 3%的錯(cuò)誤率是可以接受的。但是你無法得到一些微觀細(xì)節(jié)的信息,甚至還會(huì)失去對(duì)某些特定子類別進(jìn)行進(jìn)一步研究的能力。正態(tài)分布是標(biāo)準(zhǔn)的。生活中真正有趣的事情經(jīng)常藏匿在細(xì)節(jié)之中,而采樣分析法卻無法捕捉到這些細(xì)節(jié)。

谷歌流感趨勢(shì)預(yù)測(cè)并不是依賴于對(duì)隨機(jī)樣本的分析,而是分析了整個(gè)美國幾十億條互聯(lián)網(wǎng)檢索記錄。分析整個(gè)數(shù)據(jù)庫,而不是對(duì)一個(gè)樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性,甚至能夠推測(cè)出某個(gè)特定城市的流感狀況,而不只是一個(gè)州或是整個(gè)國家的情況。 Farecast的初始系統(tǒng)使用的樣本包含 12 000個(gè)數(shù)據(jù),所以取得了不錯(cuò)的預(yù)測(cè)結(jié)果。但是隨著奧倫·埃齊奧尼不斷添加更多的數(shù)據(jù),預(yù)測(cè)的結(jié)果越來越準(zhǔn)確。最終, Farecast使用了每一條航線整整一年的價(jià)格數(shù)據(jù)來進(jìn)行預(yù)測(cè)。埃齊奧尼說:“這只是一個(gè)暫時(shí)性的數(shù)據(jù),隨著你收集的數(shù)據(jù)越來越多,你的預(yù)測(cè)結(jié)果會(huì)越來越準(zhǔn)確?!?/p>

所以,我們現(xiàn)在經(jīng)常會(huì)放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù)。我們需要足夠的數(shù)據(jù)處理和存儲(chǔ)能力,也需要最先進(jìn)的分析技術(shù)。同時(shí),簡(jiǎn)單廉價(jià)的數(shù)據(jù)收集方法也很重要。過去,這些問題中的任何一個(gè)都很棘手。在一個(gè)資源有限的時(shí)代,要解決這些問題需要付出很高的代價(jià)。但是現(xiàn)在,解決這些難題已經(jīng)變得簡(jiǎn)單容易得多。曾經(jīng)只有大公司才能做到的事情,現(xiàn)在絕大部分的公司都可以做到了。


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)