大數(shù)據(jù)先鋒
穿孔卡片與美國人口普查
美國在 1880年進(jìn)行的人口普查,耗時 8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過時的。1890年進(jìn)行的人口普查,預(yù)計要花費 13年的時間來匯總數(shù)據(jù)。即使不考慮這種情況違反了憲法規(guī)定,它也是很荒謬的。然而,因為稅收分?jǐn)偤蛧鴷?人數(shù)確定都是建立在人口的基礎(chǔ)上的,所以必須要得到正確的數(shù)據(jù),而且必須是及時的數(shù)據(jù)。美國人口普查局面臨的問題與當(dāng)代商人和科學(xué)家遇到的問題很相似。很明顯,當(dāng)他們被數(shù)據(jù)淹沒的時候,已有的數(shù)據(jù)處理工具已經(jīng)難以應(yīng)付了,所以就需要有更多的新技術(shù)。
后來,美國人口普查局就和當(dāng)時的美國發(fā)明家赫爾曼·霍爾瑞斯(Herman Hollerith)簽訂了一個協(xié)議,用他的穿孔卡片制表機(jī)來完成 1890年的人口普查。
經(jīng)過大量的努力,霍爾瑞斯成功地在 1年時間內(nèi)完成了人口普查。這簡直就是一個奇跡,它標(biāo)志著自動處理數(shù)據(jù)的開端,也為后來 IBM公司的成立奠定了基礎(chǔ)。但是,將其作為收集處理大數(shù)據(jù)的方法依然過于昂貴。畢竟,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計。這么麻煩的情況下,很難想象如果不足十年就要進(jìn)行一次人口普查應(yīng)該怎么辦。但是,對于一個跨越式發(fā)展的國家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。
這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是當(dāng)數(shù)量無比龐大時,這又不太現(xiàn)實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當(dāng)?shù)姆椒ā?1934年,波蘭統(tǒng)計學(xué)家耶日·奈曼(Jerzy Neyman)指出,這只會導(dǎo)致更多更大的漏洞。事實證明,問題的關(guān)鍵是選擇樣本時的隨機(jī)性。
統(tǒng)計學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽起來很不可思議,但事實上,一個對 1 100人進(jìn)行的關(guān)于“是否”問題的抽樣調(diào)查有著很高的精確性,精確度甚至超過了對所有人進(jìn)行調(diào)查時的 97% ②。這是真的,不管是調(diào)查 10萬人還是 1億人, 20次調(diào)查里有 19都是這樣。為什么會這樣?原因很復(fù)雜,但是有一個比較簡單的解釋就是,當(dāng)樣本數(shù)量達(dá)到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。