“大象無形”出自老子的《道德經(jīng)》,可以理解為世界上最巍峨的氣勢往往并不拘泥于一定的規(guī)則和格局,而是表現(xiàn)出氣象萬千的形態(tài),無法捉摸。但在大數(shù)據(jù)時(shí)代,這種無法捕捉的“氣”和“形”也許會(huì)隨著技術(shù)的發(fā)展被描繪出來。
全景式觀察與盲人摸象
過去,隨機(jī)抽樣一直被公認(rèn)為一種最有效率的數(shù)據(jù)搜集方法。樣本選擇的科學(xué)性比樣本數(shù)量更重要,統(tǒng)計(jì)學(xué)家這樣告訴我們?nèi)绾尉_預(yù)測。抽樣的目的是用最少的數(shù)據(jù)得到最準(zhǔn)確的信息,抽樣的科學(xué)程度(尤其是樣本的隨機(jī)性和代表性)對于統(tǒng)計(jì)結(jié)果的準(zhǔn)確性至關(guān)重要。在傳統(tǒng)數(shù)據(jù)思維下,尋找更大的樣本量根本沒有必要。因?yàn)楫?dāng)樣本量達(dá)到一定程度后,我們從新增的個(gè)體樣本上獲得的信息只會(huì)越來越少,呈現(xiàn)出邊際效應(yīng)遞減的規(guī)律。因此,并不是數(shù)據(jù)越大越好。
然而,統(tǒng)計(jì)學(xué)家們已經(jīng)開始抱怨抽樣方法的缺陷:它注定讓我們無法觀察事物全面的細(xì)節(jié),抽樣結(jié)果會(huì)受到主觀偏見的影響,有如盲人摸象。有人說,用抽樣的方法分析整體人口狀況時(shí),正確率能達(dá)到97%,但也許正是那被忽略的3%會(huì)完全顛覆已有的結(jié)論,尤其是當(dāng)我們想了解更深層次的微觀情況時(shí),抽樣方法就有些愛莫能助了。例如,1 000人看似是一個(gè)比較大的樣本,但如果將研究對象細(xì)分至一線城市大齡單身女性,符合條件的可能只有10多個(gè)樣本。從這樣小規(guī)模的數(shù)據(jù)中,無法分析出任何有意義的結(jié)論。
即便不抽樣,動(dòng)員大量人力、物力進(jìn)行普查,也是在事先確定調(diào)研問題和被訪問人群后才開始執(zhí)行的。從有限的問卷題目中,注定只能看到事物的某幾個(gè)方面,無法獲得更加客觀和深入的信息。
以前由于缺乏存儲(chǔ)和處理全量數(shù)據(jù)的工具,我們通常把這種無奈看作理所當(dāng)然。在大數(shù)據(jù)時(shí)代,“樣本=全體”的數(shù)據(jù)處理模式已經(jīng)成為可能。我們可以分析更多的數(shù)據(jù),而不再依賴于隨機(jī)抽樣。
谷歌可以提供谷歌流感趨勢的原因就在于它幾乎覆蓋了7成以上的北美網(wǎng)絡(luò)搜索市場,而在這些數(shù)據(jù)中,已經(jīng)完全沒有必要抽樣調(diào)查這些數(shù)據(jù):所有的記錄都在數(shù)據(jù)倉庫躺著等待人們挖掘和分析。