據(jù)他們估算:2007年,人類大約存儲了超過300EB的數(shù)據(jù);1986~2007年,全球數(shù)據(jù)存儲能力每年提高23%,雙向通信能力每年提高28%,通用計算能力每年提高58%;預(yù)計到2013年,世界上存儲的數(shù)據(jù)能達到約1.2ZB。
這樣大的數(shù)據(jù)量意味著什么?據(jù)估算,如果把這些數(shù)據(jù)全部記在書中,這些書可以覆蓋整個美國52次。如果存儲在只讀光盤上,這些光盤可以堆成5堆,每堆都可以伸到月球。在公元前3世紀,希臘時代最著名的圖書館亞歷山大圖書館竭力搜集了當(dāng)時其所能搜集到的書寫作品,可以代表當(dāng)時世界上其所能搜集到的知識量。但當(dāng)數(shù)字數(shù)據(jù)洪流席卷世界之后,每個人都可以獲得大量數(shù)據(jù)信息,相當(dāng)于當(dāng)時亞歷山大圖書館存儲的數(shù)據(jù)總量的320倍之多。
多樣性
隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的飛速發(fā)展,組織中的數(shù)據(jù)也變得更加復(fù)雜,因為它不僅包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)日志文件(包括點擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
在大數(shù)據(jù)時代,數(shù)據(jù)格式變得越來越多樣,涵蓋了文本、音頻、圖片、視頻、模擬信號等不同的類型;數(shù)據(jù)來源也越來越多樣,不僅產(chǎn)生于組織內(nèi)部運作的各個環(huán)節(jié),也來自于組織外部。例如,在交通領(lǐng)域,北京市交通智能化分析平臺數(shù)據(jù)來自路網(wǎng)攝像頭/傳感器、公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業(yè),還有問卷調(diào)查和地理信息系統(tǒng)數(shù)據(jù)。4萬輛浮動車每天產(chǎn)生2 000萬條記錄,交通卡刷卡記錄每天1 900萬條,手機定位數(shù)據(jù)每天1 800萬條,出租車運營數(shù)據(jù)每天100萬條,電子停車收費系統(tǒng)數(shù)據(jù)每天50萬條,定期調(diào)查覆蓋8萬戶家庭,等等,這些數(shù)據(jù)在體量和速度上都達到了大數(shù)據(jù)的規(guī)模。發(fā)掘這些形態(tài)各異、快慢不一的數(shù)據(jù)流之間的相關(guān)性,是大數(shù)據(jù)做前人之未做、能前人所不能的機會。
大數(shù)據(jù)不僅是處理巨量數(shù)據(jù)的利器,更為處理不同來源、不同格式的多元化數(shù)據(jù)提供了可能。例如,為了使計算機能夠理解人的意圖,人類就必須要將需解決的問題的思路、方法和手段通過計算機能夠理解的形式告訴計算機,使得計算機能夠根據(jù)人的指令一步一步工作,完成某種特定的任務(wù)。在以往,人們只能通過編程這種規(guī)范化計算機語言發(fā)出指令。隨著自然語言處理技術(shù)的發(fā)展,人們可以用計算機處理自然語言,實現(xiàn)人與計算機之間基于文本和語音的有效通信。為此,還出現(xiàn)了專門提供結(jié)構(gòu)化語言解決方案的組織—語言數(shù)據(jù)公司。自然語言無疑是一個新的數(shù)據(jù)來源,而且也是一種更復(fù)雜、更多樣的數(shù)據(jù),它包含諸如省略、指代、更正、重復(fù)、強調(diào)、倒序等大量的語言現(xiàn)象,還包括噪聲、含混不清、口頭語和音變等語音現(xiàn)象。