正文

05 統(tǒng)計學(xué)家的大數(shù)據(jù)“狂想曲”(2)

看穿一切數(shù)字的統(tǒng)計學(xué) 作者:(日)西內(nèi)啟


表2–1 專業(yè)術(shù)語簡單介紹

數(shù)據(jù)挖掘 從已經(jīng)存在的大量數(shù)據(jù)中找出有價值的信息和假設(shè)的方法,被稱為數(shù)據(jù)挖掘。這種方法在擁有一定準(zhǔn)確度的前提下更加重視速度,通過重復(fù)比較簡單的計算過程就能夠?qū)崿F(xiàn),所以應(yīng)用比較廣泛。最常見的例子是對超市的POS(銷售終端)數(shù)據(jù)進行數(shù)據(jù)挖掘,結(jié)果顯示同時購買尿片與啤酒的概率出人意料得高。

文本挖掘 對文字進行數(shù)據(jù)分析的方法。將語言學(xué)的方法延展,使其也能夠應(yīng)用于商務(wù)活動。通過被稱為語素分析(將文章拆分成單詞)的過程,對出現(xiàn)過的某些單詞,以及單詞之間的關(guān)聯(lián)性進行分析。

Exadata

系統(tǒng) 常年以來,一直占據(jù)數(shù)據(jù)庫業(yè)界老大地位的甲骨文公司經(jīng)過巨額收購后終于完成的大數(shù)據(jù)相關(guān)主力商品。在軟件和硬件兩方面都能夠最快地分散數(shù)據(jù)進行高速處理。性能和價格都很高。

Greenplum系統(tǒng) Exadata系統(tǒng)的競爭對手。充分地利用了開源技術(shù),比Exadata系統(tǒng)便宜很多,同時也能夠?qū)嫶蟮臄?shù)據(jù)進行高速處理。

分散處理 對于難以處理的龐大數(shù)據(jù),如果分散到100臺服務(wù)器上分別處理,最后將結(jié)果統(tǒng)計一下就能夠得到比單一處理高100倍的效率。由于數(shù)據(jù)的構(gòu)造和計算程序算法的不同,想要實現(xiàn)“完美分散后統(tǒng)計結(jié)果”所消耗的時間也不同,這是這種方法最大的難點所在。

內(nèi)存

數(shù)據(jù)庫 為了提高數(shù)據(jù)讀寫的速度,將數(shù)據(jù)記錄在內(nèi)存(RAM)上的方法。當(dāng)然,如果切斷電源數(shù)據(jù)就會消失,所以為了彌補這一缺陷嘗試使用SSD(固態(tài)硬盤)和RAM相結(jié)合的方法。


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號