123,123,123

內(nèi)容簡介

　　本書是使用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析的實(shí)戰(zhàn)寶典，由知名數(shù)據(jù)科學(xué)家撰寫。本書在第1版的基礎(chǔ)上，針對Spark近年來的發(fā)展，對樣例代碼和所使用的資料進(jìn)行了大量更新。新版Spark使用了全新的核心API，MLlib和Spark SQL兩個(gè)子項(xiàng)目也發(fā)生了較大變化，本書為關(guān)注Spark發(fā)展趨勢的讀者提供了與時(shí)俱進(jìn)的資料，例如Dataset和DataFrame的使用，以及與DataFrame API高度集成的Spark ML API。

作者簡介

　　【作者簡介】桑迪·里扎（Sandy Ryza），Spark項(xiàng)目代碼提交者、Hadoop項(xiàng)目管理委員會委員，Time Series for Spark項(xiàng)目創(chuàng)始人。曾任Cloudera公司高級數(shù)據(jù)科學(xué)家，現(xiàn)就職于Remix公司從事公共交通算法開發(fā)。于里·萊瑟森（Uri Laserson），MIT博士畢業(yè)，致力于用技術(shù)解決遺傳學(xué)問題，曾利用Hadoop生態(tài)系統(tǒng)開發(fā)了可擴(kuò)展的基因組學(xué)和免疫學(xué)技術(shù)。目前是西奈山伊坎醫(yī)學(xué)院遺傳學(xué)助理教授，曾任Cloudera公司核心數(shù)據(jù)科學(xué)家。肖恩·歐文（Sean Owen），Spark、Mahout項(xiàng)目代碼提交者，Spark項(xiàng)目管理委員會委員?，F(xiàn)任Cloudera公司數(shù)據(jù)科學(xué)總監(jiān)。喬希·威爾斯（Josh Wills），Crunch項(xiàng)目發(fā)起人，現(xiàn)任Slack公司數(shù)據(jù)工程主管。曾任Cloudera公司高級數(shù)據(jù)科學(xué)總監(jiān)。【譯者簡介】龔少成現(xiàn)任萬達(dá)科技集團(tuán)數(shù)據(jù)工程部總經(jīng)理，清華大學(xué)自動(dòng)化系研究生畢業(yè)，國內(nèi)專注企業(yè)級大數(shù)據(jù)平臺建設(shè)的先驅(qū)者之一，曾經(jīng)在Intel和Cloudera公司擔(dān)任大數(shù)據(jù)技術(shù)負(fù)責(zé)人，Cloudera公司認(rèn)證大數(shù)據(jù)培訓(xùn)講師。邱鑫畢業(yè)于武漢大學(xué)，目前就職于英特爾亞太研發(fā)有限公司，是Intel大數(shù)據(jù)團(tuán)隊(duì)高級工程師。主要研究大數(shù)據(jù)與深度學(xué)習(xí)技術(shù)，是基于Spark的深度學(xué)習(xí)框架BigDL的核心貢獻(xiàn)者。

圖書目錄

推薦序 ix
譯者序　xi
序　xiii
前言　xv
第　1章大數(shù)據(jù)分析　1
1．1　數(shù)據(jù)科學(xué)面臨的挑戰(zhàn)　2
1．2　認(rèn)識Apache Spark　4
1．3　關(guān)于本書　5
1．4　第 2版說明　6
第　2章用Scala 和Spark 進(jìn)行數(shù)據(jù)分析　8
2．1　數(shù)據(jù)科學(xué)家的Scala　9
2．2　Spark編程模型　10
2．3　記錄關(guān)聯(lián)問題　10
2．4　小試牛刀：Spark shell和SparkContext　11
2．5　把數(shù)據(jù)從集群上獲取到客戶端　16
2．6　把代碼從客戶端發(fā)送到集群　19
2．7　從RDD到DataFrame　20
2．8　用DataFrame API來分析數(shù)據(jù)　23
2．9　DataFrame的統(tǒng)計(jì)信息　27
2．10　DataFrame的轉(zhuǎn)置和重塑　29
2．11　DataFrame的連接和特征選擇　32
2．12　為生產(chǎn)環(huán)境準(zhǔn)備模型　33
2．13　評估模型　35
2．14　小結(jié)　36
第3章　音樂推薦和Audioscrobbler數(shù)據(jù)集　37
3．1　數(shù)據(jù)集　38
3．2　交替最小二乘推薦算法　39
3．3　準(zhǔn)備數(shù)據(jù)　41
3．4　構(gòu)建第一個(gè)模型　44
3．5　逐個(gè)檢查推薦結(jié)果　47
3．6　評價(jià)推薦質(zhì)量　50
3．7　計(jì)算AUC　51
3．8　選擇超參數(shù)　53
3．9　產(chǎn)生推薦　55
3．10　小結(jié)　56
第4章　用決策樹算法預(yù)測森林植被　58
4．1　回歸簡介　59
4．2　向量和特征　59
4．3　樣本訓(xùn)練　60
4．4　決策樹和決策森林　61
4．5　Covtype數(shù)據(jù)集　63
4．6　準(zhǔn)備數(shù)據(jù)　64
4．7　第一棵決策樹　66
4．8　決策樹的超參數(shù)　72
4．9　決策樹調(diào)優(yōu)　73
4．10　重談?lì)悇e型特征　77
4．11　隨機(jī)決策森林　79
4．12　進(jìn)行預(yù)測　81
4．13　小結(jié)　82
第5章　基于K均值聚類的網(wǎng)絡(luò)流量異常檢測　84
5．1　異常檢測　85
5．2　K均值聚類　85
5．3　網(wǎng)絡(luò)入侵　86
5．4　KDD Cup 1999數(shù)據(jù)集　86
5．5　初步嘗試聚類　87
5．6　k的選擇　90
5．7　基于SparkR 的可視化　92
5．8　特征的規(guī)范化　96
5．9　類別型變量　98
5．10　利用標(biāo)號的熵信息　99
5．11　聚類實(shí)戰(zhàn)　100
5．12　小結(jié)　102
第6章　基于潛在語義分析算法分析維基百科　104
6．1　文檔－詞項(xiàng)矩陣　105
6．2　獲取數(shù)據(jù)　106
6．3　分析和準(zhǔn)備數(shù)據(jù)　107
6．4　詞形歸并　109
6．5　計(jì)算TF-IDF　110
6．6　奇異值分解　111
6．7　找出重要的概念　113
6．8　基于低維近似的查詢和評分　117
6．9　詞項(xiàng)－詞項(xiàng)相關(guān)度　117
6．10　文檔－文檔相關(guān)度　119
6．11　文檔－詞項(xiàng)相關(guān)度　121
6．12　多詞項(xiàng)查詢　122
6．13　小結(jié)　123
第7章　用GraphX分析伴生網(wǎng)絡(luò)　124
7．1　對MEDLINE文獻(xiàn)引用索引的網(wǎng)絡(luò)分析　125
7．2　獲取數(shù)據(jù)　126
7．3　用Scala XML工具解析XML文檔　128
7．4　分析MeSH主要主題及其伴生關(guān)系　130
7．5　用GraphX來建立一個(gè)伴生網(wǎng)絡(luò)　132
7．6　理解網(wǎng)絡(luò)結(jié)構(gòu)　135
7．6．1　連通組件　136
7．6．2　度的分布　138
7．7　過濾噪聲邊　140
7．7．1　處理EdgeTriplet　141
7．7．2　分析去掉噪聲邊的子圖　142
7．8　小世界網(wǎng)絡(luò)　144
7．8．1　系和聚類系數(shù)　144
7．8．2　用Pregel計(jì)算平均路徑長度　145
7．9　小結(jié)　150
第8章　紐約出租車軌跡的空間和時(shí)間數(shù)據(jù)分析　151
8．1　數(shù)據(jù)的獲取　152
8．2　基于Spark的第三方庫分析　153
8．3　基于Esri Geometry API和Spray的地理空間數(shù)據(jù)處理　153
8．3．1　認(rèn)識Esri Geometry API　154
8．3．2　GeoJSON簡介　155
8．4　紐約市出租車客運(yùn)數(shù)據(jù)的預(yù)處理　157
8．4．1　大規(guī)模數(shù)據(jù)中的非法記錄處理　159
8．4．2　地理空間分析　162
8．5　基于Spark的會話分析　165
8．6　小結(jié)　168
第9章　基于蒙特卡羅模擬的金融風(fēng)險(xiǎn)評估　170
9．1　術(shù)語　171
9．2　VaR計(jì)算方法　172
9．2．1　方差－協(xié)方差法　172
9．2．2　歷史模擬法　172
9．2．3　蒙特卡羅模擬法　172
9．3　我們的模型　173
9．4　獲取數(shù)據(jù)　173
9．5　數(shù)據(jù)預(yù)處理　174
9．6　確定市場因素的權(quán)重　177
9．7　采樣　179
9．8　運(yùn)行試驗(yàn)　182
9．9　回報(bào)分布的可視化　185
9．10　結(jié)果的評估　186
9．11　小結(jié)　188
第　10章基因數(shù)據(jù)分析和BDG項(xiàng)目　190
10．1　分離存儲與模型　191
10．2　用ADAM CLI導(dǎo)入基因?qū)W數(shù)據(jù)　193
10．3　從ENCODE數(shù)據(jù)預(yù)測轉(zhuǎn)錄因子結(jié)合位點(diǎn)　201
10．4　查詢1000 Genomes項(xiàng)目中的基因型　207
10．5　小結(jié)　210
第　11章基于PySpark和Thunder的神經(jīng)圖像數(shù)據(jù)分析　211
11．1　PySpark簡介　212
11．2　Thunder工具包概況和安裝　215
11．3　用Thunder加載數(shù)據(jù)　215
11．4　用Thunder對神經(jīng)元進(jìn)行分類　221
11．5　小結(jié)　225
作者介紹　226
封面介紹　226

作　者：	[美] 桑迪·里扎（Sandy Ryza），[美] 于里·萊瑟森（Uri Laserson），[英] 肖恩·歐文（Sean Owen），[美] 喬?！ね査梗↗osh Wills）著，龔少成，邱鑫
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

ISBN：	9787115482525	出版時(shí)間：	2018-06-01	包裝：	平裝
開本：	16開	頁數(shù)：	226	字?jǐn)?shù)：

Spark高級數(shù)據(jù)分析（第2版）

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

AI我知道：AI能說外星語嗎

圖解KUKA工業(yè)機(jī)器人電路連接及檢…

ROS機(jī)器人設(shè)計(jì)實(shí)訓(xùn)教程

智能化無人系統(tǒng)學(xué)科路線圖

DelFly撲翼飛行器的設(shè)計(jì)空氣動(dòng)力…

傳感器設(shè)計(jì)與試驗(yàn)技術(shù)研究

洪澤湖無機(jī)懸浮物濃度垂向分布遙…

切換系統(tǒng)的穩(wěn)定性及區(qū)間估計(jì)

木業(yè)自動(dòng)化設(shè)備PLC應(yīng)用技術(shù)

AI我知道：AI能成為藝術(shù)家嗎