注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)自動化技術(shù)、計算技術(shù)Spark高級數(shù)據(jù)分析(第2版)

Spark高級數(shù)據(jù)分析(第2版)

Spark高級數(shù)據(jù)分析(第2版)

定 價:¥69.00

作 者: [美] 桑迪·里扎(Sandy Ryza),[美] 于里·萊瑟森(Uri Laserson),[英] 肖恩·歐文(Sean Owen),[美] 喬?!ね査梗↗osh Wills) 著,龔少成,邱鑫
出版社: 人民郵電出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787115482525 出版時間: 2018-06-01 包裝: 平裝
開本: 16開 頁數(shù): 226 字?jǐn)?shù):  

內(nèi)容簡介

  本書是使用Spark進行大規(guī)模數(shù)據(jù)分析的實戰(zhàn)寶典,由知名數(shù)據(jù)科學(xué)家撰寫。本書在第1版的基礎(chǔ)上,針對Spark近年來的發(fā)展,對樣例代碼和所使用的資料進行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL兩個子項目也發(fā)生了較大變化,本書為關(guān)注Spark發(fā)展趨勢的讀者提供了與時俱進的資料,例如Dataset和DataFrame的使用,以及與DataFrame API高度集成的Spark ML API。

作者簡介

  【作者簡介】桑迪·里扎(Sandy Ryza),Spark項目代碼提交者、Hadoop項目管理委員會委員,Time Series for Spark項目創(chuàng)始人。曾任Cloudera公司高級數(shù)據(jù)科學(xué)家,現(xiàn)就職于Remix公司從事公共交通算法開發(fā)。于里·萊瑟森(Uri Laserson),MIT博士畢業(yè),致力于用技術(shù)解決遺傳學(xué)問題,曾利用Hadoop生態(tài)系統(tǒng)開發(fā)了可擴展的基因組學(xué)和免疫學(xué)技術(shù)。目前是西奈山伊坎醫(yī)學(xué)院遺傳學(xué)助理教授,曾任Cloudera公司核心數(shù)據(jù)科學(xué)家。肖恩·歐文(Sean Owen),Spark、Mahout項目代碼提交者,Spark項目管理委員會委員?,F(xiàn)任Cloudera公司數(shù)據(jù)科學(xué)總監(jiān)。喬希·威爾斯(Josh Wills),Crunch項目發(fā)起人,現(xiàn)任Slack公司數(shù)據(jù)工程主管。曾任Cloudera公司高級數(shù)據(jù)科學(xué)總監(jiān)?!咀g者簡介】龔少成現(xiàn)任萬達科技集團數(shù)據(jù)工程部總經(jīng)理,清華大學(xué)自動化系研究生畢業(yè),國內(nèi)專注企業(yè)級大數(shù)據(jù)平臺建設(shè)的先驅(qū)者之一,曾經(jīng)在Intel和Cloudera公司擔(dān)任大數(shù)據(jù)技術(shù)負(fù)責(zé)人,Cloudera公司認(rèn)證大數(shù)據(jù)培訓(xùn)講師。邱鑫畢業(yè)于武漢大學(xué),目前就職于英特爾亞太研發(fā)有限公司,是Intel大數(shù)據(jù)團隊高級工程師。主要研究大數(shù)據(jù)與深度學(xué)習(xí)技術(shù),是基于Spark的深度學(xué)習(xí)框架BigDL的核心貢獻者。

圖書目錄

推薦序 ix
譯者序 xi
序 xiii
前言 xv
第 1章 大數(shù)據(jù)分析 1
1.1 數(shù)據(jù)科學(xué)面臨的挑戰(zhàn) 2
1.2 認(rèn)識Apache Spark 4
1.3 關(guān)于本書 5
1.4 第 2版說明 6
第 2章 用Scala 和Spark 進行數(shù)據(jù)分析 8
2.1 數(shù)據(jù)科學(xué)家的Scala 9
2.2 Spark編程模型 10
2.3 記錄關(guān)聯(lián)問題 10
2.4 小試牛刀:Spark shell和SparkContext 11
2.5 把數(shù)據(jù)從集群上獲取到客戶端 16
2.6 把代碼從客戶端發(fā)送到集群 19
2.7 從RDD到DataFrame 20
2.8 用DataFrame API來分析數(shù)據(jù) 23
2.9 DataFrame的統(tǒng)計信息 27
2.10 DataFrame的轉(zhuǎn)置和重塑 29
2.11 DataFrame的連接和特征選擇 32
2.12 為生產(chǎn)環(huán)境準(zhǔn)備模型 33
2.13 評估模型 35
2.14 小結(jié) 36
第3章 音樂推薦和Audioscrobbler數(shù)據(jù)集 37
3.1 數(shù)據(jù)集 38
3.2 交替最小二乘推薦算法 39
3.3 準(zhǔn)備數(shù)據(jù) 41
3.4 構(gòu)建第 一個模型 44
3.5 逐個檢查推薦結(jié)果 47
3.6 評價推薦質(zhì)量 50
3.7 計算AUC 51
3.8 選擇超參數(shù) 53
3.9 產(chǎn)生推薦 55
3.10 小結(jié) 56
第4章 用決策樹算法預(yù)測森林植被 58
4.1 回歸簡介 59
4.2 向量和特征 59
4.3 樣本訓(xùn)練 60
4.4 決策樹和決策森林 61
4.5 Covtype數(shù)據(jù)集 63
4.6 準(zhǔn)備數(shù)據(jù) 64
4.7 第 一棵決策樹 66
4.8 決策樹的超參數(shù) 72
4.9 決策樹調(diào)優(yōu) 73
4.10 重談類別型特征 77
4.11 隨機決策森林 79
4.12 進行預(yù)測 81
4.13 小結(jié) 82
第5章 基于K均值聚類的網(wǎng)絡(luò)流量異常檢測 84
5.1 異常檢測 85
5.2 K均值聚類 85
5.3 網(wǎng)絡(luò)入侵 86
5.4 KDD Cup 1999數(shù)據(jù)集 86
5.5 初步嘗試聚類 87
5.6 k的選擇 90
5.7 基于SparkR 的可視化 92
5.8 特征的規(guī)范化 96
5.9 類別型變量 98
5.10 利用標(biāo)號的熵信息 99
5.11 聚類實戰(zhàn) 100
5.12 小結(jié) 102
第6章 基于潛在語義分析算法分析維基百科 104
6.1 文檔-詞項矩陣 105
6.2 獲取數(shù)據(jù) 106
6.3 分析和準(zhǔn)備數(shù)據(jù) 107
6.4 詞形歸并 109
6.5 計算TF-IDF 110
6.6 奇異值分解 111
6.7 找出重要的概念 113
6.8 基于低維近似的查詢和評分 117
6.9 詞項-詞項相關(guān)度 117
6.10 文檔-文檔相關(guān)度 119
6.11 文檔-詞項相關(guān)度 121
6.12 多詞項查詢 122
6.13 小結(jié) 123
第7章 用GraphX分析伴生網(wǎng)絡(luò) 124
7.1 對MEDLINE文獻引用索引的網(wǎng)絡(luò)分析 125
7.2 獲取數(shù)據(jù) 126
7.3 用Scala XML工具解析XML文檔 128
7.4 分析MeSH主要主題及其伴生關(guān)系 130
7.5 用GraphX來建立一個伴生網(wǎng)絡(luò) 132
7.6 理解網(wǎng)絡(luò)結(jié)構(gòu) 135
7.6.1 連通組件 136
7.6.2 度的分布 138
7.7 過濾噪聲邊 140
7.7.1 處理EdgeTriplet 141
7.7.2 分析去掉噪聲邊的子圖 142
7.8 小世界網(wǎng)絡(luò) 144
7.8.1 系和聚類系數(shù) 144
7.8.2 用Pregel計算平均路徑長度 145
7.9 小結(jié) 150
第8章 紐約出租車軌跡的空間和時間數(shù)據(jù)分析 151
8.1 數(shù)據(jù)的獲取 152
8.2 基于Spark的第三方庫分析 153
8.3 基于Esri Geometry API和Spray的地理空間數(shù)據(jù)處理 153
8.3.1 認(rèn)識Esri Geometry API 154
8.3.2 GeoJSON簡介 155
8.4 紐約市出租車客運數(shù)據(jù)的預(yù)處理 157
8.4.1 大規(guī)模數(shù)據(jù)中的非法記錄處理 159
8.4.2 地理空間分析 162
8.5 基于Spark的會話分析 165
8.6 小結(jié) 168
第9章 基于蒙特卡羅模擬的金融風(fēng)險評估 170
9.1 術(shù)語 171
9.2 VaR計算方法 172
9.2.1 方差-協(xié)方差法 172
9.2.2 歷史模擬法 172
9.2.3 蒙特卡羅模擬法 172
9.3 我們的模型 173
9.4 獲取數(shù)據(jù) 173
9.5 數(shù)據(jù)預(yù)處理 174
9.6 確定市場因素的權(quán)重 177
9.7 采樣 179
9.8 運行試驗 182
9.9 回報分布的可視化 185
9.10 結(jié)果的評估 186
9.11 小結(jié) 188
第 10章 基因數(shù)據(jù)分析和BDG項目 190
10.1 分離存儲與模型 191
10.2 用ADAM CLI導(dǎo)入基因?qū)W數(shù)據(jù) 193
10.3 從ENCODE數(shù)據(jù)預(yù)測轉(zhuǎn)錄因子結(jié)合位點 201
10.4 查詢1000 Genomes項目中的基因型 207
10.5 小結(jié) 210
第 11章 基于PySpark和Thunder的神經(jīng)圖像數(shù)據(jù)分析 211
11.1 PySpark簡介 212
11.2 Thunder工具包概況和安裝 215
11.3 用Thunder加載數(shù)據(jù) 215
11.4 用Thunder對神經(jīng)元進行分類 221
11.5 小結(jié) 225
作者介紹 226
封面介紹 226

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號