注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Spark大數(shù)據(jù)技術(shù)與應(yīng)用

Spark大數(shù)據(jù)技術(shù)與應(yīng)用

Spark大數(shù)據(jù)技術(shù)與應(yīng)用

定 價(jià):¥49.80

作 者: 肖芳,張良均 編
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787115464880 出版時(shí)間: 2018-02-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 272 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)以任務(wù)為導(dǎo)向,較為全面地介紹了Spark大數(shù)據(jù)技術(shù)的相關(guān)知識(shí)。全書(shū)共9章,具體內(nèi)容包括Spark概述;Scala基礎(chǔ);Spark編程;Spark編程進(jìn)階;Spark SQL:結(jié)構(gòu)化數(shù)據(jù)文件處理;Spark Streaming:實(shí)時(shí)計(jì)算框架;Spark GraphX:圖計(jì)算框架;Spark MLlib:功能強(qiáng)大的算法庫(kù);項(xiàng)目案例:餐飲平臺(tái)菜品智能推薦。本書(shū)的大部分章節(jié)都包含了實(shí)訓(xùn)與課后習(xí)題,通過(guò)練習(xí)和操作實(shí)踐,幫助讀者鞏固所學(xué)的內(nèi)容。

作者簡(jiǎn)介

  張良均,高 級(jí)信息系統(tǒng)項(xiàng)目管理師,泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽(www.tipdm.org)的發(fā)起人。華南師范大學(xué)、廣東工業(yè)大學(xué)兼職教授,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)理事。兼有大型高科技企業(yè)和高校的工作經(jīng)歷,主要從事大數(shù)據(jù)挖掘及其應(yīng)用的策劃、研發(fā)及咨詢培訓(xùn)。全國(guó)計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格(水平)考試?yán)^續(xù)教育和CDA數(shù)據(jù)分析師培訓(xùn)講師。發(fā)表數(shù)據(jù)挖掘相關(guān)論文數(shù)二十余篇,已取得國(guó)家發(fā)明專利12項(xiàng),主編圖書(shū)《神經(jīng)網(wǎng)絡(luò)實(shí)用教程》《數(shù)據(jù)挖掘:實(shí)用案例分析》《Python數(shù)據(jù)分析與挖掘》等多本暢銷圖書(shū),主持并完成科技項(xiàng)目9項(xiàng)。獲得SAS、SPSS數(shù)據(jù)挖掘認(rèn)證及Hadoop開(kāi)發(fā)工程師證書(shū),具有電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項(xiàng)目經(jīng)驗(yàn)和行業(yè)背景。

圖書(shū)目錄

第 1章 Spark概述 1
任務(wù)1.1 認(rèn)識(shí)Spark 1
1.1.1 Spark的發(fā)展 1
1.1.2 Spark的特點(diǎn) 2
1.1.3 Spark生態(tài)圈 4
1.1.4 Spark的應(yīng)用場(chǎng)景 5
任務(wù)1.2 搭建Spark環(huán)境 5
1.2.1 搭建單機(jī)版環(huán)境 6
1.2.2 搭建單機(jī)偽分布式環(huán)境 6
1.2.3 搭建完全分布式環(huán)境 7
任務(wù)1.3 了解Spark運(yùn)行架構(gòu)與原理 10
1.3.1 Spark集群架構(gòu) 11
1.3.2 Spark作業(yè)運(yùn)行流程 11
1.3.3 Spark核心數(shù)據(jù)集RDD 15
1.3.4 Spark核心原理 17
小結(jié) 19
第 2章 Scala基礎(chǔ) 20
任務(wù)2.1 Scala的簡(jiǎn)介與安裝 21
2.1.1 Scala簡(jiǎn)介 21
2.1.2 Scala特性 21
2.1.3 Scala的環(huán)境設(shè)置及安裝 21
2.1.4 運(yùn)行Scala 23
任務(wù)2.2 定義函數(shù)識(shí)別號(hào)碼類型 24
2.2.1 數(shù)據(jù)類型 24
2.2.2 常量和變量 25
2.2.3 表達(dá)式 26
2.2.4 數(shù)組 27
2.2.5 函數(shù) 29
2.2.6 任務(wù)實(shí)現(xiàn) 31
任務(wù)2.3 統(tǒng)計(jì)廣州號(hào)碼段數(shù)量 32
2.3.1 if判斷 32
2.3.2 循環(huán) 33
2.3.3 任務(wù)實(shí)現(xiàn) 34
任務(wù)2.4 根據(jù)歸屬地對(duì)手機(jī)號(hào)碼段分組 34
2.4.1 List 35
2.4.2 Set 36
2.4.3 Map 37
2.4.4 元組 38
2.4.5 函數(shù)組合器 38
2.4.6 任務(wù)實(shí)現(xiàn) 39
任務(wù)2.5 編寫(xiě)手機(jī)號(hào)碼歸屬地信息查詢程序 40
2.5.1 Scala類 40
2.5.2 Scala object 42
2.5.3 Scala模式匹配 42
2.5.4 Scala讀取文件 44
2.5.5 任務(wù)實(shí)現(xiàn) 44
小結(jié) 45
實(shí)訓(xùn) 45
實(shí)訓(xùn)1 編寫(xiě)函數(shù)過(guò)濾文本中的回文單詞 45
實(shí)訓(xùn)2 使用Scala編程輸出楊輝三角 46
課后習(xí)題 46
第3章 Spark編程 48
任務(wù)3.1 以學(xué)生成績(jī)數(shù)據(jù)創(chuàng)建RDD 49
3.1.1 從內(nèi)存中已有數(shù)據(jù)創(chuàng)建RDD 50
3.1.2 從外部存儲(chǔ)創(chuàng)建RDD 51
3.1.3 任務(wù)實(shí)現(xiàn) 52
任務(wù)3.2 查詢學(xué)生成績(jī)表中的前5名 52
3.2.1 使用map轉(zhuǎn)換數(shù)據(jù) 52
3.2.2 使用sortBy()排序 53
3.2.3 使用collect()查詢 53
3.2.4 使用flatMap轉(zhuǎn)換數(shù)據(jù) 54
3.2.5 使用take()方式查詢某幾個(gè)值 54
3.2.6 任務(wù)實(shí)現(xiàn) 55
任務(wù)3.3 輸出單科成績(jī)?yōu)?00分的學(xué)生ID 55
3.3.1 使用union()合并多個(gè)RDD 56
3.3.2 使用filter()進(jìn)行過(guò)濾 56
3.3.3 使用distinct()進(jìn)行去重 56
3.3.4 簡(jiǎn)單的集合操作 57
3.3.5 任務(wù)實(shí)現(xiàn) 58
任務(wù)3.4 輸出每位學(xué)生所有科目的總成績(jī) 58
3.4.1 鍵值對(duì)RDD簡(jiǎn)介 59
3.4.2 創(chuàng)建鍵值對(duì)RDD 59
3.4.3 轉(zhuǎn)換操作keys與values 59
3.4.4 轉(zhuǎn)換操作reduceByKey() 60
3.4.5 轉(zhuǎn)換操作groupByKey() 60
3.4.6 任務(wù)實(shí)現(xiàn) 60
任務(wù)3.5 輸出每位學(xué)生的平均成績(jī) 61
3.5.1 使用join()連接兩個(gè)RDD 61
3.5.2 使用zip組合兩個(gè)RDD 63
3.5.3 使用combineByKey合并相同鍵的值 63
3.5.4 使用lookup查找指 定鍵的值 64
3.5.5 任務(wù)實(shí)現(xiàn) 64
任務(wù)3.6 將匯總后的學(xué)生成績(jī)存儲(chǔ)為文本文件 65
3.6.1 JSON文件的讀取與存儲(chǔ) 65
3.6.2 CSV文件的讀取與存儲(chǔ) 67
3.6.3 SquenceFile的讀取與存儲(chǔ) 69
3.6.4 文本文件的讀取與存儲(chǔ) 70
3.6.5 任務(wù)實(shí)現(xiàn) 71
小結(jié) 72
實(shí)訓(xùn) 72
實(shí)訓(xùn)1 統(tǒng)計(jì)文本中性別為“男”的用戶數(shù) 73
實(shí)訓(xùn)2 單詞計(jì)數(shù) 73
課后習(xí)題 74
第4章 Spark編程進(jìn)階 76
任務(wù)4.1 搭建開(kāi)發(fā)環(huán)境 77
4.1.1 下載與安裝IntelliJ IDEA 77
4.1.2 Scala插件安裝與使用 79
4.1.3 配置Spark運(yùn)行環(huán)境 84
4.1.4 運(yùn)行Spark程序 85
任務(wù)4.2 使用移動(dòng)平均預(yù)測(cè)股票漲跌 92
4.2.1 持久化(緩存) 93
4.2.2 數(shù)據(jù)分區(qū) 94
4.2.3 計(jì)算價(jià)格波動(dòng)幅度 98
4.2.4 任務(wù)實(shí)現(xiàn) 100
小結(jié) 103
實(shí)訓(xùn) 103
實(shí)訓(xùn) 競(jìng)賽網(wǎng)站訪問(wèn)日志分析 104
課后習(xí)題 104
第5章 Spark SQL:結(jié)構(gòu)化數(shù)據(jù)文件處理 107
任務(wù)5.1 認(rèn)識(shí)Spark SQL 108
5.1.1 Spark SQL簡(jiǎn)介 108
5.1.2 Spark SQL CLI配置 109
5.1.3 Spark SQL與Shell交互 110
任務(wù)5.2 掌握DataFrame基礎(chǔ)操作 111
5.2.1 創(chuàng)建DataFrame對(duì)象 111
5.2.2 DataFrame查看數(shù)據(jù) 114
5.2.3 DataFrame查詢操作 117
5.2.4 DataFrame輸出操作 123
任務(wù)5.3 探索分析法律服務(wù)網(wǎng)站數(shù)據(jù) 125
5.3.1 獲取數(shù)據(jù) 125
5.3.2 網(wǎng)頁(yè)類型分析 126
5.3.3 點(diǎn)擊次數(shù)分析 131
5.3.4 網(wǎng)頁(yè)排名分析 133
小結(jié) 135
實(shí)訓(xùn) 135
實(shí)訓(xùn)1 統(tǒng)計(jì)分析航空公司客戶數(shù)據(jù)的空值以及異常值 135
實(shí)訓(xùn)2 統(tǒng)計(jì)分析某公司每年的產(chǎn)品銷售量及銷售額 137
課后習(xí)題 139
第6章 Spark Streaming:實(shí)時(shí)計(jì)算框架 141
任務(wù)6.1 初探Spark Streaming 142
6.1.1 Spark Streaming概述 142
6.1.2 Spark Streaming運(yùn)行原理 142
6.1.3 初步使用Spark Streaming 143
任務(wù)6.2 掌握DStream編程模型 145
6.2.1 DStream簡(jiǎn)介 146
6.2.2 DStream轉(zhuǎn)換操作 146
6.2.3 DStream窗口操作 148
6.2.4 DStream輸出操作 151
任務(wù)6.3 Spark Streaming實(shí)時(shí)更新熱門(mén)博文 155
6.3.1 Spark Streaming輸入數(shù)據(jù)源 155
6.3.2 Spark Streaming計(jì)算網(wǎng)頁(yè)熱度 158
6.3.3 網(wǎng)頁(yè)熱度輸出 158
6.3.4 任務(wù)實(shí)現(xiàn) 159
小結(jié) 161
實(shí)訓(xùn) 161
實(shí)訓(xùn)1 過(guò)濾打印包含單詞error的記錄 162
實(shí)訓(xùn)2 實(shí)時(shí)過(guò)濾歌曲播放次數(shù)超過(guò)100次的記錄并存儲(chǔ)在HDFS上 162
課后習(xí)題 162
第7章 Spark GraphX:圖計(jì)算框架 165
任務(wù)7.1 認(rèn)識(shí)Spark GraphX 166
7.1.1 圖的基本概念 166
7.1.2 圖計(jì)算的應(yīng)用 167
7.1.3 GraphX的基礎(chǔ)概念 168
7.1.4 GraphX的發(fā)展 168
任務(wù)7.2 了解GraphX常用API 169
7.2.1 圖的創(chuàng)建與存儲(chǔ) 169
7.2.2 數(shù)據(jù)查詢與數(shù)據(jù)轉(zhuǎn)換 174
7.2.3 結(jié)構(gòu)轉(zhuǎn)換與關(guān)聯(lián)聚合 180
任務(wù)7.3 構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶 187
7.3.1 構(gòu)建網(wǎng)站信任網(wǎng)絡(luò) 188
7.3.2 找出需要支付稿酬的用戶 188
7.3.3 找出進(jìn)入熱門(mén)榜的用戶 189
小結(jié) 191
實(shí)訓(xùn) 191
實(shí)訓(xùn)1 使用PageRank算法完成網(wǎng)頁(yè)排名 191
實(shí)訓(xùn)2 利用二度關(guān)系完成商品推薦 192
課后習(xí)題 194
第8章 Spark MLlib:功能強(qiáng)大的算法庫(kù) 196
任務(wù)8.1 了解MLlib算法庫(kù) 197
8.1.1 機(jī)器學(xué)習(xí)簡(jiǎn)介 197
8.1.2 MLlib介紹 198
任務(wù)8.2 以Logistic回歸實(shí)現(xiàn)用戶分類 212
8.2.1 分析思路 212
8.2.2 數(shù)據(jù)處理 213
8.2.3 MLlib實(shí)現(xiàn)Logistic回歸 215
8.2.4 任務(wù)實(shí)現(xiàn) 217
小結(jié) 221
實(shí)訓(xùn) 221
實(shí)訓(xùn)1 通過(guò)KMeans定位商圈 221
實(shí)訓(xùn)2 樸素貝葉斯進(jìn)行文本分類 222
課后習(xí)題 223
第9章 項(xiàng)目案例:餐飲平臺(tái)菜品智能推薦 226
任務(wù)9.1 推薦方案設(shè)計(jì) 227
9.1.1 用戶數(shù)據(jù)分析 227
9.1.2 常用推薦算法 229
9.1.3 推薦流程設(shè)計(jì) 231
任務(wù)9.2 數(shù)據(jù)預(yù)處理 232
9.2.1 原始數(shù)據(jù)探索分析 233
9.2.2 異常數(shù)據(jù)處理 237
9.2.3 數(shù)據(jù)變換處理 237
9.2.4 數(shù)據(jù)集分割 239
任務(wù)9.3 建立推薦模型 240
9.3.1 以基于用戶的協(xié)同過(guò)濾算法建模 240
9.3.2 以基于物品的協(xié)同過(guò)濾算法建?!?43
9.3.3 以基于Spark ALS的協(xié)同過(guò)濾算法建立模型 246
9.3.4 推薦模型的評(píng)測(cè) 251
任務(wù)9.4 使用模型進(jìn)行菜品推薦 262
9.4.1 對(duì)某用戶推薦10道新菜品 262
9.4.2 對(duì)所有用戶進(jìn)行新菜品推薦 267

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)