注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術工業(yè)技術自動化技術、計算技術Spark大數據分析技術與實戰(zhàn)

Spark大數據分析技術與實戰(zhàn)

Spark大數據分析技術與實戰(zhàn)

定 價:¥59.00

作 者: 經管之家 著
出版社: 電子工業(yè)出版社
叢編項: CDA數據分析師系列叢書
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121319037 出版時間: 2017-06-01 包裝: 平裝
開本: 16開 頁數: 232 字數:  

內容簡介

  Spark作為下一代大數據處理引擎,經過短短幾年的飛躍式發(fā)展,正在以燎原之勢席卷業(yè)界,現已成為大數據產業(yè)中的一股中堅力量。本書著重講解了Spark內核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念與理論框架,并提供了相應的示例與解析。全書共分8章,其中前4章介紹Spark內核,主要包括Spark簡介、集群部署、工作原理、核心概念與操作等;后4章分別介紹Spark內核上的核心組件,每章系統(tǒng)地介紹Spark的一個組件,并附以相應的案例分析。本書適合作為高等院校計算機相關專業(yè)的研究生學習參考資料,也適合大數據技術初學者閱讀,還適合于所有愿意對大數據技術有所了解并想要將大數據技術應用于本職工作的讀者閱讀。

作者簡介

  經管之家(www.jg.com.cn):原人大經濟論壇,于2003年成立,致力于推動經管學科的進步,傳播優(yōu)秀教育資源,目前已經發(fā)展成為國內優(yōu)秀的經濟、管理、金融、統(tǒng)計類的在線教育和咨詢網站,也是國內活躍和具影響力的經管類網絡社區(qū)。經管之家從2006年起在國內開展數據分析培訓,累計培訓學員數萬人。在大數據的趨勢背景下,創(chuàng)新“CDA數據分析師”品牌,致力于為社會各界數據分析愛好者提供優(yōu)質、科學、系統(tǒng)的數據分析教育。截至2016年3月已成功舉辦40多期系統(tǒng)培訓,培訓學員達3千余名;CDA認證考試已成功舉辦三屆,報考人數上千人;中國數據分析師俱樂部(CDA CLUB),每周線下免費沙龍活動,已舉力40多期,累積會員2千余名;中國數據分析師行業(yè)峰會(CDA Summit),一年兩屆,參會人數皆達2千余名,在大數據領域影響力超前?!癈DA數據分析師”隊伍在業(yè)界不斷壯大,對數據分析人才產業(yè)起到了巨大的推動作用。

圖書目錄

第1章 Spark導論\t1
1.1 Spark的發(fā)展\t2
1.2 什么是Spark\t3
1.3 Spark主要特征\t3
1.3.1 快速\t3
1.3.2 簡潔易用\t5
1.3.3 通用\t6
1.3.4 多種運行模式\t8
第2章 Spark集群部署\t9
2.1 運行環(huán)境說明\t9
2.1.1 軟硬件環(huán)境\t9
2.1.2 集群網絡環(huán)境\t10
2.2 安裝VMware Workstation 11\t10
2.3 安裝CentOS 6\t16
2.4 安裝Hadoop\t21
2.4.1 克隆并啟動虛擬機\t21
2.4.2 網絡基本配置\t24
2.4.3 安裝JDK\t27
2.4.4 免密鑰登錄配置\t28
2.4.5 Hadoop配置\t29
2.4.6 配置從節(jié)點\t33
2.4.7 配置系統(tǒng)文件\t33
2.4.8 啟動Hadoop集群\t33
2.5 安裝Scala\t35
2.6 安裝Spark\t36
2.6.1 下載并解壓Spark安裝包\t36
2.6.2 配置Spark-env.sh\t37
2.6.3 配置Spark-defaults.conf\t37
2.6.4 配置Slaves\t38
2.6.5 配置環(huán)境變量\t38
2.6.6 發(fā)送至Slave1、Slave2\t39
2.7 啟動Spark\t39
第3章 RDD編程\t42
3.1 RDD定義\t42
3.2 RDD的特性\t43
3.2.1 分區(qū)\t43
3.2.2 依賴\t44
3.2.3 計算\t45
3.2.4 分區(qū)函數\t45
3.2.5 優(yōu)先位置\t46
3.3 創(chuàng)建操作\t46
3.3.1 基于集合的創(chuàng)建操作\t47
3.3.2 基于外部存儲的創(chuàng)建操作\t47
3.4 常見執(zhí)行操作\t49
3.5 常見轉換操作\t49
3.5.1 一元轉換操作\t50
3.5.2 二元轉換操作\t53
3.6 持久化操作\t56
3.7 存儲操作\t58
第4章 Spark調度管理與應用程序開發(fā)\t59
4.1 Spark調度管理基本概念\t59
4.2 作業(yè)調度流程\t60
4.2.1 作業(yè)的生成與提交\t61
4.2.2 階段的劃分\t62
4.2.3 調度階段的提交\t62
4.2.4 任務的提交與執(zhí)行\(zhòng)t62
4.3 基于IntelliJ IDEA構建Spark應用程序\t64
4.3.1 安裝IntelliJ IDEA\t64
4.3.2 創(chuàng)建Spark應用程序\t70
4.3.3 集群模式運行Spark應用程序\t81
第5章 GraphX\t87
5.1 GraphX概述\t87
5.2 GraphX基本原理\t89
5.2.1 圖計算模型處理流程\t89
5.2.2 GraphX定義\t90
5.2.3 GraphX的特點\t90
5.3 GraphX設計與實現\t91
5.3.1 彈性分布式屬性圖\t91
5.3.2 圖的數據模型\t92
5.3.3 圖的存儲模型\t94
5.3.4 GraphX模型框架\t97
5.4 GraphX操作\t97
5.4.1 創(chuàng)建圖\t97
5.4.2 基本屬性操作\t100
5.4.3 結構操作\t102
5.4.4 轉換操作\t103
5.4.5 連接操作\t105
5.4.6 聚合操作\t106
5.5 GraphX案例解析\t107
5.5.1 PageRank算法與案例解析\t107
5.5.2 Triangle Count算法與案例解析\t110
第6章 Spark SQL\t113
6.1 Spark SQL概述\t113
6.2 Spark SQL邏輯架構\t116
6.2.1 SQL執(zhí)行流程\t116
6.2.2 Catalyst\t117
6.3 Spark SQL CLI\t117
6.3.1 硬軟件環(huán)境\t117
6.3.2 集群環(huán)境\t118
6.3.3 結合Hive\t118
6.3.4 啟動Hive\t118
6.4 DataFrame編程模型\t119
6.4.1 DataFrame簡介\t119
6.4.2 創(chuàng)建DataFrames\t120
6.4.3 保存DataFrames\t126
6.5 DataFrame常見操作\t127
6.5.1 數據展示\t127
6.5.2 常用列操作\t128
6.5.3 過濾\t131
6.5.4 排序\t132
6.5.5 其他常見操作\t134
6.6 基于Hive的學生信息管理系統(tǒng)的SQL查詢案例與解析\t137
6.6.1 Spark SQL整合Hive\t137
6.6.2 構建數據倉庫\t138
6.6.3 加載數據\t141
6.6.4 查詢數據\t142
第7章 Spark Streaming\t146
7.1 Spark Streaming概述\t146
7.2 Spark Streaming基礎概念\t147
7.2.1 批處理時間間隔\t147
7.2.2 窗口時間間隔\t148
7.2.3 滑動時間間隔\t148
7.3 DStream基本概念\t149
7.4 DStream的基本操作\t150
7.4.1 無狀態(tài)轉換操作\t150
7.4.2 有狀態(tài)轉換操作\t152
7.4.3 輸出操作\t153
7.4.4 持久化操作\t154
7.5 數據源\t154
7.5.1 基礎數據源\t154
7.5.2 高級數據源\t155
7.6 Spark Streaming編程模式與案例分析\t156
7.6.1 Spark Streaming編程模式\t156
7.6.2 文本文件數據處理案例(一)\t157
7.6.3 文本文件數據處理案例(二)\t160
7.6.4 網絡數據處理案例(一)\t164
7.6.5 網絡數據處理案例(二)\t171
7.6.6 stateful應用案例\t175
7.6.7 window應用案例\t180
7.7 性能考量\t185
7.7.1 運行時間優(yōu)化\t185
7.7.2 內存使用與垃圾回收\t186
第8章 Spark MLlib\t187
8.1 Spark MLlib概述\t187
8.1.1 機器學習介紹\t187
8.1.2 Spark MLlib簡介\t189
8.2 MLlib向量與矩陣\t190
8.2.1 MLlib向量\t190
8.2.2 MLlib矩陣\t192
8.3 Spark MLlib分類算法\t196
8.3.1 貝葉斯分類算法\t197
8.3.2 支持向量機算法\t201
8.3.3 決策樹算法\t204
8.4 MLlib線性回歸算法\t208
8.5 MLlib聚類算法\t212
8.6 MLlib協(xié)同過濾\t215

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號