定 價:¥109.00
作 者: | 文艾 |
出版社: | 機械工業(yè)出版社 |
叢編項: | |
標 簽: | 暫缺 |
ISBN: | 9787111651000 | 出版時間: | 2020-05-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數(shù): | 373 | 字數(shù): |
目 錄
前言
第1章 Spark與大數(shù)據(jù) 1
1.1 大數(shù)據(jù)開發(fā)基礎 1
1.1.1 什么是大數(shù)據(jù) 1
1.1.2 大數(shù)據(jù)開發(fā)的通用步驟 2
1.1.3 大數(shù)據(jù)開發(fā)技術 4
1.2 初識Spark 10
1.2.1 Spark是什么 10
1.2.2 Spark的技術特點 11
1.3 Spark技術棧 12
1.4 Spark重要組件 13
1.4.1 Spark Core 13
1.4.2 Spark SQL 14
1.4.3 GraphX 15
1.4.4 流數(shù)據(jù)處理 16
1.4.5 SparkR 17
1.4.6 MLlib/ML 18
1.4.7 Spark交互工具 18
1.5 Spark和Scala 19
1.5.1 Scala語言簡介 19
1.5.2 為什么用Scala開發(fā)Spark框架 20
1.5.3 為什么用Scala開發(fā)Spark程序 20
1.5.4 Scala開發(fā)Spark程序所涉及的技術 20
1.5.5 Scala語言基礎 21
1.6 如何快速掌握Spark 21
1.6.1 Spark學習的痛點 21
1.6.2 Spark快速學習路線圖 22
1.6.3 Spark學習中的關鍵點 23
1.6.4 利用本書相關資源高效學習Spark 23
1.6.5 本書所使用的軟件和版本 25
1.7 練習 25
第2章 構建Spark運行環(huán)境 26
2.1 Spark程序運行時架構 26
2.2 構建Spark大數(shù)據(jù)運行環(huán)境 28
2.2.1 構建HDFS 28
2.2.2 構建Yarn 30
2.2.3 構建Spark集群 31
2.3 運行Spark程序(Local方式) 31
2.4 運行Spark程序(分布式方式) 32
2.4.1 Spark on Yarn 32
2.4.2 Spark on Standalone 36
2.5 Spark程序在spark-shell上運行 41
2.6 使用Web UI監(jiān)控Spark程序運行 43
2.7 擴展集群節(jié)點 48
2.8 練習 49
第3章 開發(fā)第一個Spark程序 51
3.1 在命令行模式下開發(fā)Spark程序 51
3.1.1 構建Scala程序編譯環(huán)境 51
3.1.2 使用Vim編寫Spark程序 53
3.1.3 使用命令編譯、打包Spark程序 54
3.1.4 運行Spark程序 56
3.1.5 使用java命令運行Spark程序 57
3.1.6 Spark程序編譯、運行、部署的關鍵點 58
3.2 使用IDEA開發(fā)Spark程序 58
3.2.1 IDEA安裝和基本使用 59
3.2.2 使用IDEA編輯Spark代碼 60
3.2.3 IDEA編譯、打包 62
3.2.4 IDEA遠程提交Spark程序 63
3.3 練習 64
第4章 深入理解Spark程序代碼 66
4.1 Spark程序代碼結構 66
4.2 Spark程序代碼的核心概念 68
4.2.1 RDD 68
4.2.2 Application 68
4.2.3 Job 69
4.2.4 DAG 70
4.2.5 Stage 72
4.2.6 Task 76
4.2.7 Application、Job、Stage和Task的并行粒度和并行條件 77
4.3 Spark程序代碼執(zhí)行過程 77
4.4 練習 85
第5章 RDD編程 86
5.1 RDD核心概念 86
5.1.1 Transformation的基本概念 87
5.1.2 Action的基本概念 88
5.1.3 Partition的基本概念 88
5.2 創(chuàng)建RDD 89
5.3 RDD Partition 93
5.4 Transformation操作 107
5.5 Action操作 130
5.6 RDD的cache/persist和checkpoint操作 136
5.7 練習 140
第6章 Spark SQL結構化數(shù)據(jù)處理 142
6.1 Spark SQL的核心概念 142
6.2 Spark SQL數(shù)據(jù)處理概述 147
6.3 構建Spark SQL運行環(huán)境 150
6.4 DataFrame/Dataset快速上手 157
6.5 DataFrame/Dataset與數(shù)據(jù)源的轉換 165
6.6 DataFrame/Dataset常用API 198
6.7 SQL操作 223
6.8 練習 234
第7章 Spark Streaming 236
7.1 Spark Streaming基礎 236
7.2 編寫一個Spark Streaming程序 241
7.3 Spark Streaming Web UI的使用 244
7.4 多路流數(shù)據(jù)合并處理示例 250
7.5 DStream Transformation操作 255
7.6 DStream Output 操作 262
7.7 練習 264
第8章 Structured Streaming 265
8.1 Structured Streaming基礎 265
8.2 Structured Streaming接入Text File數(shù)據(jù)源 268
8.3 Structured Streaming接入Rate數(shù)據(jù)源 273
8.4 使用Schema解析JSON格式數(shù)據(jù)源 274
8.5 使用DataFrame/Dataset處理流數(shù)據(jù) 277
8.6 Structured Streaming Window操作 282
8.7 Structured Streaming Watermarking操作 288
8.8 Structured Streaming JOIN操作 290
8.9 練習 304
第9章 SparkR 305
9.1 SparkR基礎 305
9.2 構建SparkR程序開發(fā)和運行環(huán)境 307
9.3 SparkR代碼的執(zhí)行方式 308
9.4 SparkR的基本使用 314
9.5 SparkR機器學習算子 323
9.6 利用SparkR實現(xiàn)單詞統(tǒng)計和圖形輸出 326
9.7 練習 329
第10章 GraphX 330
10.1 GraphX基礎 330
10.2 GraphX的基本數(shù)據(jù)結構 335
10.3 GraphX實現(xiàn)最短路徑算法——SGDSP 354
10.4 GraphX Pregel的原理及使用 361
10.5 GraphX Pregel實現(xiàn)最短路徑算法——SGPSP 366
10.6 練習 370
參考文獻 372