123,123

內(nèi)容簡(jiǎn)介

　　Spark是當(dāng)今大數(shù)據(jù)領(lǐng)域最活躍、最熱門(mén)、最高效的大數(shù)據(jù)通用計(jì)算平臺(tái)，是Apache軟件基金會(huì)下所有開(kāi)源項(xiàng)目中三大頂級(jí)開(kāi)源項(xiàng)目之一。在“One Stack to rule them all”理念的指引下，Spark基于RDD成功地構(gòu)建起了大數(shù)據(jù)處理的一體化解決方案，將MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大數(shù)據(jù)計(jì)算模型統(tǒng)一到一個(gè)技術(shù)堆棧中，開(kāi)發(fā)者使用一致的API操作Spark中的所有功能；更為重要的是Spark的Spark SQL、MLlib、GraphX、Spark Streaming等四大子框架之間可以在內(nèi)存中完美地?zé)o縫集成并可以互相操作彼此的數(shù)據(jù)，這不僅打造了Spark在當(dāng)今大數(shù)據(jù)計(jì)算領(lǐng)域其他任何計(jì)算框架都無(wú)可匹敵的優(yōu)勢(shì)，更使得Spark正在加速成為大數(shù)據(jù)處理中心首選的和唯一的計(jì)算平臺(tái)。本書(shū)詳細(xì)解析了企業(yè)級(jí)Spark開(kāi)發(fā)所需的幾乎所有技術(shù)內(nèi)容，涵蓋Spark的架構(gòu)設(shè)計(jì)、Spark的集群搭建、Spark內(nèi)核的解析、Spark SQL、MLlib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多語(yǔ)言編程、Spark常見(jiàn)問(wèn)題及調(diào)優(yōu)等，并且結(jié)合Spark源碼細(xì)致地解析了Spark內(nèi)核和四大子框架，最后在附錄中提供了Spark的開(kāi)發(fā)語(yǔ)言Scala快速入門(mén)實(shí)戰(zhàn)內(nèi)容，學(xué)習(xí)完此書(shū)即可勝任絕大多數(shù)的企業(yè)級(jí)Spark開(kāi)發(fā)需求。

作者簡(jiǎn)介

　　Spark亞太研究院首席專家，中國(guó)移動(dòng)互聯(lián)網(wǎng)和云計(jì)算大數(shù)據(jù)集大成者。在Spark、Hadoop、Android等方面有豐富的源碼、實(shí)務(wù)和性能優(yōu)化經(jīng)驗(yàn)。徹底研究了Spark從0.5.0到0.9.1共13個(gè)版本的Spark源碼，并已完成2014年5月31日發(fā)布的Spark1.0源碼研究。Hadoop源碼級(jí)專家，曾負(fù)責(zé)某知名公司的類Hadoop框架開(kāi)發(fā)工作，專注于Hadoop一站式解決方案的提供，同時(shí)也是云計(jì)算分布式大數(shù)據(jù)處理的最早實(shí)踐者之一。Android架構(gòu)師、高級(jí)工程師、咨詢顧問(wèn)、培訓(xùn)專家。通曉Spark、Hadoop、Android、HTML5，迷戀英語(yǔ)播音和健美。

圖書(shū)目錄

第1章　Spark編程模型 1
1.1 Spark：一體化、多元化的高速
大數(shù)據(jù)通用計(jì)算平臺(tái)和庫(kù) 1
1.1.1 為什么需要使用Spark 5
1.1.2 Spark技術(shù)生態(tài)系統(tǒng)簡(jiǎn)介 9
1.2 Spark大數(shù)據(jù)處理框架 20
1.2.1 Spark速度為何如此之快 20
1.2.2 RDD：分布式函數(shù)式編程 24
1.3 Spark子框架解析 28
1.3.1 圖計(jì)算框架Spark GraphX 28
1.3.2 實(shí)時(shí)流處理框架
（Spark Streaming） 41
1.3.3 交互式SQL處理框架
Spark SQL 46
1.3.4 機(jī)器學(xué)習(xí)框架
（Spark MLlib） 49
第2章　構(gòu)建Spark分布式集群 55
2.1 搭建Hadoop單機(jī)版本和偽
分布式開(kāi)發(fā)環(huán)境 55
2.1.1 開(kāi)發(fā)Hadoop需要的基本
軟件 56
2.1.2 安裝每個(gè)軟件 58
2.1.3 配置Hadoop單機(jī)模式并
運(yùn)行Wordcount示例 76
2.1.4 配置Hadoop偽分布模式
并運(yùn)行Wordcount示例 84
2.2 搭建 Hadoop分布式集群 92
2.2.1 在VMWare 中準(zhǔn)備第二、
第三臺(tái)運(yùn)行Ubuntu系統(tǒng)的
機(jī)器 92
2.2.2 按照配置偽分布式模式
的方式配置新創(chuàng)建運(yùn)行
Ubuntu系統(tǒng)的機(jī)器 93
2.2.3 配置Hadoop分布式集群
環(huán)境 94
2.2.4 測(cè)試Hadoop分布式集群
環(huán)境 105
2.3 Spark集群的動(dòng)手搭建 108
2.3.1 Spark集群需要的軟件 108
2.3.2 安裝每個(gè)軟件 110
2.3.3 啟動(dòng)并查看集群的狀況 116
2.4 構(gòu)建Hadoop單機(jī)版本和偽
分布式環(huán)境 120
2.4.1 通過(guò)Spark的shell測(cè)試
Spark的工作 121
2.4.2 使用Spark的cache機(jī)制
觀察一下效率的提升 125
第3章　Spark開(kāi)發(fā)環(huán)境及其測(cè)試 129
3.1 搭建和設(shè)置IDEA開(kāi)發(fā)環(huán)境 129
3.1.1 構(gòu)建Spark的IDE開(kāi)發(fā)
環(huán)境 129
3.1.2 配置Spark的IDE開(kāi)發(fā)
環(huán)境 132
3.2 測(cè)試IDEA環(huán)境 146
3.3 實(shí)戰(zhàn)：在IDEA中開(kāi)發(fā)代碼，
并運(yùn)行在Spark集群中 148
第4章　Spark RDD與編程API
實(shí)戰(zhàn) 159
4.1 深度解析Spark RDD 159
4.2 Transformation Operations
動(dòng)手實(shí)戰(zhàn) 165
4.3 Action Operations動(dòng)手實(shí)戰(zhàn) 175
4.4 Spark API綜合實(shí)戰(zhàn) 179
第5章　Spark運(yùn)行模式深入解析 191
5.1 Spark運(yùn)行模式概述 192
5.1.1 Spark的運(yùn)行模式列表 196
5.1.2 Spark的基本工作流程 197
5.2 Standalone模式 201
5.2.1 部署及程序運(yùn)行 202
5.2.2 內(nèi)部實(shí)現(xiàn)原理 206
5.3 Yarn-Cluster模式 234
5.3.1 部署及程序運(yùn)行 235
5.3.2 內(nèi)部實(shí)現(xiàn)原理 237
5.4 Yarn-Client模式 243
5.4.1 部署及運(yùn)行程序 243
5.4.2 內(nèi)部實(shí)現(xiàn)原理 244
第6章　Spark內(nèi)核解析 247
6.1 Spark內(nèi)核初探 247
6.1.1 Spark內(nèi)核核心術(shù)語(yǔ)解析 247
6.1.2 Spark集群概覽 250
6.1.3 Spark核心組件 251
6.1.4 Spark任務(wù)調(diào)度系統(tǒng)初見(jiàn) 252
6.2 Spark內(nèi)核核心源碼解讀 256
6.2.1 SparkContext核心源碼
解析初體驗(yàn) 256
6.2.2 TaskSceduler啟動(dòng)源碼
解析初體驗(yàn) 260
6.2.3 DAGScheduler源碼解讀
初體驗(yàn) 261
6.2.4 Spark的Web監(jiān)控頁(yè)面 262
6.3 以RDD的count操作為例觸發(fā)
Job全生命周期源碼研究 263
6.4 Akka驅(qū)動(dòng)下的Driver、
Master、Worker 276
6.4.1 Driver中的AppClient
源碼解析 276
6.4.2 AppClient注冊(cè)Master 279
6.4.3 Worker中Executor啟動(dòng)
過(guò)程源代碼解析 282
第7章　GraphX大規(guī)模圖計(jì)算與
圖挖掘?qū)崙?zhàn) 287
7.1 Spark GraphX概覽 288
7.2 Spark GraphX設(shè)計(jì)實(shí)現(xiàn)的
核心原理 291
7.3 Table operator和Graph
Operator 295
7.4 Vertices、edges、triplets 296
7.5 以最原始的方式構(gòu)建graph 299
7.6 動(dòng)手編寫(xiě)第一個(gè)Graph代碼
實(shí)例并進(jìn)行Vertices、edges、
triplets操作 299
7.7 在Spark集群上使用文件中
的數(shù)據(jù)加載成為graph并進(jìn)
行操作 310
7.8 在Spark集群上掌握比較重
要的圖操作 320
7.9 Spark GraphX圖算法 342
7.10 淘寶對(duì)Spark GraphX的大
規(guī)模使用 347
第8章　Spark SQL原理與實(shí)戰(zhàn) 349
8.1 為什么使用Spark SQL 349
8.1.1 Spark SQL的發(fā)展歷程 349
8.1.2 Spark SQL的性能 351
8.2 Spark SQL運(yùn)行架構(gòu) 355
8.2.1 Tree和Rule 357
8.2.2 sqlContext的運(yùn)行過(guò)程 360
8.2.3 hiveContext的運(yùn)行過(guò)程 362
8.2.4 catalyst優(yōu)化器 365
8.3 解析Spark SQL組件 367
8.3.1 LogicalPlan 367
8.3.2 SqlParser 370
8.3.3 Analyzer 378
8.3.4 Optimizer 381
8.4 深入了解Spark SQL運(yùn)行
的計(jì)劃 383
8.4.1 hive/console的安裝過(guò)程
和原理 383
8.4.2 常用操作 386
8.4.3 不同數(shù)據(jù)源的運(yùn)行計(jì)劃 388
8.4.4 不同查詢的運(yùn)行計(jì)劃 391
8.4.5 查詢的優(yōu)化 393
8.5 搭建測(cè)試環(huán)境 396
8.5.1 搭建虛擬集群（Hadoop1、
Hadoop2、Hadoop3） 397
8.5.2 搭建客戶端 398
8.5.3 文件數(shù)據(jù)的準(zhǔn)備工作 399
8.5.4 Hive數(shù)據(jù)的準(zhǔn)備工作 399
8.6 Spark SQL之基礎(chǔ)應(yīng)用 400
8.6.1 sqlContext的基礎(chǔ)應(yīng)用 402
8.6.2 hiveContext的基礎(chǔ)應(yīng)用 405
8.6.3 混合使用 408
8.6.4 緩存的使用 409
8.6.5 DSL的使用 410
8.7 ThriftServer和CLI 411
8.7.1 令人驚訝的CLI 411
8.7.2 ThriftServer 414
8.8 Spark SQL之綜合應(yīng)用 418
8.8.1 店鋪分類 419
8.8.2 PageRank 421
8.9 Spark SQL之調(diào)優(yōu) 424
8.9.1 并行性 424
8.9.2 高效的數(shù)據(jù)格式 425
8.9.3 內(nèi)存的使用 427
8.9.4 合適的Task 428
8.9.5 其他的一些建議 428
第9章　Machine Learning on
Spark 431
9.1 Spark MLlib機(jī)器學(xué)習(xí) 431
9.1.1 機(jī)器學(xué)習(xí)快速入門(mén) 432
9.1.2 Spark MLlib介紹 442
9.1.3 Spark MLlib架構(gòu)解析 447
9.1.4 Spark Mllib核心解析 458
9.2 MLlib經(jīng)典算法解析和案例
實(shí)戰(zhàn) 462
9.2.1 Linear Regression解析和
實(shí)戰(zhàn) 462
9.2.2 K-Means解析和實(shí)戰(zhàn) 484
9.2.3 協(xié)同過(guò)濾算法分析和案例
實(shí)戰(zhàn) 502
9.3 MLLib其他常用算法解析
和代碼實(shí)戰(zhàn) 552
9.3.1 Basic Statics解析和實(shí)戰(zhàn) 553
9.3.2 MLlib樸素貝葉斯解析和
實(shí)戰(zhàn) 560
9.3.3 MLlib決策樹(shù)解析和實(shí)戰(zhàn) 562
第10章　Tachyon文件系統(tǒng) 565
10.1 Tachyon文件系統(tǒng)概述 565
10.1.1 Tachyon文件系統(tǒng)簡(jiǎn)介 565
10.1.2 HDFS與Tachyon 566
10.1.3 Tachyon設(shè)計(jì)原理 568
10.2 Tachyon入門(mén) 568
10.2.1 Tachyon部署 568
10.2.2 Tachyon API的使用 570
10.2.3 在MapReduce、Spark
上使用Tachyon 572
10.3 Tachyon深度解析 573
10.3.1 Tachyon整體設(shè)計(jì)概述 573
10.3.2 Tachyon Master啟動(dòng)流
程分析 574
10.3.3 Tachyon Worker啟動(dòng)流
程分析 577
10.3.4 客戶端讀寫(xiě)文件源碼分析 577
10.4 Tachyon配置參數(shù)一覽 579
10.5 小結(jié) 580
第11章　Spark Streaming原理
與實(shí)戰(zhàn) 581
11.1 Spark Streaming原理 581
11.1.1 原理和運(yùn)行場(chǎng)景 581
11.1.2 編程模型DStream 584
11.1.3 持

作　者：	Spark亞太研究院
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	計(jì)算機(jī)/網(wǎng)絡(luò) 企業(yè)軟件開(kāi)發(fā)與實(shí)施

ISBN：	9787121247446	出版時(shí)間：	2015-01-01	包裝：
開(kāi)本：		頁(yè)數(shù)：		字?jǐn)?shù)：

大數(shù)據(jù)Spark企業(yè)級(jí)實(shí)戰(zhàn)

購(gòu)買(mǎi)這本書(shū)可以去

內(nèi)容簡(jiǎn)介

作者簡(jiǎn)介

圖書(shū)目錄

本目錄推薦

零基礎(chǔ)五筆打字+電腦辦公：從入…

五筆打字新手速成一本通

DeepSeek極速辦公：告別內(nèi)卷，讓…

AI辦公助手 ChatGPT+Office智能…

Word/Excel辦公應(yīng)用實(shí)戰(zhàn)

小學(xué)生學(xué)電腦WPS Office（全3冊(cè)…

Word/Excel/PPT/AI辦公應(yīng)用從入…

對(duì)比Excel，輕松學(xué)習(xí)Python數(shù)據(jù)…

Excel大神是怎么做表的

Excel零基礎(chǔ)高效辦公與數(shù)據(jù)處理…