注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書教育/教材/教輔教材高職高專教材大數(shù)據(jù)基本處理框架原理與實踐

大數(shù)據(jù)基本處理框架原理與實踐

大數(shù)據(jù)基本處理框架原理與實踐

定 價:¥43.80

作 者: 劉春
出版社: 機(jī)械工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787111694939 出版時間: 2021-12-01 包裝:
開本: 16開 頁數(shù): 216 字?jǐn)?shù):  

內(nèi)容簡介

  本書針對大數(shù)據(jù)處理的兩種典型方式,即批處理和流處理,介紹了當(dāng)前Apache軟件基金會三大軟件開源項目Hadoop、Spark和Storm中主要的存儲及計算框架。本書從初學(xué)者的角度出發(fā),聚焦于大數(shù)據(jù)處理框架的基本原理以及安裝和部署等實踐過程。通過本書的學(xué)習(xí),讀者在了解處理框架的結(jié)構(gòu)、設(shè)計原理以及執(zhí)行流程等原理性知識的同時,還可以結(jié)合本書給出的完整部署過程以及WordCount等示例的完整源代碼,熟悉如何使用這些處理框架來編寫大數(shù)據(jù)處理程序以及大數(shù)據(jù)處理程序的基本結(jié)構(gòu)。本書配套PPT、源代碼等資源,歡迎選用本書作為教材的老師登錄機(jī)工教育服務(wù)網(wǎng)www.cmpedu.com注冊下載。本書可作為高等院校計算機(jī)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)及人工智能或相關(guān)專業(yè)的本科生或研究生教材,也可供相關(guān)工程技術(shù)人員閱讀參考。

作者簡介

暫缺《大數(shù)據(jù)基本處理框架原理與實踐》作者簡介

圖書目錄

前言
第1章大數(shù)據(jù)與基本處理框架1
1.1大數(shù)據(jù)產(chǎn)生的背景1
1.1.1數(shù)字化1
1.1.2網(wǎng)絡(luò)化2
1.2大數(shù)據(jù)的特征2
1.3大數(shù)據(jù)的價值與意義3
1.3.1量變到質(zhì)變3
1.3.2數(shù)據(jù)科學(xué)的產(chǎn)生4
1.3.3思維的變革4
1.4大數(shù)據(jù)帶來的挑戰(zhàn)5
1.5大數(shù)據(jù)的基本處理框架5
1.5.1Hadoop6
1.5.2Spark7
1.5.3Storm8
1.6本章小結(jié)8
第2章運(yùn)行與開發(fā)環(huán)境搭建10
2.1虛擬機(jī)的創(chuàng)建10
2.1.1虛擬化軟件的安裝10
2.1.2虛擬機(jī)的創(chuàng)建11
2.1.3VMware Tools的安裝17
2.2Linux的常用命令18
2.3JDK的安裝18
2.4IDEA+Maven的安裝20
2.4.1IDEA的安裝20
2.4.2Maven的安裝21
2.4.3在IDEA項目中配置JDK
和Maven22
2.5Hadoop運(yùn)行環(huán)境部署23
2.5.1SSH的安裝23
2.5.2Hadoop的安裝24
2.5.3偽分布式環(huán)境配置25
2.6本章小結(jié)27
第3章Hadoop文件系統(tǒng)(HDFS)28
3.1文件系統(tǒng)28
3.2HDFS分布式文件系統(tǒng)28
3.2.1HDFS的設(shè)計目標(biāo)29
3.2.2HDFS的原理與結(jié)構(gòu)30
3.3HDFS的操作流程31
3.3.1HDFS文件讀流程32
3.3.2HDFS文件寫流程32
3.4HDFS的接口34
3.4.1Shell命令34
3.4.2Web客戶端36
3.4.3Java API36
3.5本章小結(jié)40
第4章Hadoop分布式計算框架
MapReduce414.1MapReduce計算框架概述41
4.2MapReduce計算過程42
4.2.1map階段42
4.2.2shuffle階段43
4.2.3reduce階段45
4.3MapReduce的架構(gòu)與運(yùn)行流程45
4.4WordCount的MapReduce程序47
4.4.1WordCount程序的pom.xml文件47
4.4.2WordCount程序的Java文件48
4.4.3WordCount代碼說明50
4.5Mapper/Reducer類源碼解析52
4.6Hadoop的數(shù)據(jù)類型55
4.6.1Hadoop基本數(shù)據(jù)類型55
4.6.2自定義Hadoop數(shù)據(jù)類型56
4.7數(shù)據(jù)輸入格式InputFormat58
4.7.1默認(rèn)的TextInputFormat58
4.7.2getSplits()操作60
4.7.3LineRecordReader62
4.7.4自定義輸入格式65
4.8數(shù)據(jù)的輸出格式OutputFormat66
4.8.1默認(rèn)的輸出格式
TextOutputFormat66
4.8.2LineRecordWriter68
4.8.3自定義輸出格式類型71
4.8.4Hadoop的SequenceFile71
4.9自定義Combiner類72
4.10自定義Partioner類73
4.11多MapReduce任務(wù)的串聯(lián)74
4.12本章小結(jié)78
第5章Hadoop數(shù)據(jù)庫系統(tǒng)HBase79
5.1HBase概述79
5.1.1數(shù)據(jù)庫與數(shù)據(jù)庫系統(tǒng)79
5.1.2傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)80
5.1.3NoSQL數(shù)據(jù)庫系統(tǒng)80
5.1.4HBase數(shù)據(jù)庫系統(tǒng)80
5.2HBase的數(shù)據(jù)模型81
5.2.1HBase的邏輯視圖81
5.2.2HBase的物理視圖82
5.3HBase的架構(gòu)與運(yùn)行機(jī)制83
5.3.1HBase分布式存儲策略83
5.3.2HBase的運(yùn)行架構(gòu)85
5.4HBase的安裝與部署88
5.4.1安裝ZooKeeper88
5.4.2安裝HBase 90
5.4.3偽分布式環(huán)境配置90
5.5HBase操作接口與實踐92
5.5.1HBase Shell命令92
5.5.2Java API96
5.6本章小結(jié)107
第6章分布式內(nèi)存計算框架Spark108
6.1Spark概述108
6.1.1MapReduce計算框架的局限性108
6.1.2Spark的優(yōu)勢與特點109
6.2Spark的架構(gòu)110
6.2.1Spark的基本組件110
6.2.2Spark的運(yùn)行流程111
6.3RDD112
6.3.1RDD的概念與Spark計算模型112
6.3.2RDD的各種操作114
6.3.3RDD之間的依賴關(guān)系118
6.3.4RDD計算過程的容錯處理121
6.4Scala語言介紹122
6.4.1變量和類型123
6.4.2控制結(jié)構(gòu)129
6.5Spark的安裝部署131
6.5.1Spark安裝文件的下載131
6.5.2Spark的安裝過程132
6.6基于Spark Shell的WordCount程序133
6.6.1啟動Spark Shell133
6.6.2從本地及HDFS讀取
WordCount數(shù)據(jù)134
6.6.3退出Spark Shell136
6.7基于IDEA+Maven的
WordCount程序136
6.7.1IDEA安裝Scala插件與SDK137
6.7.2基于Scala的WordCount Spark
應(yīng)用程序139
6.7.3基于Java的WordCount Spark
應(yīng)用程序144
6.8Spark與HBase的整合146
6.8.1pom.xml文件147
6.8.2Scala Class文件148
6.9Spark創(chuàng)建RDD的常用方式150
6.9.1基于Scala集合創(chuàng)建RDD150
6.9.2基于外部存儲系統(tǒng)創(chuàng)建RDD151
6.10Spark的共享變量152
6.10.1廣播變量152
6.10.2累加器153
6.11本章小結(jié)154
第7章Spark流計算框架
(Spark Streaming)1567.1流計算與流計算框架156
7.2Spark Streaming的原理與概念157
7.2.1Spark Streaming的設(shè)計原理157
7.2.2Dstream與Dstream graph157
7.2.3Spark Streaming的結(jié)構(gòu)
與執(zhí)行流程160
7.2.4Spark Streaming的容錯處理162
7.3Spark Streaming的WordCount案例163
7.3.1以Socket為數(shù)據(jù)源163
7.3.2以文本文件目錄為數(shù)據(jù)源166
7.4Spark Streaming整合Flume167
7.4.1Flume介紹167
7.4.2Flume的下載安裝與配置169
7.4.3整合Flume與Spark Streaming172
7.5Spark Streaming整合Kafka178
7.5.1Kafka介紹178
7.5.2Kafka的下載安裝180
7.5.3Kafka的常用命令181
7.5.4整合Kafka與Spark Streaming181
7.6本章小結(jié)184
第8章實時流計算框架Storm185
8.1Storm的邏輯架構(gòu)185
8.2Storm的物理架構(gòu)186
8.2.1Storm集群的架構(gòu)186
8.2.2數(shù)據(jù)流的分組策略187
8.3Storm的消息容錯機(jī)制188
8.4Strom的下載與安裝190
8.4.1Storm的安裝配置190
8.4.2Storm的啟動191
8.5Storm的WordCount程序192
8.5.1Pom.xml文件193
8.5.2Java Class文件193
8.5.3提交集群運(yùn)行198

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號