注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書教育/教材/教輔教材高職高專教材大數(shù)據(jù)技術(shù)基礎(chǔ)及應(yīng)用教程(Linux+Hadoop+Spark)

大數(shù)據(jù)技術(shù)基礎(chǔ)及應(yīng)用教程(Linux+Hadoop+Spark)

大數(shù)據(jù)技術(shù)基礎(chǔ)及應(yīng)用教程(Linux+Hadoop+Spark)

定 價(jià):¥59.90

作 者: 井超,樊永生 等
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111710912 出版時(shí)間: 2022-08-01 包裝:
開本: 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書從大數(shù)據(jù)技術(shù)相關(guān)概念出發(fā),系統(tǒng)介紹了構(gòu)建大數(shù)據(jù)平臺的相關(guān)技術(shù),并在此基礎(chǔ)上進(jìn)行離線數(shù)據(jù)分析和在線數(shù)據(jù)分析。全書共三篇,分為7章,內(nèi)容包括技術(shù)基礎(chǔ)篇、分布式集群篇、平臺構(gòu)建篇,第壹篇包括大數(shù)據(jù)技術(shù)概述、大數(shù)據(jù)分析技術(shù),第二篇包括Linux技術(shù)基礎(chǔ)、Hadoop技術(shù)基礎(chǔ)及構(gòu)建Hadoop集群、Spark技術(shù)基礎(chǔ)及構(gòu)建Spark集群,第三篇包括構(gòu)建基于Spark的實(shí)時(shí)交易數(shù)據(jù)統(tǒng)計(jì)平臺、構(gòu)建基于Hadoop的離線電商大數(shù)據(jù)分析平臺。 本書以理論為基礎(chǔ),以實(shí)例為引導(dǎo),完整闡述了如何從無到有搭建大數(shù)據(jù)平臺,并在此平臺基礎(chǔ)上進(jìn)行應(yīng)用。本書配套資源豐富,包括教學(xué)PPT、所有程序的源代碼、相關(guān)集群虛擬機(jī)、擴(kuò)展學(xué)習(xí)視頻、課后練習(xí)題及答案,可方便授課教師教學(xué)及學(xué)生自學(xué)。 本書可作為高校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)等相關(guān)專業(yè)的教材,也可作為對大數(shù)據(jù)技術(shù)感興趣的相關(guān)人員的參考用書。

作者簡介

暫缺《大數(shù)據(jù)技術(shù)基礎(chǔ)及應(yīng)用教程(Linux+Hadoop+Spark)》作者簡介

圖書目錄

目錄
前言
第一篇 技術(shù)基礎(chǔ)篇

第1章 大數(shù)據(jù)技術(shù)概述2
1.1 大數(shù)據(jù)的基本概念2
1.1.1 大數(shù)據(jù)的產(chǎn)生階段2
1.1.2 大數(shù)據(jù)的特征2
1.1.3 大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用3
1.1.4 大數(shù)據(jù)的核心技術(shù)和計(jì)算模式3
1.2 分布式技術(shù)與集群4
1.2.1 分布式技術(shù)概述4
1.2.2 分布式大數(shù)據(jù)集群概述4
1.3 大數(shù)據(jù)技術(shù)生態(tài)圈7
1.3.1 Linux操作系統(tǒng)7
1.3.2 Hadoop生態(tài)系統(tǒng)9
1.3.3 Spark對Hadoop的完善13
本章小結(jié)13
本章練習(xí)13
第2章 大數(shù)據(jù)分析技術(shù)15
2.1 大數(shù)據(jù)分析流程及相關(guān)技術(shù)15
2.1.1 數(shù)據(jù)采集與預(yù)處理15
2.1.2 大數(shù)據(jù)存儲16
2.1.3 大數(shù)據(jù)分析與挖掘17
2.1.4 數(shù)據(jù)可視化18
2.2 大數(shù)據(jù)分析常用方法18
2.2.1 數(shù)理統(tǒng)計(jì)分析18
2.2.2 聚類分析18
2.2.3 分類分析19
2.2.4 回歸分析19
2.3 數(shù)據(jù)分析基礎(chǔ)工具19
2.3.1 數(shù)據(jù)采集工具—Selenium和
PhantomJS19
2.3.2 數(shù)據(jù)清洗工具—Kettle20
2.3.3 數(shù)據(jù)存儲工具—MongoDB和
MySQL21
2.3.4 機(jī)器學(xué)習(xí)工具—Scikit-learn23
2.3.5 數(shù)據(jù)可視化工具—Matplotlib、
PyEcharts、Superset23
本章小結(jié)25
本章練習(xí)26
第二篇 分布式集群篇

第3章 Linux技術(shù)基礎(chǔ)28
3.1 用戶與組管理28
3.1.1 用戶管理相關(guān)命令28
3.1.2 組管理相關(guān)命令29
3.1.3 其他命令29
3.2 文件與目錄管理29
3.2.1 常用文件操作命令29
3.2.2 目錄操作命令31
3.2.3 改變文件或目錄訪問權(quán)限32
3.2.4 文件備份和壓縮33
3.3 進(jìn)程管理與作業(yè)控制33
3.3.1 進(jìn)程查看34
3.3.2 進(jìn)程調(diào)度34
3.4 磁盤存儲管理34
3.4.1 磁盤管理命令35
3.4.2 存取命令35
3.5 系統(tǒng)管理與常用網(wǎng)絡(luò)命令35
3.5.1 系統(tǒng)管理35
3.5.2 常用網(wǎng)絡(luò)命令36
3.6 在線幫助系統(tǒng)36
3.7 實(shí)踐:Linux操作系統(tǒng)的
安裝與部署37
3.7.1 Linux的安裝和卸載37
3.7.2 局域網(wǎng)主機(jī)間遠(yuǎn)程復(fù)制文件/
目錄38
3.7.3 XML文件介紹38
3.7.4 VMware安裝及CentOS系統(tǒng)
環(huán)境準(zhǔn)備40
3.7.5 克隆虛擬機(jī)48
3.7.6 配置主機(jī)名50
3.7.7 配置網(wǎng)絡(luò)IP地址51
本章小結(jié)53
本章練習(xí)53
第4章 Hadoop技術(shù)基礎(chǔ)及構(gòu)建
Hadoop集群55
4.1 Hadoop技術(shù)基礎(chǔ)55
4.1.1 Hadoop的組成55
4.1.2 Hadoop的運(yùn)行模式62
4.1.3 HDFS文件的存取63
4.1.4 Hadoop集群的環(huán)境配置64
4.1.5 Hadoop集群的搭建65
4.1.6 啟動(dòng)Hadoop集群69
4.2 ZooKeeper技術(shù)基礎(chǔ)及部署70
4.2.1 ZooKeeper簡介70
4.2.2 ZooKeeper的安裝部署73
4.2.3 Leader選舉機(jī)制75
4.2.4 ZooKeeper客戶端訪問集群
(命令行操作方式)82
4.3 HDFS與YARN高可用技術(shù)
基礎(chǔ)84
4.3.1 HDFS高可用的工作機(jī)制84
4.3.2 HDFS高可用配置85
4.3.3 YARN高可用的工作機(jī)制93
4.3.4 YARN高可用配置94
4.4 實(shí)踐:HDFS及MapReduce的
應(yīng)用示例98
4.4.1 讀寫HDFS文件98
4.4.2 MapReduce操作 1:二次排序105
4.4.3 MapReduce操作 2:計(jì)數(shù)器110
4.4.4 MapReduce操作 3:Join操作113
本章小結(jié)119
本章練習(xí)119
第5章 Spark技術(shù)基礎(chǔ)及構(gòu)建
Spark集群121
5.1 Spark核心機(jī)制121
5.1.1 Spark基本原理121
5.1.2 Spark系統(tǒng)架構(gòu)122
5.1.3 Spark Shell操作123
5.2 Hive原理及實(shí)踐124
5.2.1 Hive定義124
5.2.2 Hive架構(gòu)124
5.2.3 Hive表分類及查詢操作126
5.3 HBase原理及實(shí)踐130
5.3.1 HBase定義130
5.3.2 HBase集群架構(gòu)130
5.3.3 HBase數(shù)據(jù)模型131
5.4 Kafka原理及實(shí)踐133
5.4.1 Kafka定義133
5.4.2 Kafka消息隊(duì)列133
5.4.3 Kafka基礎(chǔ)架構(gòu)134
5.5 Flume原理及實(shí)踐135
5.5.1 Flume簡介135
5.5.2 Flume基礎(chǔ)架構(gòu)135
5.6 實(shí)踐:搭建基于Spark的實(shí)時(shí)
大數(shù)據(jù)平臺137
5.6.1 Spark安裝部署137
5.6.2 MySQL安裝部署140
5.6.3 Hive安裝部署141
5.6.4 HBase安裝部署143
5.6.5 Kafka安裝部署147
5.6.6 Flume安裝部署149
5.6.7 Spark集群典型應(yīng)用150
本章小結(jié)158
本章練習(xí)158

第三篇 平臺構(gòu)建篇

第6章 構(gòu)建基于Spark的實(shí)時(shí)交易
數(shù)據(jù)統(tǒng)計(jì)平臺161
6.1 系統(tǒng)需求與架構(gòu)161
6.1.1 系統(tǒng)背景介紹161
6.1.2 系統(tǒng)功能需求162
6.1.3 系統(tǒng)架構(gòu)設(shè)計(jì)162
6.2 Redis簡介163
6.2.1 Redis數(shù)據(jù)庫的作用163
6.2.2 Redis部署與啟動(dòng)163
6.2.3 Redis常用命令165
6.3 系統(tǒng)開發(fā)流程166
6.4 數(shù)據(jù)獲取模塊實(shí)現(xiàn)174
6.4.1 模擬訂單數(shù)據(jù)174
6.4.2 向Kafka集群發(fā)送訂單數(shù)據(jù)175
6.5 數(shù)據(jù)分析與處理模塊實(shí)現(xiàn)178
6.5.1 分析訂單數(shù)據(jù)178
6.5.2 生成結(jié)果182
6.6 數(shù)據(jù)可視化模塊實(shí)現(xiàn)182
6.6.1 搭建Web開發(fā)環(huán)境183
6.6.2 實(shí)現(xiàn)數(shù)據(jù)展示功能185
6.6.3 可視化平臺展示192
本章小結(jié)192
本章練習(xí)192
第7章 構(gòu)建基于Hadoop的離線
電商大數(shù)據(jù)分析平臺194
7.1 系統(tǒng)需求與架構(gòu)194
7.1.1 系統(tǒng)背景介紹194
7.1.2 系統(tǒng)功能需求195
7.1.3 系統(tǒng)架構(gòu)設(shè)計(jì)195
7.2 數(shù)據(jù)采集模塊實(shí)現(xiàn)196
7.2.1 商品信息爬取196
7.2.2 調(diào)試分析210
7.3 數(shù)據(jù)處理與存儲模塊實(shí)現(xiàn)211
7.3.1 信息分析與處理211
7.3.2 商品信息存儲220
7.3.3 調(diào)試分析222
7.4 數(shù)據(jù)可視化模塊實(shí)現(xiàn)222
7.4.1 使用Superset連接MySQL
數(shù)據(jù)庫223
7.4.2 調(diào)試分析223
本章小結(jié)226
本章練習(xí)227
參考文獻(xiàn)228

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號