注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)自動化技術(shù)、計(jì)算技術(shù)Hadoop數(shù)據(jù)分析

Hadoop數(shù)據(jù)分析

Hadoop數(shù)據(jù)分析

定 價(jià):¥69.00

作 者: [美] 本杰明·班福特(Benjamin Bengfort) 著,王純超 譯
出版社: 人民郵電出版社
叢編項(xiàng): 圖靈程序設(shè)計(jì)叢書
標(biāo) 簽: 暫缺

ISBN: 9787115479648 出版時(shí)間: 2018-04-01 包裝: 平裝
開本: 16開 頁數(shù): 211 字?jǐn)?shù):  

內(nèi)容簡介

  通過提供分布式數(shù)據(jù)存儲和并行計(jì)算框架,Hadoop已經(jīng)從一個(gè)集群計(jì)算的抽象演化成了一個(gè)大數(shù)據(jù)的操作系統(tǒng)。本書旨在通過以可讀且直觀的方式提供集群計(jì)算和分析的概覽,為數(shù)據(jù)科學(xué)家深入了解特定主題領(lǐng)域鋪平道路,從數(shù)據(jù)科學(xué)家的視角介紹Hadoop集群計(jì)算和分析。本書分為兩大部分,* 一部分從非常高的層次介紹分布式計(jì)算,討論如何在集群上運(yùn)行計(jì)算;* 二部分則重點(diǎn)關(guān)注數(shù)據(jù)科學(xué)家應(yīng)該了解的工具和技術(shù),意在為各種分析和大規(guī)模數(shù)據(jù)管理提供動力。

作者簡介

  Benjamin Bengfort,數(shù)據(jù)科學(xué)家,目前正在馬里蘭大學(xué)攻讀博士學(xué)位,方向?yàn)闄C(jī)器學(xué)習(xí)和分布式計(jì)算;熟悉自然語言處理、Python數(shù)據(jù)科學(xué)、Hadoop和Spark分析等。Jenny Kim,經(jīng)驗(yàn)豐富的大數(shù)據(jù)工程師,不僅進(jìn)行商業(yè)軟件的開發(fā),在學(xué)術(shù)界也有所建樹,在海量數(shù)據(jù)、機(jī)器學(xué)習(xí)以及生產(chǎn)和研究環(huán)境的Hadoop實(shí)施方面有深入研究。目前任職于Cloudera的Hue團(tuán)隊(duì)。

圖書目錄

前言 ix
* 一部分 分布式計(jì)算入門
* 1章 數(shù)據(jù)產(chǎn)品時(shí)代 2
1.1 什么是數(shù)據(jù)產(chǎn)品 2
1.2 使用Hadoop構(gòu)建大規(guī)模數(shù)據(jù)產(chǎn)品 4
1.2.1 利用大型數(shù)據(jù)集 4
1.2.2 數(shù)據(jù)產(chǎn)品中的Hadoop 5
1.3 數(shù)據(jù)科學(xué)流水線和Hadoop生態(tài)系統(tǒng) 6
1.4 小結(jié) 8
* 2 章 大數(shù)據(jù)操作系統(tǒng) 9
2.1 基本概念 10
2.2 Hadoop架構(gòu) 11
2.2.1 Hadoop集群 12
2.2.2 HDFS 14
2.2.3 YARN 15
2.3 使用分布式文件系統(tǒng) 16
2.3.1 基本的文件系統(tǒng)操作 16
2.3.2 HDFS文件權(quán)限 18
2.3.3 其他HDFS接口 19
2.4 使用分布式計(jì)算 20
2.4.1 MapReduce:函數(shù)式編程模型 20
2.4.2 MapReduce:集群上的實(shí)現(xiàn) 22
2.4.3 不止一個(gè)MapReduce:作業(yè)鏈 27
2.5 向YARN 提交MapReduce 作業(yè) 28
2.6 小結(jié) 30
第3 章 Python 框架和Hadoop Streaming 31
3.1 Hadoop Streaming 32
3.1.1 使用Streaming在CSV 數(shù)據(jù)上運(yùn)行計(jì)算 34
3.1.2 執(zhí)行Streaming作業(yè) 38
3.2 Python 的MapReduce框架 39
3.2.1 短語計(jì)數(shù) 42
3.2.2 其他框架 45
3.3 MapReduce進(jìn)階 46
3.3.1 combiner 46
3.3.2 partitioner 47
3.3.3 作業(yè)鏈 47
3.4 小結(jié) 50
第4 章 Spark內(nèi)存計(jì)算 52
4.1 Spark基礎(chǔ) 53
4.1.1 Spark棧 54
4.1.2 RDD 55
4.1.3 使用RDD 編程 56
4.2 基于PySpark的交互性Spark 59
4.3 編寫Spark應(yīng)用程序 61
4.4 小結(jié) 67
第5 章 分布式分析和模式 69
5.1 鍵計(jì)算 70
5.1.1 復(fù)合鍵 71
5.1.2 鍵空間模式 74
5.1.3 pair與stripe 78
5.2 設(shè)計(jì)模式 80
5.2.1 概要 81
5.2.2 索引 85
5.2.3 過濾 90
5.3 邁向* 后一英里分析 95
5.3.1 模型擬合 96
5.3.2 模型驗(yàn)證 97
5.4 小結(jié) 98
* 二部分 大數(shù)據(jù)科學(xué)的工作流和工具
第6 章 數(shù)據(jù)挖掘和數(shù)據(jù)倉 102
6.1 Hive 結(jié)構(gòu)化數(shù)據(jù)查詢 103
6.1.1 Hive 命令行接口(CLI) 103
6.1.2 Hive 查詢語言 104
6.1.3 Hive 數(shù)據(jù)分析 108
6.2 HBase 113
6.2.1 NoSQL 與列式數(shù)據(jù)庫 114
6.2.2 HBase 實(shí)時(shí)分析 116
6.3 小結(jié) 122
第7 章 數(shù)據(jù)采集 123
7.1 使用Sqoop 導(dǎo)入關(guān)系數(shù)據(jù) 124
7.1.1 從MySQL 導(dǎo)入HDFS 124
7.1.2 從MySQL 導(dǎo)入Hive 126
7.1.3 從MySQL 導(dǎo)入HBase 128
7.2 使用Flume 獲取流式數(shù)據(jù) 130
7.2.1 Flume 數(shù)據(jù)流 130
7.2.2 使用Flume 獲取產(chǎn)品印象數(shù)據(jù) 133
7.3 小結(jié) 136
第8 章 使用高 級API 進(jìn)行分析 137
8.1 Pig 137
8.1.1 Pig Latin 138
8.1.2 數(shù)據(jù)類型 142
8.1.3 關(guān)系運(yùn)算符 142
8.1.4 用戶定義函數(shù) 143
8.1.5 Pig 小結(jié) 144
8.2 Spark 高 級API 144
8.2.1 Spark SQL 146
8.2.2 DataFrame 148
8.3 小結(jié) 153
第9 章 機(jī)器學(xué)習(xí) 154
9.1 使用Spark 進(jìn)行可擴(kuò)展的機(jī)器學(xué)習(xí) 154
9.1.1 協(xié)同過濾 156
9.1.2 分類 161
9.1.3 聚類 163
9.2 小結(jié) 166
* 10 章 總結(jié):分布式數(shù)據(jù)科學(xué)實(shí)戰(zhàn) 167
10.1 數(shù)據(jù)產(chǎn)品生命周期 168
10.1.1 數(shù)據(jù)湖泊 169
10.1.2 數(shù)據(jù)采集 171
10.1.3 計(jì)算數(shù)據(jù)存儲 172
10.2 機(jī)器學(xué)習(xí)生命周期 173
10.3 小結(jié) 175
附錄A 創(chuàng)建Hadoop 偽分布式開發(fā)環(huán)境 176
附錄B 安裝Hadoop 生態(tài)系統(tǒng)產(chǎn)品 184
術(shù)語表 193
關(guān)于作者 211
關(guān)于封面 211

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號