注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫Hadoop構(gòu)建數(shù)據(jù)倉庫實踐

Hadoop構(gòu)建數(shù)據(jù)倉庫實踐

Hadoop構(gòu)建數(shù)據(jù)倉庫實踐

定 價:¥89.00

作 者: 王雪迎 著
出版社: 清華大學(xué)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787302469803 出版時間: 2017-06-01 包裝: 平裝
開本: 16開 頁數(shù): 434 字?jǐn)?shù):  

內(nèi)容簡介

  本書講述在流行的大數(shù)據(jù)分布式存儲和計算平臺Hadoop上設(shè)計實現(xiàn)數(shù)據(jù)倉庫,將傳統(tǒng)數(shù)據(jù)倉庫建模與SQL開發(fā)的簡單性與大數(shù)據(jù)技術(shù)相結(jié)合,快速、高效地建立可擴(kuò)展的數(shù)據(jù)倉庫及其應(yīng)用系統(tǒng)?!”緯鴥?nèi)容包括數(shù)據(jù)倉庫、Hadoop及其生態(tài)圈的相關(guān)概念,使用Sqoop從關(guān)系數(shù)據(jù)庫全量或增量抽取數(shù)據(jù),使用HIVE進(jìn)行數(shù)據(jù)轉(zhuǎn)換和裝載處理,使用Oozie調(diào)度作業(yè)周期性執(zhí)行,使用Impala進(jìn)行快速聯(lián)機(jī)數(shù)據(jù)分析,使用Hue將數(shù)據(jù)可視化,以及數(shù)據(jù)倉庫中的漸變維(SCD)、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。 本書適合數(shù)據(jù)庫管理員、大數(shù)據(jù)技術(shù)人員、Hadoop技術(shù)人員、數(shù)據(jù)倉庫技術(shù)人員,也適合高等院校和培訓(xùn)機(jī)構(gòu)相關(guān)專業(yè)的師生教學(xué)參考。

作者簡介

  王雪迎 ,畢業(yè)于中國地質(zhì)大學(xué)計算機(jī)專業(yè),高級工程師,擁有20年數(shù)據(jù)庫、數(shù)據(jù)倉庫相關(guān)技術(shù)經(jīng)驗。曾先后供職于北京現(xiàn)代商業(yè)信息技術(shù)有限公司、北京在線九州信息技術(shù)服務(wù)有限公司、華北計算技術(shù)研究所、北京優(yōu)貝在線網(wǎng)絡(luò)科技有限公司,擔(dān)任DBA、數(shù)據(jù)架構(gòu)師等職位。

圖書目錄

第1章 數(shù)據(jù)倉庫簡介
1.1 什么是數(shù)據(jù)倉庫 1
1.1.1 數(shù)據(jù)倉庫的定義 1
1.1.2 建立數(shù)據(jù)倉庫的原因 3
1.2 操作型系統(tǒng)與分析型系統(tǒng) 5
1.2.1 操作型系統(tǒng) 5
1.2.2 分析型系統(tǒng) 8
1.2.3 操作型系統(tǒng)和分析型系統(tǒng)對比 9
1.3 數(shù)據(jù)倉庫架構(gòu) 10
1.3.1 基本架構(gòu) 10
1.3.2 主要數(shù)據(jù)倉庫架構(gòu) 12
1.3.3 操作數(shù)據(jù)存儲 16
1.4 抽取-轉(zhuǎn)換-裝載 17
1.4.1 數(shù)據(jù)抽取 17
1.4.2 數(shù)據(jù)轉(zhuǎn)換 19
1.4.3 數(shù)據(jù)裝載 20
1.4.4 開發(fā)ETL系統(tǒng)的方法 21
1.4.5 常見ETL工具 21
1.5 數(shù)據(jù)倉庫需求 22
1.5.1 基本需求 22
1.5.2 數(shù)據(jù)需求 23
1.6 小結(jié) 24
第2章 數(shù)據(jù)倉庫設(shè)計基礎(chǔ)
2.1 關(guān)系數(shù)據(jù)模型 25
2.1.1 關(guān)系數(shù)據(jù)模型中的結(jié)構(gòu) 25
2.1.2 關(guān)系完整性 28
2.1.3 規(guī)范化 30
2.1.4 關(guān)系數(shù)據(jù)模型與數(shù)據(jù)倉庫 33
2.2 維度數(shù)據(jù)模型 34
2.2.1 維度數(shù)據(jù)模型建模過程 35
2.2.2 維度規(guī)范化 36
2.2.3 維度數(shù)據(jù)模型的特點 37
2.2.4 星型模式 38
2.2.5 雪花模式 40
2.3 Data Vault模型 42
2.3.1 Data Vault模型簡介 42
2.3.2 Data Vault模型的組成部分 43
2.3.3 Data Vault模型的特點 44
2.3.4 Data Vault模型的構(gòu)建 44
2.3.5 Data Vault模型實例 46
2.4 數(shù)據(jù)集市 49
2.4.1 數(shù)據(jù)集市的概念 50
2.4.2 數(shù)據(jù)集市與數(shù)據(jù)倉庫的區(qū)別 50
2.4.3 數(shù)據(jù)集市設(shè)計 50
2.5 數(shù)據(jù)倉庫實施步驟 51
2.6 小結(jié) 54
第3章 Hadoop生態(tài)圈與數(shù)據(jù)倉庫
3.1 大數(shù)據(jù)定義 55
3.2 Hadoop簡介 56
3.2.1 Hadoop的構(gòu)成 57
3.2.2 Hadoop的主要特點 58
3.2.3 Hadoop架構(gòu) 58
3.3 Hadoop基本組件 59
3.3.1 HDFS 60
3.3.2 MapReduce 65
3.3.3 YARN 72
3.4 Hadoop生態(tài)圈的其他組件 77
3.5 Hadoop與數(shù)據(jù)倉庫 81
3.5.1 關(guān)系數(shù)據(jù)庫的可擴(kuò)展性瓶頸 82
3.5.2 CAP理論 84
3.5.3 Hadoop數(shù)據(jù)倉庫工具 85
3.6 小結(jié) 88
第4章 安裝Hadoop
4.1 Hadoop主要發(fā)行版本 89
4.1.1 Cloudera Distribution for Hadoop(CDH) 89
4.1.2 Hortonworks Data Platform(HDP) 90
4.1.3 MapR Hadoop 90
4.2 安裝Apache Hadoop 91
4.2.1 安裝環(huán)境 91
4.2.2 安裝前準(zhǔn)備 92
4.2.3 安裝配置Hadoop 93
4.2.4 安裝后配置 97
4.2.5 初始化及運行 97
4.3 配置HDFS Federation 99
4.4 離線安裝CDH及其所需的服務(wù) 104
4.4.1 CDH安裝概述 104
4.4.2 安裝環(huán)境 106
4.4.3 安裝配置 106
4.4.4 Cloudera Manager許可證管理 114
4.5 小結(jié) 115
第5章 Kettle與Hadoop
5.1 Kettle概述 117
5.2 Kettle連接Hadoop 119
5.2.1 連接HDFS 119
5.2.2 連接Hive 124
5.3 導(dǎo)出導(dǎo)入Hadoop集群數(shù)據(jù) 128
5.3.1 把數(shù)據(jù)從HDFS抽取到RDBMS 128
5.3.2 向Hive表導(dǎo)入數(shù)據(jù) 132
5.4 執(zhí)行Hive的HiveQL語句 134
5.5 MapReduce轉(zhuǎn)換示例 135
5.6 Kettle提交Spark作業(yè) 143
5.6.1 安裝Spark 143
5.6.2 配置Kettle向Spark集群提交作業(yè) 146
5.7 小結(jié) 149
第6章 建立數(shù)據(jù)倉庫示例模型
6.1 業(yè)務(wù)場景 150
6.2 Hive相關(guān)配置 152
6.2.1 選擇文件格式 152
6.2.2 支持行級更新 159
6.2.3 Hive事務(wù)支持的限制 164
6.3 Hive表分類 164
6.4 向Hive表裝載數(shù)據(jù) 169
6.5 建立數(shù)據(jù)庫表 174
6.6 裝載日期維度數(shù)據(jù) 179
6.7 小結(jié) 180
第7章 數(shù)據(jù)抽取
7.1 邏輯數(shù)據(jù)映射 182
7.2 數(shù)據(jù)抽取方式 185
7.3 導(dǎo)出成文本文件 191
7.4 分布式查詢 196
7.5 使用Sqoop抽取數(shù)據(jù) 200
7.5.1 Sqoop簡介 200
7.5.2 CDH 5.7.0中的Sqoop 203
7.5.3 使用Sqoop抽取數(shù)據(jù) 203
7.5.4 Sqoop優(yōu)化 207
7.6 小結(jié) 208
第8章 數(shù)據(jù)轉(zhuǎn)換與裝載
8.1 數(shù)據(jù)清洗 210
8.2 Hive簡介 214
8.2.1 Hive的體系結(jié)構(gòu) 215
8.2.2 Hive的工作流程 216
8.2.3 Hive服務(wù)器 218
8.2.4 Hive客戶端 221
8.3 初始裝載 231
8.4 定期裝載 236
8.5 Hive優(yōu)化 246
8.6 小結(jié) 254
第9章 定期自動執(zhí)行ETL作業(yè)
9.1 crontab 256
9.2 Oozie簡介 260
9.2.1 Oozie的體系結(jié)構(gòu) 260
9.2.2 CDH 5.7.0中的Oozie 262
9.3 建立定期裝載工作流 262
9.4 建立協(xié)調(diào)器作業(yè)定期自動執(zhí)行工作流 271
9.5 Oozie優(yōu)化 275
9.6 小結(jié) 276
第10章 維度表技術(shù)
10.1 增加列 278
10.2 維度子集 285
10.3 角色扮演維度 292
10.4 層次維度 298
10.4.1 固定深度的層次 299
10.4.2 遞歸 302
10.4.3 多路徑層次 310
10.4.4 參差不齊的層次 312
10.5 退化維度 313
10.6 雜項維度 316
10.7 維度合并 323
10.8 分段維度 329
10.9 小結(jié) 335
第11章 事實表技術(shù)
11.1 事實表概述 336
11.2 周期快照 337
11.3 累積快照 343
11.4 無事實的事實表 349
11.5 遲到的事實 354
11.6 累積度量 360
11.7 小結(jié) 366
第12章 聯(lián)機(jī)分析處理
12.1 聯(lián)機(jī)分析處理簡介 367
12.1.1 概念 367
12.1.2 分類 368
12.1.3 性能 371
12.2 Impala簡介 371
12.3 Hive、SparkSQL、Impala比較 377
12.3.1 Spark SQL簡介 377
12.3.2 Hive、Spark SQL、Impala比較 379
12.3.3 Hive、Spark SQL、Impala性能對比 382
12.4 聯(lián)機(jī)分析處理實例 387
12.5 Apache Kylin與OLAP 399
12.5.1 Apache Kylin架構(gòu) 399
12.5.2 Apache Kylin安裝 401
12.6 小結(jié) 407
第13章 數(shù)據(jù)可視化
13.1 數(shù)據(jù)可視化簡介 408
13.2 Hue簡介 410
13.2.1 Hue功能快速預(yù)覽 411
13.2.2 配置元數(shù)據(jù)存儲 412
13.3 Zeppelin簡介 415
13.3.1 Zeppelin架構(gòu) 415
13.3.2 Zeppelin安裝配置 416
13.3.3 在Zeppelin中添加MySQL翻譯器 421
13.4 Hue、Zeppelin比較 425
13.5 數(shù)據(jù)可視化實例 426
13.6 小結(jié) 434

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號