注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件Greenplum構(gòu)建實時數(shù)據(jù)倉庫實踐

Greenplum構(gòu)建實時數(shù)據(jù)倉庫實踐

Greenplum構(gòu)建實時數(shù)據(jù)倉庫實踐

定 價:¥89.00

作 者: 王雪迎 著
出版社: 清華大學(xué)出版社
叢編項: 大數(shù)據(jù)技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787302611653 出版時間: 2022-08-01 包裝: 平裝
開本: 16開 頁數(shù): 347 字?jǐn)?shù):  

內(nèi)容簡介

  Greenplum分布式數(shù)據(jù)庫具有可選存儲模式、事務(wù)支持、并行查詢與數(shù)據(jù)裝載、容錯與故障轉(zhuǎn)移、數(shù)據(jù)庫統(tǒng)計、過程化語言擴展等方面的功能特性,因此Greenplum成為一款理想的分析型數(shù)據(jù)庫產(chǎn)品。該書詳解Greenplum數(shù)據(jù)倉庫構(gòu)建與數(shù)據(jù)分析技術(shù),配套示例源碼。《Greenplum構(gòu)建實時數(shù)據(jù)倉庫實踐(大數(shù)據(jù)技術(shù)叢書)》共分10章。內(nèi)容包括數(shù)據(jù)倉庫簡介、數(shù)據(jù)倉庫設(shè)計基礎(chǔ)、Greenplum與數(shù)據(jù)倉庫、Greenplum安裝部署、實時數(shù)據(jù)同步、實時數(shù)據(jù)裝載、維度表技術(shù)、事實表技術(shù)、Greenplum運維與監(jiān)控、集成機器學(xué)習(xí)庫MADlib?!禛reenplum構(gòu)建實時數(shù)據(jù)倉庫實踐(大數(shù)據(jù)技術(shù)叢書)》適合Greenplum初學(xué)者、大數(shù)據(jù)分析系統(tǒng)設(shè)計與開發(fā)、數(shù)據(jù)倉庫系統(tǒng)設(shè)計與開發(fā)、DBA、架構(gòu)師等相關(guān)技術(shù)人員閱讀,也適合高等院校大數(shù)據(jù)相關(guān)專業(yè)的師生作為實訓(xùn)教材。

作者簡介

  王雪迎 ,畢業(yè)于中國地質(zhì)大學(xué)計算機專業(yè),高級工程師,20年數(shù)據(jù)庫、數(shù)據(jù)倉庫相關(guān)技術(shù)工作經(jīng)驗。先后供職于北京現(xiàn)代商業(yè)信息技術(shù)有限公司、北京在線九州信息技術(shù)服務(wù)有限公司、華北計算技術(shù)研究所、北京優(yōu)貝在線網(wǎng)絡(luò)科技有限公司,擔(dān)任DBA、數(shù)據(jù)架構(gòu)師等職位。著有圖書《Greenplum構(gòu)建實時數(shù)據(jù)倉庫實踐》《Hadoop構(gòu)建數(shù)據(jù)倉庫實踐》《HAWQ數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)崙?zhàn)》《SQL機器學(xué)習(xí)庫MADlib技術(shù)解析》《MySQL高可用實踐》。

圖書目錄

第1章 數(shù)據(jù)倉庫簡介 1
1.1 什么是數(shù)據(jù)倉庫 1
1.1.1 數(shù)據(jù)倉庫的定義 2
1.1.2 建立數(shù)據(jù)倉庫的原因 3
1.2 操作型系統(tǒng)與分析型系統(tǒng) 5
1.2.1 操作型系統(tǒng) 5
1.2.2 分析型系統(tǒng) 7
1.2.3 操作型系統(tǒng)和分析型系統(tǒng)的對比 8
1.3 抽取—轉(zhuǎn)換—裝載 10
1.3.1 數(shù)據(jù)抽取 10
1.3.2 數(shù)據(jù)轉(zhuǎn)換 12
1.3.3 數(shù)據(jù)裝載 13
1.3.4 開發(fā)ETL系統(tǒng)的方法 13
1.4 數(shù)據(jù)倉庫架構(gòu) 14
1.4.1 基本架構(gòu) 14
1.4.2 主要數(shù)據(jù)倉庫架構(gòu) 15
1.4.3 操作型數(shù)據(jù)存儲 19
1.5 實時數(shù)據(jù)倉庫 19
1.5.1 流式處理 20
1.5.2 實時計算 21
1.5.3 實時數(shù)據(jù)倉庫解決方案 24
1.6 小結(jié) 26
第2章 數(shù)據(jù)倉庫設(shè)計基礎(chǔ) 27
2.1 關(guān)系數(shù)據(jù)模型 27
2.1.1 關(guān)系數(shù)據(jù)模型中的結(jié)構(gòu) 27
2.1.2 關(guān)系完整性 30
2.1.3 關(guān)系數(shù)據(jù)庫語言 31
2.1.4 規(guī)范化 32
2.1.5 關(guān)系數(shù)據(jù)模型與數(shù)據(jù)倉庫 34
2.2 維度數(shù)據(jù)模型 36
2.2.1 維度數(shù)據(jù)模型建模過程 36
2.2.2 維度規(guī)范化 37
2.2.3 維度數(shù)據(jù)模型的特點 38
2.2.4 星型模式 39
2.2.5 雪花模式 41
2.3 Data Vault模型 43
2.3.1 Data Vault模型簡介 43
2.3.2 Data Vault模型的組成部分 43
2.3.3 Data Vault模型的特點 45
2.3.4 Data Vault模型的構(gòu)建 45
2.3.5 Data Vault模型實例 46
2.4 數(shù)據(jù)集市 50
2.5 數(shù)據(jù)倉庫實施步驟 51
2.6 小結(jié) 54
第3章 Greenplum與數(shù)據(jù)倉庫 55
3.1 Greenplum簡介 55
3.1.1 歷史與現(xiàn)狀 55
3.1.2 MPP——一切皆并行 56
3.2 Greenplum系統(tǒng)架構(gòu) 57
3.2.1 Greenplum與PostgreSQL 57
3.2.2 Master 58
3.2.3 Segment 58
3.2.4 Interconnect 59
3.3 Greenplum功能特性 59
3.3.1 存儲模式 59
3.3.2 事務(wù)與并發(fā)控制 63
3.3.3 并行查詢 69
3.3.4 并行數(shù)據(jù)裝載 72
3.3.5 冗余與故障轉(zhuǎn)移 73
3.3.6 數(shù)據(jù)庫統(tǒng)計 76
3.4 為什么選擇Greenplum 79
3.4.1 Greenplum還是SQL-on-Hadoop 79
3.4.2 適合DBA的解決方案 82
3.4.3 Greenplum的局限 86
3.5 小結(jié) 87
第4章 Greenplum安裝部署 88
4.1 平臺需求 88
4.1.1 操作系統(tǒng) 88
4.1.2 硬件和網(wǎng)絡(luò) 89
4.1.3 文件系統(tǒng) 90
4.2 容量評估 90
4.2.1 可用磁盤空間 91
4.2.2 用戶數(shù)據(jù)容量 91
4.2.3 元數(shù)據(jù)和日志空間 92
4.2.4 RAID劃分最佳實踐 92
4.3 操作系統(tǒng)配置 93
4.3.1 安裝操作系統(tǒng) 94
4.3.2 禁用SELinux和防火墻 95
4.3.3 操作系統(tǒng)推薦配置 95
4.3.4 時鐘同步 99
4.3.5 創(chuàng)建Greenplum管理員賬號 100
4.3.6 安裝JDK(可選) 101
4.4 安裝Greenplum軟件 101
4.4.1 安裝軟件包 101
4.4.2 配置免密SSH 102
4.4.3 確認(rèn)軟件安裝 103
4.5 初始化Greenplum數(shù)據(jù)庫系統(tǒng) 103
4.5.1 創(chuàng)建數(shù)據(jù)存儲區(qū) 103
4.5.2 驗證系統(tǒng) 104
4.5.3 初始化數(shù)據(jù)庫 106
4.5.4 設(shè)置Greenplum環(huán)境變量 108
4.6 允許客戶端連接 109
4.7 修改Greenplum配置參數(shù) 110
4.8 后續(xù)步驟 112
4.8.1 創(chuàng)建臨時表空間 112
4.8.2 創(chuàng)建數(shù)據(jù)庫用戶 113
4.9 Greenplum升級 114
4.9.1 升級條件 114
4.9.2 升級步驟 114
4.10 小結(jié) 114
第5章 實時數(shù)據(jù)同步 116
5.1 數(shù)據(jù)抽取方式 116
5.1.1 基于源數(shù)據(jù)的CDC 117
5.1.2 基于觸發(fā)器的CDC 118
5.1.3 基于快照的CDC 119
5.1.4 基于日志的CDC 119
5.2 MySQL數(shù)據(jù)復(fù)制 120
5.2.1 復(fù)制的用途 121
5.2.2 二進制日志binlog 121
5.2.3 復(fù)制的步驟 122
5.3 使用Kafka 124
5.3.1 Kafka基本概念 124
5.3.2 Kafka消費者與分區(qū) 127
5.4 選擇主題分區(qū)數(shù) 129
5.4.1 使用單分區(qū) 129
5.4.2 如何選定分區(qū)數(shù)量 131
5.5 Maxwell + Kafka + Bireme 132
5.5.1 總體架構(gòu) 132
5.5.2 Maxwell安裝配置 135
5.5.3 Bireme安裝配置 137
5.5.4 如何保證數(shù)據(jù)的順序消費 141
5.5.5 實時CDC 142
5.6 Canal Server + Kafka + Canal ClientAdapter 148
5.6.1 總體架構(gòu) 148
5.6.2 Canal Server安裝配置 150
5.6.3 Canal ClientAdapter安裝配置 152
5.6.4 配置HA模式 154
5.6.5 實時CDC 157
5.6.6 消費延遲監(jiān)控 158
5.7 小結(jié) 161
第6章 實時數(shù)據(jù)裝載 162
6.1 建立數(shù)據(jù)倉庫示例模型 163
6.1.1 業(yè)務(wù)場景 163
6.1.2 建立數(shù)據(jù)庫表 165
6.1.3 生成日期維度數(shù)據(jù) 173
6.2 初始裝載 173
6.2.1 數(shù)據(jù)源映射 174
6.2.2 確定SCD處理方法 174
6.2.3 實現(xiàn)代理鍵 175
6.2.4 執(zhí)行初始裝載 175
6.3 實時裝載 178
6.3.1 識別數(shù)據(jù)源與裝載類型 178
6.3.2 配置增量數(shù)據(jù)同步 179
6.3.3 在Greenplum中創(chuàng)建規(guī)則 180
6.3.4 啟動實時裝載 183
6.3.5 測試 184
6.4 動態(tài)分區(qū)滾動 187
6.5 小結(jié) 189
第7章 維度表技術(shù) 190
7.1 增加列 190
7.2 維度子集 197
7.3 角色扮演維度 200
7.4 層次維度 205
7.4.1 固定深度的層次 205
7.4.2 多路徑的層次 207
7.4.3 參差不齊的層次 209
7.5 退化維度 211
7.6 雜項維度 215
7.7 維度合并 220
7.8 分段維度 225
7.9 小結(jié) 230
第8章 事實表技術(shù) 231
8.1 事實表概述 231
8.2 周期快照 232
8.3 累積快照 236
8.4 無事實的事實表 245
8.5 遲到的事實 248
8.6 累積度量 256
8.7 小結(jié) 262
第9章 Greenplum運維與監(jiān)控 263
9.1 權(quán)限與角色管理 263
9.1.1 Greenplum中的角色與權(quán)限 263
9.1.2 管理角色及其成員 264
9.1.3 管理對象權(quán)限 266
9.1.4 口令加密 267
9.2 數(shù)據(jù)導(dǎo)入導(dǎo)出 268
9.2.1 file://協(xié)議及其外部表 268
9.2.2 gpfdist及其外部表 270
9.2.3 基于Web的外部表 271
9.2.4 外部表錯誤處理 274
9.2.5 使用gpload導(dǎo)入數(shù)據(jù) 274
9.2.6 使用COPY互拷數(shù)據(jù) 276
9.2.7 導(dǎo)出數(shù)據(jù) 278
9.2.8 格式化數(shù)據(jù)文件 280
9.3 性能優(yōu)化 281
9.3.1 常用優(yōu)化手段 281
9.3.2 控制溢出文件 283
9.3.3 查詢剖析 283
9.4 例行監(jiān)控 287
9.4.1 檢查系統(tǒng)狀態(tài) 287
9.4.2 檢查磁盤空間使用 289
9.4.3 檢查數(shù)據(jù)分布傾斜 290
9.4.4 查看數(shù)據(jù)庫對象的元數(shù)據(jù)信息 292
9.4.5 查看會話的內(nèi)存使用信息 292
9.4.6 查看工作文件使用信息 293
9.4.7 查看服務(wù)器日志文件 293
9.5 例行維護 296
9.5.1 定期VACUUM 296
9.5.2 定期維護系統(tǒng)目錄 297
9.5.3 加強的系統(tǒng)目錄維護 297
9.5.4 為查詢優(yōu)化執(zhí)行VACUUM與ANALYZE 298
9.5.5 自動收集統(tǒng)計信息 299
9.5.6 重建索引 299
9.5.7 管理數(shù)據(jù)庫日志文件 299
9.6 推薦的監(jiān)控與維護任務(wù) 300
9.6.1 數(shù)據(jù)庫實例狀態(tài)監(jiān)控 300
9.6.2 硬件和操作系統(tǒng)監(jiān)控 301
9.6.3 系統(tǒng)目錄表監(jiān)控 302
9.6.4 數(shù)據(jù)庫維護 302
9.6.5 補丁與升級 303
9.7 小結(jié) 304
第10章 集成機器學(xué)習(xí)庫MADlib 305
10.1 MADlib的基本概念 305
10.1.1 MADlib是什么 305
10.1.2 MADlib的設(shè)計思想 306
10.1.3 MADlib的工作原理 307
10.1.4 MADlib的執(zhí)行流程 308
10.1.5 MADlib的基礎(chǔ)架構(gòu) 308
10.2 MADlib的功能 309
10.2.1 MADlib支持的模型類型 309
10.2.2 MADlib主要的功能模塊 310
10.3 MADlib的安裝與卸載 313
10.3.1 確定安裝平臺 313
10.3.2 安裝MADlib 314
10.3.3 卸載MADlib 315
10.4 MADlib示例——使用矩陣分解實現(xiàn)用戶推薦 316
10.4.1 低秩矩陣分解 316
10.4.2 奇異值分解 325
10.5 模型評估 339
10.5.1 交叉驗證 340
10.5.2 MADlib的交叉驗證相關(guān)函數(shù) 342
10.5.3 交叉驗證示例 344
10.6 小結(jié) 346

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號