注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計其他編程語言/工具云數(shù)據(jù)平臺:設(shè)計、實現(xiàn)與管理

云數(shù)據(jù)平臺:設(shè)計、實現(xiàn)與管理

云數(shù)據(jù)平臺:設(shè)計、實現(xiàn)與管理

定 價:¥139.00

作 者: [加]丹尼爾·茲布里夫斯基(Danil Zburivsky),[加]琳達·帕特納(Lynda Partner) 著
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787111712046 出版時間: 2022-08-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書是一本針對設(shè)計充分利用云靈活性的現(xiàn)代可伸縮數(shù)據(jù)平臺的實踐指南。你將了解云數(shù)據(jù)平臺設(shè)計的核心組件,以及Spark和Kafka流等關(guān)鍵技術(shù)的作用。你還將探索如何設(shè)置流程來管理基于云的數(shù)據(jù),確保數(shù)據(jù)的安全,并使用高級分析和BI工具對數(shù)據(jù)進行分析。本書旨在幫助企業(yè)通過現(xiàn)代云數(shù)據(jù)平臺使用所有數(shù)據(jù)的業(yè)務(wù)集成視圖,并利用先進的分析實踐來驅(qū)動預測和迄今無法想象的數(shù)據(jù)服務(wù)。

作者簡介

暫缺《云數(shù)據(jù)平臺:設(shè)計、實現(xiàn)與管理》作者簡介

圖書目錄

前言
致謝
引言
第1章 數(shù)據(jù)平臺介紹1
1.1 從數(shù)據(jù)倉庫向數(shù)據(jù)平臺轉(zhuǎn)變背后的趨勢2
1.2 數(shù)據(jù)倉庫與數(shù)據(jù)的多樣性、規(guī)模和速度3
1.2.1 多樣性3
1.2.2 規(guī)模4
1.2.3 速度5
1.2.4 所有的V同時出現(xiàn)5
1.3 數(shù)據(jù)湖6
1.4 云來了7
1.5 云、數(shù)據(jù)湖、數(shù)據(jù)倉庫:云數(shù)據(jù)平臺的出現(xiàn)9
1.6 云數(shù)據(jù)平臺的構(gòu)建塊9
1.6.1 攝取層10
1.6.2 存儲層10
1.6.3 處理層11
1.6.4 服務(wù)層13
1.7 云數(shù)據(jù)平臺如何處理這三個V14
1.7.1 多樣性14
1.7.2 規(guī)模14
1.7.3 速度15
1.7.4 另外兩個V15
1.8 常見用例16
第2章 為什么是數(shù)據(jù)平臺而不僅僅是數(shù)據(jù)倉庫18
2.1 云數(shù)據(jù)平臺和云數(shù)據(jù)倉庫的實踐19
2.1.1 近距離觀察數(shù)據(jù)源20
2.1.2 云數(shù)據(jù)倉庫—純架構(gòu)示例21
2.1.3 云數(shù)據(jù)平臺架構(gòu)示例22
2.2 攝取數(shù)據(jù)24
2.2.1 將數(shù)據(jù)直接攝取到Azure Synapse24
2.2.2 將數(shù)據(jù)攝取到Azure數(shù)據(jù)平臺25
2.2.3 管理上游數(shù)據(jù)源的變化26
2.3 處理數(shù)據(jù)28
2.3.1 處理數(shù)據(jù)倉庫中的數(shù)據(jù)29
2.3.2 處理數(shù)據(jù)平臺上的數(shù)據(jù)31
2.4 訪問數(shù)據(jù)32
2.5 云成本方面的考慮34
2.6 練習答案36
第3章 不斷壯大并利用三巨頭:Amazon、Microsoft Azure和Google37
3.1 云數(shù)據(jù)平臺分層架構(gòu)38
3.1.1 數(shù)據(jù)攝取層40
3.1.2 快存儲和慢存儲43
3.1.3 處理層45
3.1.4 技術(shù)元數(shù)據(jù)層47
3.1.5 服務(wù)層和數(shù)據(jù)消費者48
3.1.6 編排層和ETL覆蓋層52
3.2 數(shù)據(jù)平臺架構(gòu)中層的重要性57
3.3 將云數(shù)據(jù)平臺層映射到特定工具59
3.3.1 AWS61
3.3.2 Google Cloud65
3.3.3 Azure70
3.4 開源和商業(yè)替代方案73
3.4.1 批量數(shù)據(jù)攝取74
3.4.2 流數(shù)據(jù)攝取和實時分析74
3.4.3 編排層75
3.5 練習答案77
第4章 將數(shù)據(jù)導入平臺78
4.1 數(shù)據(jù)庫、文件、API和流79
4.1.1 關(guān)系型數(shù)據(jù)庫80
4.1.2 文件81
4.1.3 通過API的SaaS數(shù)據(jù)81
4.1.4 流82
4.2 從關(guān)系型數(shù)據(jù)庫中攝取數(shù)據(jù)83
4.2.1 使用SQL接口從RDBMS攝取數(shù)據(jù)83
4.2.2 全表攝取85
4.2.3 增量表攝取90
4.2.4 變更數(shù)據(jù)捕獲94
4.2.5 CDC供應商概述98
4.2.6 數(shù)據(jù)類型轉(zhuǎn)換100
4.2.7 從NoSQL數(shù)據(jù)庫攝取數(shù)據(jù)102
4.2.8 為RDBMS或NoSQL攝取管道捕獲重要的元數(shù)據(jù)104
4.3 從文件中攝取數(shù)據(jù)107
4.3.1 跟蹤已攝取的文件109
4.3.2 捕獲文件攝取元數(shù)據(jù)112
4.4 從流中攝取數(shù)據(jù)113
4.4.1 批量攝取和流攝取的區(qū)別117
4.4.2 捕獲流管道元數(shù)據(jù)118
4.5 從SaaS應用程序攝取數(shù)據(jù)119
4.5.1 沒有標準的API設(shè)計方法121
4.5.2 沒有標準的方法來處理全數(shù)據(jù)導出和增量數(shù)據(jù)導出121
4.5.3 結(jié)果數(shù)據(jù)通常是高度嵌套的JSON122
4.6 將數(shù)據(jù)攝取到云中需要考慮的網(wǎng)絡(luò)和安全問題122
4.7 練習答案125
第5章 組織和處理數(shù)據(jù)126
5.1 在數(shù)據(jù)平臺中作為單獨的層進行處理127
5.2 數(shù)據(jù)處理階段129
5.3 組織你的云存儲130
5.4 通用數(shù)據(jù)處理步驟137
5.4.1 文件格式轉(zhuǎn)換137
5.4.2 重復數(shù)據(jù)清除142
5.4.3 數(shù)據(jù)質(zhì)量檢查147
5.5 可配置的管道149
5.6 練習答案152
第6章 實時數(shù)據(jù)處理和分析153
6.1 實時攝取與實時處理154
6.2 實時數(shù)據(jù)處理用例156
6.2.1 零售用例:實時攝取156
6.2.2 線上游戲用例:實時攝取和實時處理158
6.2.3 實時攝取與實時處理的總結(jié)160
6.3 什么時候應該使用實時攝取或?qū)崟r處理161
6.4 為實時使用組織數(shù)據(jù)163
6.4.1 對快存儲的解剖163
6.4.2 快存儲是如何擴展的166
6.4.3 在實時存儲中組織數(shù)據(jù)168
6.5 通用的實時數(shù)據(jù)轉(zhuǎn)換173
6.5.1 實時系統(tǒng)中數(shù)據(jù)重復的原因173
6.5.2 實時系統(tǒng)中的數(shù)據(jù)重復清除176
6.5.3 在實時管道中轉(zhuǎn)換消息格式181
6.5.4 實時數(shù)據(jù)質(zhì)量檢查182
6.5.5 將批量數(shù)據(jù)與實時數(shù)據(jù)相結(jié)合183
6.6 用于實時數(shù)據(jù)處理的云服務(wù)184
6.6.1 AWS實時處理服務(wù)185
6.6.2 Google Cloud實時處理服務(wù)186
6.6.3 Azure實時處理服務(wù)188
6.7 練習答案190
第7章 元數(shù)據(jù)層架構(gòu)191
7.1 元數(shù)據(jù)是什么192
7.1.1 業(yè)務(wù)元數(shù)據(jù)192
7.1.2 數(shù)據(jù)平臺內(nèi)部元數(shù)據(jù)或管道元數(shù)據(jù)193
7.2 利用管道元數(shù)據(jù)193
7.3 元數(shù)據(jù)模型197
7.4 元數(shù)據(jù)層實現(xiàn)選項207
7.4.1 元數(shù)據(jù)層作為配置文件的集合207
7.4.2 元數(shù)據(jù)數(shù)據(jù)庫210
7.4.3 元數(shù)據(jù)API212
7.5 現(xiàn)有的解決方案概述214
7.5.1 云元數(shù)據(jù)服務(wù)214
7.5.2 開源元數(shù)據(jù)層實現(xiàn)216
7.6 練習答案220
第8章 模式管理221
8.1 為什么要進行模式管理222
8.1.1 傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)中的模式變化222
8.1.2 讀時模式方法223
8.2 模式管理方法225
8.2.1 模式即契約226
8.2.2 數(shù)據(jù)平臺中的模式管理228
8.2.3 監(jiān)控模式變化234
8.3 模式注冊表實現(xiàn)235
8.3.1 Apache Avro模式236
8.3.2 現(xiàn)有的模式注冊表實現(xiàn)237
8.3.3 模式注冊表作為元數(shù)據(jù)層的一部分238
8.4 模式演化場景240
8.4.1 模式兼容性規(guī)則242
8.4.2 模式演化和數(shù)據(jù)轉(zhuǎn)換管道244
8.5 模式演化和數(shù)據(jù)倉庫247
8.6 練習答案252
第9章 數(shù)據(jù)訪問和安全253
9.1 不同類型的數(shù)據(jù)消費者254
9.2 云數(shù)據(jù)倉庫255
9.2.1 AWS Redshift256
9.2.2 Azure Synapse259
9.2.3 Go

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號