注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Greenplum:從大數(shù)據(jù)戰(zhàn)略到實(shí)現(xiàn)

Greenplum:從大數(shù)據(jù)戰(zhàn)略到實(shí)現(xiàn)

Greenplum:從大數(shù)據(jù)戰(zhàn)略到實(shí)現(xiàn)

定 價(jià):¥119.00

作 者: 馮雷,姚延棟,高小明,楊瑜 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)叢書(shū)
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787111632160 出版時(shí)間: 2019-08-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  這是一本系統(tǒng)剖析Greenplum開(kāi)源大數(shù)據(jù)平臺(tái)的書(shū)籍,也是大數(shù)據(jù)戰(zhàn)略制定與落地的實(shí)戰(zhàn)型指導(dǎo)書(shū)! 本書(shū)圍繞數(shù)字原生和云計(jì)算、大數(shù)據(jù)、人工智能驅(qū)動(dòng)的企業(yè)數(shù)字化轉(zhuǎn)型的核心訴求,從商業(yè)和技術(shù)實(shí)戰(zhàn)視角分享了業(yè)界領(lǐng)先企業(yè)大數(shù)據(jù)戰(zhàn)略的深刻思考,并提供了大數(shù)據(jù)戰(zhàn)略從制定到落地的全面指導(dǎo)。既有高階數(shù)字化戰(zhàn)略高度對(duì)大數(shù)據(jù)的解讀,又有技術(shù)實(shí)戰(zhàn)角度對(duì)使用 Greenplum 大數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái)實(shí)現(xiàn)大數(shù)據(jù)戰(zhàn)略的實(shí)踐指南。 本書(shū)作者來(lái)自Greenplum 核心研發(fā)團(tuán)隊(duì),致力于以開(kāi)源、開(kāi)放的理念和先進(jìn)的技術(shù)推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)生態(tài),助力企業(yè)以更低的成本、更高的效率實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,并基于Greenplum 開(kāi)源社區(qū)培養(yǎng)大數(shù)據(jù)產(chǎn)業(yè)更多人才。 本書(shū)分為四個(gè)部分。 ● 第一部分介紹大數(shù)據(jù)戰(zhàn)略。其中,第 1 章將分享作者對(duì)于人工智能、大數(shù)據(jù)和云計(jì)算之間關(guān)系的理解以及對(duì)人和人工智能的思考。第 2 章將介紹進(jìn)取型企業(yè)為什么需要大數(shù)據(jù)戰(zhàn)略以及如何建立大數(shù)據(jù)戰(zhàn)略。 ● 第二部分介紹大數(shù)據(jù)平臺(tái)。其中,第 3 章將以數(shù)據(jù)平臺(tái)演進(jìn)歷史和未來(lái)趨勢(shì)為主題,描述三次整合的背景及影響,介紹選擇大數(shù)據(jù)平臺(tái)需要考慮的因素,以及為什么Greenplum 是理想的大數(shù)據(jù)平臺(tái)。第 4 章將介紹 Greenplum 數(shù)據(jù)庫(kù)快速入門(mén)指南。第 5章將介紹 Greenplum 架構(gòu)的主要特點(diǎn)和核心引擎。第 6 章將介紹數(shù)據(jù)加載、數(shù)據(jù)聯(lián)邦和數(shù)據(jù)虛擬化。第 7 章將介紹 Greenplum 的資源管理以及對(duì)混合負(fù)載的支持。 ● 第三部分介紹機(jī)器學(xué)習(xí)。其中,第 8 章介紹 Greenplum 的各種過(guò)程化編程語(yǔ)言(用戶自定義函數(shù)),用戶可以使用 Python、R、Java 等實(shí)現(xiàn)用戶自定義函數(shù),還可以通過(guò)容器化技術(shù)實(shí)現(xiàn)自定義函數(shù)的安全性和隔離性。第 9 章將介紹 Greenplum 內(nèi)建的機(jī)器學(xué)習(xí)庫(kù) MADlib,數(shù)據(jù)科學(xué)家可以使用內(nèi)建的 50 多種機(jī)器學(xué)習(xí)算法用 SQL 對(duì)數(shù)據(jù)進(jìn)行高級(jí)分析,并介紹如何擴(kuò)展 MADlib 以實(shí)現(xiàn)新算法。第 10 章和第 11 章將分別介紹Greenplum 如何對(duì)文本數(shù)據(jù)和時(shí)空數(shù)據(jù)(GIS)進(jìn)行存儲(chǔ)、計(jì)算和分析。第 12 章將介紹Greenplum 豐富的圖計(jì)算能力。 ● 第四部分介紹運(yùn)維管理和數(shù)據(jù)遷移。其中,第 13 章會(huì)介紹各種監(jiān)控和管理工具及相關(guān)企業(yè)級(jí)產(chǎn)品。第 14 章介紹數(shù)據(jù)庫(kù)備份和恢復(fù)。第 15 章和第 16 章將分別介紹如何從Oracle 和 Teradta 遷移到 Greenplum。

作者簡(jiǎn)介

  馮雷(Ray Feng)Pivotal中國(guó)常務(wù)董事(Managing Director)兼研發(fā)中心總經(jīng)理。Pivotal中國(guó)成立至今,馮雷主持了近十億人民幣投資的中國(guó)運(yùn)營(yíng)和研發(fā)體系。作為Pivotal全球產(chǎn)品關(guān)鍵領(lǐng)導(dǎo)人,為Pivotal公司的數(shù)字化理念建立及其對(duì)應(yīng)的Cloud Foundry和Greenplum產(chǎn)品提供戰(zhàn)略輸入。馮雷于2010年從美國(guó)硅谷歸國(guó),在世界500強(qiáng)公司EMC旗下組建了Pivotal中國(guó)。在歸國(guó)之前,馮雷曾在500強(qiáng)企業(yè)甲骨文(Oracle)總部從事云計(jì)算產(chǎn)品研發(fā)。作為云計(jì)算早的一批從業(yè)人員,幫助甲骨文云計(jì)算資源調(diào)度領(lǐng)域成為意見(jiàn)領(lǐng)袖。擁有多項(xiàng)云計(jì)算專(zhuān)利。姚延棟Pivotal中國(guó)研發(fā)中心副總裁,在Pivotal公司全球范圍內(nèi)為Greenplum技術(shù)發(fā)展路線提供戰(zhàn)略輸入。聯(lián)合創(chuàng)建了Pivotal中國(guó)研發(fā)中心,發(fā)起了Greenplum中國(guó)開(kāi)源社區(qū),奠定了包括阿里云、騰訊云和百度云在內(nèi)的廣大開(kāi)源Greenplum用戶群。在Pivotal中國(guó)招募并建設(shè)了Greenplum和HAWQ團(tuán)隊(duì)成為大數(shù)據(jù)和機(jī)器學(xué)習(xí)的意見(jiàn)領(lǐng)袖,培養(yǎng)團(tuán)隊(duì)成員同時(shí)成為Apache和Greenplum代碼提交者。在創(chuàng)建Greenplum/Pivotal中國(guó)之前, 曾在Sun Microsystem 與 Symantec 系統(tǒng)和存儲(chǔ)部門(mén)工作多年。擁有多項(xiàng)國(guó)內(nèi)外云計(jì)算和大數(shù)據(jù)專(zhuān)利。 高小明Pivotal中國(guó)研發(fā)中心Greenplum產(chǎn)品總監(jiān),先后參與和負(fù)責(zé)數(shù)據(jù)分析協(xié)作平臺(tái)Chorus、開(kāi)源PaaS云平臺(tái)Cloud Foundry、MPP數(shù)據(jù)庫(kù)Greenplum等產(chǎn)品的開(kāi)發(fā)、運(yùn)維和技術(shù)推廣。目前著重關(guān)注PaaS云平臺(tái)與大數(shù)據(jù)平臺(tái)支撐下的數(shù)字化轉(zhuǎn)型、微服務(wù)架構(gòu)以及容器化與混合負(fù)載給數(shù)據(jù)產(chǎn)品帶來(lái)的機(jī)遇和挑戰(zhàn)。 楊瑜Pivotal中國(guó)研發(fā)中心Greenplum工程技術(shù)總監(jiān),長(zhǎng)期從事 Greenplum 內(nèi)核的研發(fā)和管理工作,先后參與和負(fù)責(zé)基于Greenplum內(nèi)核的機(jī)器學(xué)習(xí)庫(kù)MADlib的研發(fā)、Greenplum 內(nèi)核和PostgreSQL內(nèi)核持續(xù)歸并等工作,并參與組建Greenplum文本挖掘引擎GPText團(tuán)隊(duì),有豐富的一線內(nèi)核研發(fā)經(jīng)驗(yàn)。

圖書(shū)目錄


前 言
部分 大數(shù)據(jù)戰(zhàn)略
第1章 ABC:人工智能、大數(shù)據(jù)和云計(jì)算  2
1.1 再談云計(jì)算  2
1.1.1 云計(jì)算由南向轉(zhuǎn)為北向  2
1.1.2 P層云的精細(xì)化發(fā)展  3
1.1.3 大數(shù)據(jù)系統(tǒng)在云中部署不斷朝南上移  4
1.2 大數(shù)據(jù)  5
1.2.1 從CRUD到CRAP  5
1.2.2 MPP(大規(guī)模并行計(jì)算)  7
1.2.3 大數(shù)據(jù)系統(tǒng)  8
1.2.4 當(dāng)大數(shù)據(jù)遇到云計(jì)算  10
1.3 人工智能  11
1.3.1 模型化方法  12
1.3.2 AI的發(fā)展史  14
1.3.3 對(duì)AI應(yīng)用的正確預(yù)期  15
1.4 ABC之間的關(guān)系  16
1.5 AI和人  18
1.5.1 經(jīng)驗(yàn)與邏輯  18
1.5.2 公理化的邏輯系統(tǒng)  21
1.5.3 圖靈機(jī)和可計(jì)算數(shù)  25
1.5.4 認(rèn)知邊界上的考量  28
第2章 建立基于大數(shù)據(jù)的高階數(shù)字化戰(zhàn)略  32
2.1 基于云原生應(yīng)用的數(shù)字化戰(zhàn)略  32
2.2 大數(shù)據(jù)和AI:企業(yè)未來(lái)的終極
 競(jìng)爭(zhēng)點(diǎn)  34
2.3 大數(shù)據(jù)戰(zhàn)略的落地  36
2.3.1 大數(shù)據(jù)和AI人才  36
2.3.2 AI驅(qū)動(dòng)的開(kāi)發(fā)方法和文化  37
2.3.3 大數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)  39
2.4 大數(shù)據(jù)和AI的展望  41
第二部分 大數(shù)據(jù)平臺(tái)
第3章 數(shù)據(jù)處理平臺(tái)的演進(jìn)  45
3.1 前數(shù)據(jù)處理時(shí)代  45
3.2 早期的電子數(shù)據(jù)處理  47
3.2.1 電子計(jì)算機(jī)的出現(xiàn)  47
3.2.2 軟件  47
3.3 數(shù)據(jù)庫(kù)  49
3.3.1 數(shù)據(jù)模型  50
3.3.2 數(shù)據(jù)獨(dú)立性和高級(jí)數(shù)據(jù)處理語(yǔ)言  54
3.3.3 數(shù)據(jù)保護(hù)  57
3.3.4 數(shù)據(jù)庫(kù)早期發(fā)展過(guò)程中的困境  57
3.4 NoSQL數(shù)據(jù)庫(kù)  58
3.4.1 NoSQL出現(xiàn)的背景  58
3.4.2 NoSQL產(chǎn)品的共性  60
3.4.3 NoSQL的分類(lèi)  61
3.5 SQL數(shù)據(jù)庫(kù)的回歸  62
3.5.1 NoSQL與SQL的融合  62
3.5.2 Hadoop不等于大數(shù)據(jù)  63
3.5.3 SQL從未離開(kāi)  64
3.6 集成數(shù)據(jù)處理和分析平臺(tái)  65
3.6.1 數(shù)據(jù)類(lèi)型  65
3.6.2 業(yè)務(wù)場(chǎng)景  66
3.6.3 集中還是分散  67
3.7 數(shù)據(jù)平臺(tái)的選型  68
3.8 小結(jié)  69
第4章 Greenplum數(shù)據(jù)庫(kù)快速入門(mén)  72
4.1 Greenplum數(shù)據(jù)庫(kù)的發(fā)展和現(xiàn)狀  72
4.2 Greenplum數(shù)據(jù)庫(kù)的特性  73
4.3 Greenplum數(shù)據(jù)庫(kù)的組成  75
4.4 Greenplum數(shù)據(jù)庫(kù)的安裝與部署  76
4.4.1 準(zhǔn)備工作  76
4.4.2 安裝Greenplum  77
4.4.3 初始化Greenplum數(shù)據(jù)庫(kù)  80
4.5 Greenplum數(shù)據(jù)庫(kù)的常用操作  82
4.6 Greenplum數(shù)據(jù)庫(kù)的常用命令  83
4.6.1 gpstart  83
4.6.2 gpstop  83
4.6.3 gpstate  83
4.6.4 gpactivatestandby  84
4.6.5 gpconfig  84
4.6.6 gpdeletesystem  84
4.7 小結(jié)  85
第5章 Greenplum的架構(gòu)和核心引擎  86
5.1 Greenplum的架構(gòu)  86
5.1.1 Greenplum Master  87
5.1.2 Greenplum Segment  87
5.1.3 Greenplum Interconnect  87
5.1.4 Greenplum Standby Master  87
5.1.5 Greenplum Mirror Segment  88
5.2 Greenplum查詢計(jì)劃  88
5.2.1 單機(jī)查詢計(jì)劃  89
5.2.2 并行查詢計(jì)劃  90
5.3 Greenplum數(shù)據(jù)庫(kù)查詢處理的過(guò)程  95
5.3.1 Greenplum數(shù)據(jù)庫(kù)的主要功能組件  95
5.3.2 Greenplum數(shù)據(jù)庫(kù)查詢的執(zhí)行流程  96
5.4 小結(jié)  97
第6章 從ETL到數(shù)據(jù)聯(lián)邦和數(shù)據(jù)虛擬化  98
6.1 Greenplum中的ETL  99
6.1.1 PostgreSQL的ETL工具箱  99
6.1.2 GPLOAD  100
6.2 Greenplum的數(shù)據(jù)聯(lián)邦  104
6.2.1 dblink簡(jiǎn)介  104
6.2.2 外部表  107
6.2.3 GPFDIST外部表  109
6.2.4 可執(zhí)行外部表  119
6.2.5 Greenplum的S3外部表  120
6.2.6 GPHDFS外部表  127
6.2.7 Spark連接器  129
6.2.8 Gemfire連接器  129
6.3 Greenplum的數(shù)據(jù)虛擬化框架  130
6.3.1 PXF的架構(gòu)  130
6.3.2 PXF的環(huán)境配置  131
6.3.3 GPHDFS與PXF比較  132
6.4 小結(jié)  133
第7章 混合負(fù)載和資源管理  134
7.1 混合負(fù)載的機(jī)遇和挑戰(zhàn)  134
7.2 混合負(fù)載的業(yè)務(wù)和技術(shù)要求  136
7.3 資源管理  139
7.4 并發(fā)管理  145
7.5 小結(jié)  146
第三部分 機(jī)器學(xué)習(xí)與數(shù)據(jù)分析
第8章 Greenplum中的過(guò)程化編程語(yǔ)言  149
8.1 PL/Python  150
8.1.1 PL/Python簡(jiǎn)介  150
8.1.2 受信任的過(guò)程化編程語(yǔ)言  151
8.1.3 安裝Python包  152
8.1.4 安裝Greenplum數(shù)據(jù)計(jì)算Python包集合  153
8.1.5 類(lèi)型轉(zhuǎn)換  153
8.1.6 PL/Python函數(shù)中的數(shù)據(jù)共享  154
8.2 PL/R  155
8.2.1 PL/R簡(jiǎn)介  156
8.2.2 安裝R包  158
8.2.3 安裝Greenplum數(shù)據(jù)計(jì)算R包集合  158
8.3 PL/Container  158
8.3.1 PL/Container簡(jiǎn)介  159
8.3.2 一個(gè)簡(jiǎn)單的例子  159
8.3.3 PL/Container的基本操作方法  162
8.3.4 PL/Container實(shí)踐總結(jié)  166
8.3.5 關(guān)于PL/Container的開(kāi)發(fā)  167
8.4 小結(jié)  167
第9章 MADlib 機(jī)器學(xué)習(xí)庫(kù)  168
9.1 MADlib入門(mén)  168
9.1.1 MADlib簡(jiǎn)介  168
9.1.2 MADlib的特點(diǎn)  169
9.1.3 MADlib與其他機(jī)器學(xué)習(xí)算法庫(kù)的比較  172
9.1.4 MADlib的快速安裝  173
9.2 MADlib的架構(gòu)  174
9.2.1 SQL用戶接口  174
9.2.2 Python驅(qū)動(dòng)函數(shù)  175
9.2.3 C 機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)  175
9.2.4 C 數(shù)據(jù)庫(kù)抽象層  176
9.3 MADlib應(yīng)用  177
9.3.1 數(shù)據(jù)預(yù)處理  177
9.3.2 監(jiān)督學(xué)習(xí)  178
9.3.3 非監(jiān)督學(xué)習(xí)  184
9.3.4 時(shí)間序列  187
9.3.5 自定義機(jī)器學(xué)習(xí)算法  188
9.4 小結(jié)  191
第10章 Greenplum半結(jié)構(gòu)化文本數(shù)據(jù)分析  192
10.1 GPText文本分析概述  192
10.1.1 GPText數(shù)據(jù)提取  192
10.1.2 GPText的文本處理、索引流程和高階分析  193
10.2 GPText內(nèi)置的全文檢索引擎:Apache SolrCloud  194
10.3 GPText架構(gòu):高速并行索引和查詢  195
10.4 數(shù)據(jù)準(zhǔn)備  197
10.5 GPText的使用:簡(jiǎn)單的SQL和UDF函數(shù)  198
10.6 GPText的安裝  200
10.7 GPText索引  201
10.7.1 創(chuàng)建GPText索引  201
10.7.2 加載GPText索引  204
10.7.3 GPText 增減索引列  205
10.8 GPText簡(jiǎn)單查詢  205
10.8.1 GPText 查詢的語(yǔ)法  205
10.8.2 GPText 臨近查詢  206
10.8.3 GPText top查詢  206
10.9 GPText高級(jí)查詢  207
10.9.1 GPText Facet 查詢  207
10.9.2 GPText 高亮查詢結(jié)果  209
10.10 GPText分區(qū)表查詢  210
10.11 GPText對(duì)自然語(yǔ)言處理的支持  211
10.12 GPText定制化索引  213
10.13 GPText管理工具  214
10.14 GPText用于文本挖掘和分析  215
10.15 小結(jié)  216
第11章 地理空間數(shù)據(jù)分析和處理  218
11.1 概述  218
11.1.1 什么是地理空間數(shù)據(jù)  218
11.1.2 地理空間數(shù)據(jù)應(yīng)用與分析中的挑戰(zhàn)  220
11.2 Greenplum PostGIS  223
11.2.1 Greenplum PostGIS 簡(jiǎn)介  223
11.2.2 安裝Greenplum PostGIS 組件  224
11.2.3 次使用  227
11.3 Greenplum PostGIS應(yīng)用實(shí)例  228
11.3.1 GIS數(shù)據(jù)準(zhǔn)備  228
11.3.2 使用Greenplum PostGIS空間數(shù)據(jù)操作符進(jìn)行GIS數(shù)據(jù)查詢  230
11.3.3 使用Greenplum PostGIS的UDF進(jìn)行GIS數(shù)據(jù)分析  233
11.3.4 柵格數(shù)據(jù)  235
11.4 小結(jié)  239
第12章 Greenplum數(shù)據(jù)庫(kù)與圖計(jì)算  240
12.1 圖的概念  240
12.2 圖的應(yīng)用  241
12.2.1 電子電路設(shè)計(jì)自動(dòng)化  241
12.2.2 搜索引擎  242
12.2.3 社交網(wǎng)絡(luò)  242
12.3 圖數(shù)據(jù)的處理  243
12.4 Greenplum對(duì)圖數(shù)據(jù)的支持  244
12.5 MADlib中的圖結(jié)構(gòu)和算法  245
12.5.1 圖的表示  245
12.5.2 MADlib支持的圖算法  245
12.5.3 MADlib圖算法詳解  246
12.6 小結(jié)  277
第四部分 Greenplum的運(yùn)維和遷移
第13章 Greenplum的監(jiān)控和管理  281
13.1 監(jiān)控Greenplum集群的狀態(tài)  282
13.1.1 gpstate命令  282
13.1.2 系統(tǒng)表gp_segment_conf?iguration  283
13.1.3 Segment的故障恢復(fù)和再平衡  284
13.1.4 常用的監(jiān)控命令  287
13.2 管理Greenplum集群  289
13.2.1 參數(shù)配置  289
13.2.2 訪問(wèn)管理  290
13.2.3 統(tǒng)計(jì)信息  292
13.2.4 管理表膨脹  294
13.3 Greenplum指令中心(GPCC)  297
13.3.1 GPCC簡(jiǎn)介  297
13.3.2 可視化監(jiān)控  298
13.3.3 查詢監(jiān)控和分析  301
13.3.4 工作負(fù)載管理  305
13.3.5 監(jiān)控告警系統(tǒng)  307
13.4 小結(jié)  309
第14章 Greenplum數(shù)據(jù)庫(kù)的備份、恢復(fù)和遷移  310
14.1 非并行數(shù)據(jù)庫(kù)備份  310
14.2 非并行數(shù)據(jù)庫(kù)恢復(fù)  313
14.3 并行數(shù)據(jù)庫(kù)備份  313
14.4 并行數(shù)據(jù)庫(kù)恢復(fù)  316
14.5 高效的并行數(shù)據(jù)庫(kù)備份和恢復(fù)工具gpbackup/gprestore  317
14.6 新一代Greenplum數(shù)據(jù)遷移工具GPCOPY  322
14.7 小結(jié)  324
第15章 從Oracle遷移到Greenplum  326
15.1 概述  326
15.2 Oracle與Greenplum的架構(gòu)對(duì)比  327
15.2.1 Oracle的主要痛點(diǎn)  329
15.2.2 Greenplum的優(yōu)勢(shì)  330
15.3 從Oracle遷移到Greenplum的流程  331
15.3.1 遷移場(chǎng)景  332
15.3.2 遷移過(guò)程  334
15.3.3 特殊場(chǎng)景分析  344
15.4 小結(jié)  352
第16章 從Teradata遷移到Greenplum  353
16.1 Teradata產(chǎn)品和用戶面臨的問(wèn)題  353
16.2 從Teradata遷移到Greenplum的可行性  354
16.3 如何從Teradata遷移到Greenplum  356
16.3.1 遷移流程概述  356
16.3.2 Teradata數(shù)據(jù)卸載及DDL導(dǎo)出規(guī)范  357
16.3.3 數(shù)據(jù)操作語(yǔ)句轉(zhuǎn)換  364
16.3.4 函數(shù)轉(zhuǎn)換  367
16.3.5 ETL應(yīng)用工具連接轉(zhuǎn)換  369
16.3.6 其他應(yīng)用接口遷移  372
16.4 特殊場(chǎng)景  373
16.4.1 事前微批去重  373
16.4.2 事后批量去重  374
16.5 小結(jié)  374
附錄A Greenplum社區(qū)  375
附錄B 外部表實(shí)例  380
附錄C Greenplum的SSL證書(shū)  386
術(shù)語(yǔ)表  390

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)