目錄
章大數(shù)據(jù)基礎1
1.1什么是大數(shù)據(jù)1
1.1.1大數(shù)據(jù)的發(fā)展歷程1
1.1.2大數(shù)據(jù)的定義2
1.2大數(shù)據(jù)的特征2
1.2.1Volume(數(shù)量)3
1.2.2Variety(種類)3
1.2.3Velocity(速度)3
1.2.4Value(價值)4
1.2.5Veracity(真實性)4
1.3大數(shù)據(jù)的關鍵技術4
1.3.1大數(shù)據(jù)采集技術4
1.3.2大數(shù)據(jù)預處理技術7
1.3.3大數(shù)據(jù)存儲及管理技術7
1.3.4大數(shù)據(jù)分析及挖掘技術8
1.3.5大數(shù)據(jù)展現(xiàn)和應用技術9
1.4大數(shù)據(jù)與云計算9
1.4.1云計算定義9
1.4.2云計算的特征9
1.4.3云計算和大數(shù)據(jù)的關系10
1.4.4云計算對大數(shù)據(jù)的影響10
1.5大數(shù)據(jù)的應用11
1.5.1電商行業(yè)11
1.5.2金融行業(yè)11
1.5.3醫(yī)療行業(yè)12
1.5.4農牧漁行業(yè)12
1.5.5生物技術13
1.5.6智慧城市13
1.5.7電信行業(yè)13
1.5.8社交媒體分析14
本章小結14
實驗114
第2章大數(shù)據(jù)軟件架構17
2.1Hadoop架構17
2.1.1Hadoop簡介17
2.1.2Hadoop家族成員18
2.1.3Hadoop 2.0生態(tài)系統(tǒng)的集群架構20
2.1.4Hadoop運行環(huán)境20
2.1.5Hadoop集群的安裝與部署22
2.2Spark架構29
2.2.1Spark簡介29
2.2.2Spark集群模式31
2.2.3Spark核心組件33
2.2.4Spark運行環(huán)境35
2.2.5Spark的安裝35
2.3實時流處理架構36
2.3.1實時計算的概念36
2.3.2實時計算的相關技術36
2.3.3Apache Storm38
2.3.4Apache Samza38
2.3.5Lambda架構39
2.4框架的選擇41
2.4.1框架的種類41
2.4.2框架的選擇43
本章小結43
實驗244
第3章大數(shù)據(jù)存儲45
3.1大數(shù)據(jù)存儲概述45
3.1.1傳統(tǒng)存儲系統(tǒng)時代45
3.1.2大數(shù)據(jù)時代的新挑戰(zhàn)46
3.2大數(shù)據(jù)存儲方式47
3.2.1分布式存儲47
3.2.2云存儲48
3.2.3大數(shù)據(jù)存儲的其他需求49
3.3大數(shù)據(jù)的存儲技術50
3.3.1分布式文件存儲50
3.3.2NoSQL數(shù)據(jù)庫53
3.3.3NewSQL數(shù)據(jù)庫56
3.3.4云存儲技術57
3.4大數(shù)據(jù)存儲的可靠性59
3.4.1大數(shù)據(jù)可靠性的風險60
3.4.2提高大數(shù)據(jù)可靠性的方法60
本章小結61
實驗361
第4章大數(shù)據(jù)計算63
4.1大數(shù)據(jù)計算基本框架63
4.2批處理計算64
4.2.1Hadoop64
4.2.2DAG模型66
4.3流計算69
4.3.1流計算概述69
4.3.2Storm及Trident70
4.4交互式分析計算72
4.4.1概述72
4.4.2Hive73
4.4.3SQL引擎Calcite74
本章小結75
實驗475
第5章大數(shù)據(jù)分析77
5.1大數(shù)據(jù)分析概述77
5.2大數(shù)據(jù)分析基礎78
5.2.1大數(shù)據(jù)分析基本分類78
5.2.2大數(shù)據(jù)分析步驟79
5.2.3異步分析80
5.3大數(shù)據(jù)預測分析80
5.3.1什么是預測分析80
5.3.2預測分析的作用80
5.3.3數(shù)據(jù)具有內在預測性82
5.4大數(shù)據(jù)分析應用83
5.4.1大數(shù)據(jù)分析的主要應用行業(yè)83
5.4.2大數(shù)據(jù)分析應用應注意的問題85
5.5大數(shù)據(jù)分析平臺與工具87
5.5.1HPCC系統(tǒng)87
5.5.2Apache Drill91
5.5.3RapidMiner93
本章小結94
實驗594
第6章大數(shù)據(jù)可視化96
6.1大數(shù)據(jù)可視化概述96
6.1.1大數(shù)據(jù)可視化的概念96
6.1.2大數(shù)據(jù)可視化的基本思想和手段97
6.1.3大數(shù)據(jù)可視化的基本模型97
6.1.4可視化設計組件98
6.2科學可視化105
6.2.1科學可視化的概念105
6.2.2科學可視化方面的主題105
6.2.3科學可視化的應用106
6.3信息可視化107
6.3.1信息可視化的概念107
6.3.2信息可視化的應用108
6.3.3信息實時可視化108
6.3.4信息可視化與科學可視化的關系109
6.4數(shù)據(jù)可視化的應用109
6.4.1數(shù)據(jù)可視化的運用109
6.4.2信息可視化的挑戰(zhàn)114
6.5大數(shù)據(jù)可視化分析116
6.5.1數(shù)據(jù)類型116
6.5.2基本任務117
6.5.3大數(shù)據(jù)可視化分析方法118
6.5.4大數(shù)據(jù)可視化技術120
6.5.5大數(shù)據(jù)可視化分析工具127
本章小結130
實驗6130
第7章大數(shù)據(jù)安全135
7.1大數(shù)據(jù)安全的定義136
7.1.1大數(shù)據(jù)安全的定義136
7.1.2大數(shù)據(jù)安全面臨的挑戰(zhàn)136
7.2安全措施的實施138
7.2.1國外數(shù)據(jù)安全的法律法規(guī)138
7.2.2我國數(shù)據(jù)安全的法律法規(guī)139
7.2.3主要標準化組織的大數(shù)據(jù)安全工作情況140
7.2.4大數(shù)據(jù)安全標準化規(guī)范143
7.2.5大數(shù)據(jù)安全標準體系框架144
7.2.6大數(shù)據(jù)安全策略145
7.3大數(shù)據(jù)安全保障技術147
7.3.1數(shù)據(jù)溯源技術147
7.3.2數(shù)字水印技術149
7.3.3身份認證技術152
7.3.4數(shù)據(jù)發(fā)布匿名保護技術157
7.3.5社交網絡匿名保護技術159
7.4云安全162
7.4.1云安全的概念162
7.4.2云安全的應對方式163
7.4.3云安全技術164
本章小結169
實驗7169
第8章大數(shù)據(jù)機器學習172
8.1大數(shù)據(jù)機器學習概述172
8.1.1人工智能概述172
8.1.2機器學習概述174
8.2機器學習類型176
8.2.1基于學習策略的分類176
8.2.2基于獲取知識的表示形式分類177
8.2.3按應用領域分類178
8.2.4按學習形式分類178
8.3大數(shù)據(jù)機器學習算法179
8.3.1大數(shù)據(jù)分治策略與抽樣179
8.3.2大數(shù)據(jù)特征選擇180
8.3.3大數(shù)據(jù)分類183
8.3.4大數(shù)據(jù)聚類189
8.3.5大數(shù)據(jù)關聯(lián)分析195
8.3.6大數(shù)據(jù)并行計算197
8.4大數(shù)據(jù)機器學習的應用199
8.4.1機器學習在金融領域的應用200
8.4.2機器學習在生物信息學中的應用202
8.4.3機器學習在電商文本大數(shù)據(jù)挖掘中的應用203
本章小結204
實驗8 205