第1章 對數(shù)據倉庫的迫切需求 1
本章目標 1
1.1 對戰(zhàn)略信息的不斷增長的需求 2
1.1.1 信息危機 4
1.1.2 技術趨勢 5
1.1.3 機遇和風險 6
1.2 以往的決策支持系統(tǒng)的失敗 8
1.2.1 決策支持系統(tǒng)的歷史 9
1.2.2 缺乏提供戰(zhàn)略信息的能力 10
1.3 操作型系統(tǒng)和決策支持系統(tǒng) 11
1.3.1 使商業(yè)運作起來 11
1.3.2 監(jiān)視商業(yè)的運作 12
1.3.3 不同的范圍, 不同的目的 12
1.4 數(shù)據倉庫——惟一可行的解決方案 13
1.4.1 一種新類型的系統(tǒng)環(huán)境 13
1.4.2 新環(huán)境下的需求處理 14
1.4.3 數(shù)據倉庫的商業(yè)智能 14
1.5 數(shù)據倉庫的定義 15
1.5.1 數(shù)據倉庫是信息傳遞的一種簡單概念 15
1.5.2 數(shù)據倉庫是一種環(huán)境, 而不是產品 16
1.5.3 數(shù)據倉庫是多種技術的混合體 16
本章小結 17
復習思考題 18
練習題 18
第2章 數(shù)據倉庫的組成部分 20
本章目標 20
2.1 定義的特點 21
2.1.1 面向主題的數(shù)據 21
2.1.2 綜合的數(shù)據 22
2.1.3 數(shù)據的時間特性 24
2.1.4 數(shù)據的非易變性 24
2.1.5 數(shù)據粒度 26
2.2 數(shù)據倉庫和數(shù)據集市 27
2.2.1 它們有什么不同 27
2.2.2 自上而下和自下而上的方法 28
2.2.3 一個實用的方法 29
2.3 數(shù)據倉庫的組成部分 30
2.3.1 源數(shù)據部分 31
2.3.2 數(shù)據準備部分 34
2.3.3 數(shù)據存儲部分 37
2.3.4 信息傳遞部分 37
2.3.5 元數(shù)據部分 38
2.3.6 管理和控制部分 39
2.4 數(shù)據倉庫中的元數(shù)據 39
2.4.1 元數(shù)據的類型 39
2.4.2 元數(shù)據的特殊意義 40
本章小結 41
復習思考題 41
練習題 42
第3章 數(shù)據倉庫的發(fā)展趨勢 43
本章目標 43
3.1 數(shù)據倉庫的持續(xù)成長 44
3.1.1 數(shù)據倉庫正在成為主流 44
3.1.2 數(shù)據倉庫的擴張 45
3.1.3 解決方案和產品 46
3.2 重要趨勢 48
3.2.1 多種數(shù)據類型 48
3.2.2 數(shù)據可視化 51
3.2.3 并行處理 53
3.2.4 查詢工具 55
3.2.5 瀏覽工具 55
3.2.6 數(shù)據融合 56
3.2.7 多維分析 56
3.2.8 代理技術 57
3.2.9 企業(yè)組合數(shù)據 57
3.2.10 數(shù)據倉庫和ERP 58
3.2.11 數(shù)據倉庫和知識管理 59
3.2.12 數(shù)據倉庫和CRM 60
3.2.13 活躍的數(shù)據倉庫 62
3.3 標準的出現(xiàn) 62
3.3.1 元數(shù)據 63
3.3.2 OLAP 64
3.4 支持Web的數(shù)據倉庫 65
3.4.1 將數(shù)據倉庫放入Web中 65
3.4.2 將Web技術引入數(shù)據倉庫 66
3.4.3 支持Web技術的配置 67
本章小結 68
復習思考題 68
練習題 69
第4章 規(guī)劃和項目管理 70
本章目標 70
4.1 規(guī)劃你的數(shù)據倉庫 71
4.1.1 關鍵問題 71
4.1.2 商業(yè)需求, 而非技術 74
4.1.3 高層管理的支持 75
4.1.4 數(shù)據倉庫的可行性分析 75
4.1.5 全盤計劃 77
4.2 數(shù)據倉庫項目 77
4.2.1 有什么不同 78
4.2.2 準備情況的評估 79
4.2.3 生命周期方法 80
4.2.4 開發(fā)的各階段 82
4.3 項目團隊 83
4.3.1 組織項目團隊 83
4.3.2 角色和責任 84
4.3.3 技能和經驗水平 87
4.3.4 用戶參與 88
4.4 項目管理要素 89
4.4.1 項目管理的指導原則 90
4.4.2 警告征兆 91
4.4.3 成功的因素 92
4.4.4 成功項目細審 93
4.4.5 采用實用的方法 94
本章小結 95
復習思考題 96
練習題 96
第5章 定義商業(yè)需求 98
本章目標 98
5.1 維度分析 98
5.1.1 對不可預知的信息的使用 99
5.1.2 商業(yè)數(shù)據的維度 99
5.1.3 商業(yè)維度的例子 101
5.2 信息包——一個新概念 102
5.2.1 不完全確定的需求 102
5.2.2 商業(yè)維度 104
5.2.3 維度層次和分類 104
5.2.5 關鍵商業(yè)指標或事實 106
5.3 收集需求的方法 108
5.3.1 采訪技巧 109
5.3.2 調整聯(lián)合應用程序設計方法 111
5.3.3 回顧已有的文檔 113
5.4 需求定義:范圍和內容 114
5.4.1 數(shù)據源 115
5.4.2 數(shù)據轉換 115
5.4.3 數(shù)據存儲 116
5.4.4 信息傳遞 116
5.4.5 信息包表 116
5.4.6 需求定義文檔提綱 116
本章小結 117
復習思考題 117
練習題 118
第6章 需求——數(shù)據倉庫的驅動力 120
本章目標 120
6.1 數(shù)據設計 121
6.1.1 商業(yè)維度的結構 123
6.1.2 關鍵衡量指標的結構 124
6.1.3 細節(jié)層次 124
6.2 體系結構規(guī)劃 125
6.2.1 組成部分的構成 126
6.2.2 特殊因素 127
6.2.3 工具和產品 130
6.3 數(shù)據存儲規(guī)范 132
6.3.1 數(shù)據庫管理系統(tǒng)的選擇 133
6.3.2 存儲規(guī)模估計 134
6.4 信息傳遞策略 135
6.4.1 查詢和報表 136
6.4.2 分析的類型 137
6.4.3 信息分發(fā) 137
6.4.4 決策支持應用程序 137
6.4.5 發(fā)展和擴大 138
本章小結 138
復習思考題 138
練習題 139
第7章 體系結構及其組成部分 141
本章目標 141
7.1掌握數(shù)據倉庫的體系結構 141
7.1.1 體系結構:定義 141
7.1.2 三個主要區(qū)域的體系結構 142
7.2 區(qū)別于其他結構的特點 143
7.2.1 不同的目標和范圍 144
7.2.2 數(shù)據內容 145
7.2.3 復雜分析和快速響應 145
7.2.4 靈活性和動態(tài)性 146
7.2.5 元數(shù)據驅動 146
7.3 體系結構框架 147
7.3.1 支持數(shù)據流的體系結構 147
7.3.2 管理和控制模塊 148
7.4 技術體系結構 149
7.4.1 數(shù)據獲取 151
7.4.2 數(shù)據存儲 154
7.4.3 信息傳遞 156
本章小結 158
復習思考題 159
練習題 159
第8章 數(shù)據倉庫的基礎構造 161
本章目標 161
8.1 支持體系結構的基礎構造 161
8.1.1 操作型基礎構造 163
8.1.2 物理基礎構造 163
8.2 硬件和操作系統(tǒng) 165
8.2.1 平臺選擇 166
8.2.2 服務器硬件 178
8.3 數(shù)據庫軟件 183
8.3.1 并行處理方案 184
8.3.2 數(shù)據庫管理系統(tǒng)的選擇 186
8.4 工具收集 187
8.4.1 先設計好體系結構, 再選擇工具 188
8.4.2 數(shù)據建模 189
8.4.3 數(shù)據抽取 189
8.4.4 數(shù)據轉換 189
8.4.5 數(shù)據裝載 190
8.4.6 數(shù)據質量 190
8.4.7 查詢和報表 190
8.4.8 聯(lián)機分析處理(OLAP) 190
8.4.9 預警系統(tǒng) 191
8.4.10 中間件及連接部件 191
8.4.11 數(shù)據倉庫管理 191
本章小結 191
復習思考題 192
練習題 192
第9章 元數(shù)據的重要角色 194
本章目標 194
9.1 元數(shù)據的重要性 194
9.1.1 數(shù)據倉庫的關鍵需求 196
9.1.2 為什么元數(shù)據對最終用戶很關鍵 200
9.1.3 為什么元數(shù)據對IT人員很關鍵 201
9.1.4 數(shù)據倉庫任務自動化 203
9.1.5 建立信息上下文 205
9.2 按功能區(qū)域劃分的元數(shù)據類型 206
9.2.1 數(shù)據獲取 207
9.2.2 數(shù)據存儲 208
9.2.3 信息傳遞 210
9.3 商業(yè)元數(shù)據 211
9.3.1 內容總攬 211
9.3.2 商業(yè)元數(shù)據舉例 212
9.3.3 內容重點 213
9.3.4 誰會受益 213
9.4 技術元數(shù)據 214
9.4.1 內容總攬 214
9.4.2 技術元數(shù)據舉例 214
9.4.3 內容重點 216
9.4.4 誰會受益 216
9.5 如何提供元數(shù)據 217
9.5.1 元數(shù)據需求 218
9.5.2 元數(shù)據的來源 219
9.5.3 元數(shù)據管理面臨的挑戰(zhàn) 221
9.5.4 元數(shù)據儲存庫 222
9.5.5 元數(shù)據集成與標準 224
9.5.6 實施選項 224
本章小結 226
復習思考題 227
練習題 227
第10章 維度建模的原則 229
本章目標 229
10.1 從需求到數(shù)據設計 229
10.1.1 設計決策 230
10.1.2 維度建?;A 230
10.1.3 E-R建模與維度建模的對比 235
10.1.4 使用CASE工具 236
10.2 星型模式 237
10.2.1 一個簡單的星型模式的回顧 237
10.2.2 維度表的內容 240
10.2.3 事實表的內容 242
10.2.4 不含事實的事實表 244
10.2.5 數(shù)據粒度 245
10.3 星型模式的鍵 246
10.3.1 主鍵 246
10.3.2 替代鍵 247
10.3.3 外鍵 248
10.4 星型模式的優(yōu)勢 248
10.4.1 用戶容易理解 249
10.4.2 優(yōu)化瀏覽 250
10.4.3 最適于查詢處理 251
10.4.4 星型連接和星型索引 252
本章小結 252
復習思考題 253
練習題 253
第11章 維度建模:高級專題 255
本章目標 255
11.1 維度表的更新 256
11.1.1慢速變化中的維度 256
11.1.2 第1類修改:改正錯誤 257
11.1.3 第2類修改:保存歷史數(shù)據 259
11.1.4 第3類修改:暫時的(軟性的)修改 260
11.2 各式各樣的維度 262
11.2.1 大維度 263
11.2.2 快速變化中的維度 264
11.2.3 廢棄維度 266
11.3 雪花型模式 267
11.3.1 規(guī)范化選項 268
11.3.2 優(yōu)勢與劣勢 269
11.3.3 什么時候使用雪花型模式 270
11.4 聚集事實表 271
11.4.1 事實表的大小 273
11.4.2 對聚集的需求 275
11.4.3 對事實表進行聚集 275
11.4.4 聚集的選項 281
11.5 星型模式族 283
11.5.1 快照表和事務表 284
11.5.2 核心表和定制表 285
11.5.3 支持企業(yè)價值鏈或者價值環(huán) 286
11.5.4 使維度一致 287
11.5.5 將事實表標準化 288
11.5.6 星型模式族小結 289
本章小結 290
復習思考題 290
練習題 291
第12章 數(shù)據抽取. 轉換和裝載 292
本章目標 292
12.1 ETL概覽 293
12.1.1 最重要和最具有挑戰(zhàn)性 294
12.1.2 耗時而且費勁 295
12.1.3 ETL的需求和步驟 296
12.1.4 關鍵因素 297
12.2 數(shù)據抽取 298
12.2.1 數(shù)據源確認 299
12.2.2 數(shù)據抽取技術 300
12.2.3 技術的評估 307
12.3 數(shù)據轉換 309
12.3.1 數(shù)據轉換:基本任務 310
12.3.2 主要轉換類型 311
12.3.4 數(shù)據整合和合并 313
12.3.5 維度屬性的轉換 315
12.3.6 如何實施轉換 316
12.4 數(shù)據裝載 318
12.4.1 應用數(shù)據:技術和過程 319
12.4.2 數(shù)據的刷新和更新 322
12.4.3 維度表的規(guī)程 323
12.4.4 事實表:歷史與增量的裝載 324
12.5 ETL總結 325
12.5.1 ETL工具選項 326
12.5.2 再次強調ETL中的元數(shù)據(Metadata) 327
12.5.3 ETL的總結和方法 328
本章小結 329
復習思考題 330
練習題 330
第13章 數(shù)據質量:成功的關鍵 332
本章目標 332
13.1 為什么數(shù)據質量如此重要 333
13.1.1 什么是數(shù)據質量 334
13.1.2 提高數(shù)據質量的好處 337
13.1.3 數(shù)據質量問題的類型 338
13.2 數(shù)據質量的挑戰(zhàn) 341
13.2.1 數(shù)據污染的來源 342
13.2.2 姓名和地址的有效性 344
13.2.3 數(shù)據質量低劣帶來的代價 345
13.3 數(shù)據質量工具 346
13.3.1 數(shù)據清洗工具的分類 346
13.3.2 錯誤發(fā)現(xiàn)特性 346
13.3.3 數(shù)據修正特性 347
13.3.4 數(shù)據庫管理系統(tǒng)的質量控制 347
13.4 確保數(shù)據質量的第一步 348
13.4.1 數(shù)據清洗的決策 349
13.4.2 誰應該負責 352
13.4.3 凈化過程 353
13.4.4 對數(shù)據質量的實用建議 355
本章小結 356
復習思考題 356
練習題 357
第14章 信息和用戶類型之間的匹配 359
本章目標 359
14.1 來自于數(shù)據倉庫的信息 360
14.1.1 數(shù)據倉庫和操作型系統(tǒng) 360
14.1.2 信息潛力 362
14.1.3 用戶—信息接口 366
14.1.4 行業(yè)應用 368
14.2 誰將使用這些信息 368
14.2.1 用戶的種類 369
14.2.2 他們需要什么 372
14.2.3 怎樣為用戶提供信息 376
14.3 信息傳遞機制 377
14.3.1 查詢 379
14.3.2 報表 381
14.3.3 分析 382
14.4.4 應用程序 383
14.5 信息傳遞工具 384
14.5.1 桌面電腦環(huán)境 384
14.5.2 工具選擇的方法學 385
14.5.3 選擇工具的標準 389
14.5.4 信息傳遞框架 390
本章小結 391
復習思考題 392
練習題 393
第15章 數(shù)據倉庫中的聯(lián)機分析處理 OLAP 394
本章目標 394
15.1 聯(lián)機分析處理的要求 395
15.1.1 對多維分析的需要 395
15.1.2 快速的訪問和強大的計算能力 397
15.1.3 其他分析方法的局限性 399
15.1.4 聯(lián)機分析處理(OLAP)是用戶需要的答案 401
15.1.5 OLAP的定義和規(guī)則 403
15.1.6 OLAP的特征 405
15.2 主要的特征和功能 406
15.2.1 一般特征 406
15.2.2 維度分析 407
15.2.3 什么是超立方體 411
15.2.4 下鉆和概括化的操作 416
15.2.5 多層次/多視角查看或旋轉的操作 418
15.2.6 OLAP的使用和好處 419
15.3 OLAP模型 419
15.3.1 變種的概述 420
15.3.2 MOLAP模型 421
15.3.3 ROLAP模型 422
15.3.4 ROLAP與MOLAP 423
15.4 OLAP實施的考慮事項 424
15.4.1 數(shù)據設計和準備 425
15.4.2 管理和性能 428
15.4.3 OLAP平臺 429
15.4.4 OLAP工具和產品 430
15.4.5 實施步驟 431
本章小結 432
復習思考題 432
練習題 433
第16章 數(shù)據倉庫和Web 434
本章目標 434
16.1 支持Web的數(shù)據倉庫 435
16.1.1 為什么是Web 436
16.1.2 技術的結合 438
16.1.3 調整數(shù)據倉庫以支持Web 439
16.1.4 作為數(shù)據源的Web 440
16.2 基于Web的信息傳遞機制 441
16.2.1 擴展了的數(shù)據倉庫的使用 442
16.2.2 新的信息策略 444
16.2.3 數(shù)據倉庫的瀏覽器技術 447
16.2.4 安全問題 449
16.3 OLAP和Web 450
16.3.1 企業(yè)OLAP 450
16.3.2 Web-OLAP方法 451
16.3.3 OLAP引擎的設計 451
16.4 建立支持Web的數(shù)據倉庫 452
16.4.1 數(shù)據網絡倉庫的性質 453
16.4.2 對如何實現(xiàn)數(shù)據網絡倉庫的考慮 455
16.4.3 將組件放在一起 456
16.4.4 Web處理模型 457
本章小結 458
復習思考題 459
練習題 459
第17章 數(shù)據挖掘基礎 461
本章目標 461
17.1 數(shù)據挖掘是什么 462
17.1.1 定義數(shù)據挖掘 463
17.1.2 知識發(fā)現(xiàn)過程 465
17.1.3 OLAP 和數(shù)據挖掘 468
17.1.4 數(shù)據挖掘和數(shù)據倉庫 470
17.2 主要的數(shù)據挖掘技術 472
17.2.1 聚簇檢測(cluster detection) 473
17.2.2 決策樹 476
17.2.3 基于記憶的推理 478
17.2.4 關聯(lián)分析 479
17.2.5 神經網絡 482
17.2.6 遺傳算法 484
17.2.7 進入數(shù)據挖掘 486
17.3 數(shù)據挖掘的應用 489
17.3.1 數(shù)據挖掘的收益 490
17.3.2 在零售業(yè)的應用 491
17.3.3 在電信行業(yè)中的應用 492
17.3.4 在銀行和金融業(yè)的應用 493
本章小結 493
復習思考題 494
練習題 494
第18章 物理設計過程 496
本章目標 496
18.1 物理設計步驟 497
18.1.1 建立標準 497
18.1.2 建立聚集計劃 498
18.1.3 確定數(shù)據分區(qū)方案 498
18.1.4 建立聚簇選項 499
18.1.5 準備索引策略 499
18.1.6 安排存儲結構 500
18.1.7 完成物理建模 500
18.2 物理設計考慮的因素 500
18.2.1 物理設計目標 501
18.2.2 從邏輯模型到物理模型 502
18.2.3 物理模型的組成 503
18.2.4 標準的意義 505
18.3 物理存儲 507
18.3.1 存儲區(qū)數(shù)據結構 508
18.3.2 優(yōu)化存儲 508
18.3.3 使用RAID技術 511
18.3.4 估計存儲容量 512
18.4 為數(shù)據倉庫建立索引 513
18.4.1 索引一覽 513
18.4.2 B-Tree索引 515
18.4.3 位圖索引 516
18.4.4 簇索引 518
18.4.5 為事實表建立索引 518
18.4.6 為維度表建立索引 519
18.5 提高性能的技術 519
18.5.1 數(shù)據分區(qū) 520
18.5.2 數(shù)據聚簇 521
18.5.3 并行查詢 521
18.5.4 匯總級別 522
18.5.5 參考完整性檢查 522
18.5.6 初始化參數(shù) 522
18.5.7 數(shù)據陣列 523
本章小結 523
復習思考題 524
練習題 524
第19章 數(shù)據倉庫部署 526
本章目標 526
19.1 部署的主要任務 527
19.1.1 完成用戶認可 527
19.1.2 執(zhí)行初始裝載 528
19.1.3 準備好用戶桌面 530
19.1.4 完成初始用戶培訓 530
19.1.5 建立最初用戶支持 531
19.1.6 按階段部署 532
19.2 領航系統(tǒng) 533
19.2.1 領航數(shù)據集市什么時候有用 534
19.2.2 領航系統(tǒng)的類型 535
19.2.3 選擇領航系統(tǒng) 537
19.2.4 擴展和集成領航系統(tǒng) 539
19.3 安全 539
19.3.1 安全政策 540
19.3.2 管理用戶權限 541
19.3.3 密碼 542
19.3.4 安全工具 542
19.4 備份和恢復 543
19.4.1 為什么要備份數(shù)據倉庫 543
19.4.2 備份策略 544
19.4.3 建立一個實際的日程表 545
19.4.4 恢復 546
本章小結 547
復習思考題 548
練習題 548
第20章 升級和維護 550
本章目標 550
20.1 監(jiān)視數(shù)據倉庫 551
20.1.1 統(tǒng)計數(shù)據收集 552
20.1.2 為升級劃使用統(tǒng)計數(shù)據 553
20.1.3 為優(yōu)化使用統(tǒng)計數(shù)據 554
20.1.4 向用戶公布趨勢 554
20.2 用戶培訓和支持 555
20.2.1 用戶培訓內容 555
20.2.2 準備培訓計劃 557
20.2. 3 執(zhí)行培訓計劃 558
20.2.4 用戶支持 559
20.3 管理數(shù)據倉庫 561
20.3.1 平臺升級 561
20.3.2 數(shù)據增長管理 562
20.3.3 存儲管理 562
20.3.4 ETL管理 563
20.3.5 數(shù)據模型修訂 564
20.3.6 信息傳遞增強 564
20.3.7 持續(xù)的優(yōu)化 565
本章小結 565
復習思考題 566
練習題 566
附錄A 項目生存期步驟和列表 567
附錄B 成功的關鍵因素 571
附錄C 評估供應商解決方案的指南 572