123,123,123

內(nèi)容簡介

　　本書從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。為了更好地理解數(shù)據(jù)挖掘技術(shù)如何用于各種類型的數(shù)據(jù)，研究這些原理與技術(shù)是至關(guān)重要的。本書所涵蓋的主題包括：數(shù)據(jù)預(yù)處理、預(yù)測建模、關(guān)聯(lián)分析、聚類分析、異常檢測和避免錯誤發(fā)現(xiàn)。通過介紹每個主題的基本概念和算法，為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實際問題所需的必要背景以及方法。

作者簡介

　　陳封能（Pang-Ning Tan）密歇根州立大學(xué)計算機科學(xué)與工程系教授，主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)空間安全、網(wǎng)絡(luò)分析等。

圖書目錄

出版者的話
譯者序
前言
第1章　緒論1
　1.1　什么是數(shù)據(jù)挖掘2
　1.2　數(shù)據(jù)挖掘要解決的問題3
　1.3　數(shù)據(jù)挖掘的起源4
　1.4　數(shù)據(jù)挖掘任務(wù)5
　1.5　本書組織結(jié)構(gòu)7
　文獻(xiàn)注釋8
　參考文獻(xiàn)10
　習(xí)題12
第2章　數(shù)據(jù)14
　2.1　數(shù)據(jù)類型15
　　2.1.1　屬性與度量16
　　2.1.2　數(shù)據(jù)集的類型19
　2.2　數(shù)據(jù)質(zhì)量24
　　2.2.1　測量和數(shù)據(jù)收集問題24
　　2.2.2　關(guān)于應(yīng)用的問題27
　2.3　數(shù)據(jù)預(yù)處理28
　　2.3.1　聚集28
　　2.3.2　抽樣30
　　2.3.3　維歸約31
　　2.3.4　特征子集選擇32
　　2.3.5　特征創(chuàng)建34
　　2.3.6　離散化和二元化35
　　2.3.7　變量變換38
　2.4　相似性和相異性的度量40
　　2.4.1　基礎(chǔ)40
　　2.4.2　簡單屬性之間的相似度和相異度41
　　2.4.3　數(shù)據(jù)對象之間的相異度42
　　2.4.4　數(shù)據(jù)對象之間的相似度44
　　2.4.5　鄰近度度量的例子44
　　2.4.6　互信息50
　　*　2.4.7　核函數(shù)51
　　*　2.4.8　Bregman散度53
　　2.4.9　鄰近度計算問題54
　　2.4.10　選擇正確的鄰近度度量56
　文獻(xiàn)注釋56
　參考文獻(xiàn)58
　習(xí)題60
第3章　分類：基本概念和技術(shù)65
　3.1　基本概念65
　3.2　一般的分類框架67
　3.3　決策樹分類器69
　　3.3.1　構(gòu)建決策樹的基本算法70
　　3.3.2　表示屬性測試條件的方法71
　　3.3.3　選擇屬性測試條件的方法73
　　3.3.4　決策樹歸納算法79
　　3.3.5　示例：Web機器人檢測79
　　3.3.6　決策樹分類器的特征81
　3.4　模型的過擬合85
　3.5　模型選擇90
　　3.5.1　驗證集應(yīng)用90
　　3.5.2　模型復(fù)雜度合并91
　　3.5.3　統(tǒng)計范圍估計93
　　3.5.4　決策樹的模型選擇94
　3.6　模型評估95
　　3.6.1　保持方法95
　　3.6.2　交叉驗證96
　3.7　超參數(shù)的使用97
　　3.7.1　超參數(shù)選擇98
　　3.7.2　嵌套交叉驗證98
　3.8　模型選擇和評估中的陷阱99
　　3.8.1　訓(xùn)練集和測試集之間的重疊99
　　3.8.2　使用驗證錯誤率作為泛化錯誤率100
　*　3.9　模型比較100
　　3.9.1　估計準(zhǔn)確率的置信區(qū)間100
　　3.9.2　比較兩個模型的性能101
　文獻(xiàn)注釋102
　參考文獻(xiàn)105
　習(xí)題108
第4章　分類：其他技術(shù)114
　4.1　分類器的種類114
　4.2　基于規(guī)則的分類器115
　　4.2.1　基于規(guī)則的分類器原理116
　　4.2.2　規(guī)則集的屬性116
　　4.2.3　規(guī)則提取的直接方法117
　　4.2.4　規(guī)則提取的間接方法120
　　4.2.5　基于規(guī)則的分類器的特點121
　4.3　最近鄰分類器122
　　4.3.1　算法123
　　4.3.2　最近鄰分類器的特點124
　4.4　樸素貝葉斯分類器124
　　4.4.1　概率論基礎(chǔ)125
　　4.4.2　樸素貝葉斯假設(shè)127
　4.5　貝葉斯網(wǎng)絡(luò)132
　　4.5.1　圖表示132
　　4.5.2　推理與學(xué)習(xí)135
　　4.5.3　貝葉斯網(wǎng)絡(luò)的特點139
　4.6　logistic回歸140
　　4.6.1　logistic回歸用作廣義線性模型141
　　4.6.2　學(xué)習(xí)模型參數(shù)141
　　4.6.3　logistic回歸模型的特點142
　4.7　人工神經(jīng)網(wǎng)絡(luò)143
　　4.7.1　感知機144
　　4.7.2　多層神經(jīng)網(wǎng)絡(luò)146
　　4.7.3　人工神經(jīng)網(wǎng)絡(luò)的特點150
　4.8　深度學(xué)習(xí)151
　　4.8.1　使用協(xié)同損失函數(shù)151
　　4.8.2　使用響應(yīng)激活函數(shù)153
　　4.8.3　正則化154
　　4.8.4　模型參數(shù)的初始化155
　　4.8.5　深度學(xué)習(xí)的特點157
　4.9　支持向量機158
　　4.9.1　分離超平面的邊緣158
　　4.9.2　線性SVM159
　　4.9.3　軟邊緣SVM162
　　4.9.4　非線性SVM165
　　4.9.5　SVM的特點167
　4.10　組合方法168
　　4.10.1　組合方法的基本原理168
　　4.10.2　構(gòu)建組合分類器的方法169
　　4.10.3　偏置方差分解170
　　4.10.4　裝袋171
　　4.10.5　提升173
　　4.10.6　隨機森林176
　　4.10.7　組合方法的實驗比較177
　4.11　類不平衡問題178
　　4.11.1　類不平衡的分類器構(gòu)建179
　　4.11.2　帶類不平衡的性能評估180
　　4.11.3　尋找最優(yōu)的評分閾值183
　　4.11.4　綜合評估性能183
　4.12　多類問題188
　文獻(xiàn)注釋189
　參考文獻(xiàn)193
　習(xí)題198
第5章　關(guān)聯(lián)分析：基本概念和算法205
　5.1　預(yù)備知識205
　5.2　頻繁項集的產(chǎn)生207
　　5.2.1　先驗原理209
　　5.2.2　Apriori算法的頻繁項集產(chǎn)生210
　　5.2.3　候選項集的產(chǎn)生與剪枝212
　　5.2.4　支持度計數(shù)215
　　5.2.5　計算復(fù)雜度217
　5.3　規(guī)則的產(chǎn)生219
　　5.3.1　基于置信度的剪枝219
　　5.3.2　Apriori算法中規(guī)則的產(chǎn)生219
　　5.3.3　示例：美國國會投票記錄221
　5.4　頻繁項集的緊湊表示221
　　5.4.1　極大頻繁項集221
　　5.4.2　閉項集223
　*　5.5　其他產(chǎn)生頻繁項集的方法225
　*　5.6　FP增長算法228
　　5.6.1　FP樹表示法228
　　5.6.2　FP增長算法的頻繁項集產(chǎn)生229
　5.7　關(guān)聯(lián)模式的評估231
　　5.7.1　興趣度的客觀度量232
　　5.7.2　多個二元變量的度量239
　　5.7.3　辛普森悖論240
　5.8　傾斜支持度分布的影響241
　文獻(xiàn)注釋244
　參考文獻(xiàn)248
　習(xí)題256
第6章　關(guān)聯(lián)分析：高級概念263
　6.1　處理分類屬性263
　6.2　處理連續(xù)屬性264
　　6.2.1　基于離散化的方法265
　　6.2.2　基于統(tǒng)計學(xué)的方法267
　　6.2.3　非離散化方法268
　6.3　處理概念分層269
　6.4　序列模式270
　　6.4.1　預(yù)備知識270
　　6.4.2　序列模式發(fā)現(xiàn)272
　　*　6.4.3　時限約束275
　　*　6.4.4　可選計數(shù)方案278
　6.5　子圖模式279
　　6.5.1　預(yù)備知識280
　　6.5.2　頻繁子圖挖掘281
　　6.5.3　候選生成284
　　6.5.4　候選剪枝287
　　6.5.5　支持度計數(shù)287
　*　6.6　非頻繁模式287
　　6.6.1　負(fù)模式288
　　6.6.2　負(fù)相關(guān)模式288
　　6.6.3　非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較289
　　6.6.4　挖掘有趣的非頻繁模式的技術(shù)290
　　6.6.5　基于挖掘負(fù)模式的技術(shù)290
　　6.6.6　基于支持度期望的技術(shù)292
　文獻(xiàn)注釋294
　參考文獻(xiàn)295
　習(xí)題297
第7章　聚類分析：基本概念和算法306
　7.1　概述307
　　7.1.1　什么是聚類分析307
　　7.1.2　聚類的不同類型308
　　7.1.3　簇的不同類型309
　7.2　K均值310
　　7.2.1　K均值算法311
　　7.2.2　K均值：附加的問題316
　　7.2.3　二分K均值317
　　7.2.4　K均值和不同的簇類型318
　　7.2.5　優(yōu)點與缺點319
　　7.2.6　K均值作為優(yōu)化問題320
　7.3　凝聚層次聚類321
　　7.3.1　基本凝聚層次聚類算法322
　　7.3.2　特殊技術(shù)323
　　7.3.3　簇鄰近度的Lance-Williams公式326
　　7.3.4　層次聚類的主要問題327
　　7.3.5　離群點328
　　7.3.6　優(yōu)點與缺點328
　7.4　DBSCAN328
　　7.4.1　傳統(tǒng)的密度：基于中心的方法328
　　7.4.2　DBSCAN算法329
　　7.4.3　優(yōu)點與缺點331
　7.5　簇評估331
　　7.5.1　概述332
　　7.5.2　無監(jiān)督簇評估：使用凝聚度和分離度333
　　7.5.3　無監(jiān)督簇評估：使用鄰近度矩陣336
　　7.5.4　層次聚類的無監(jiān)督評估339
　　7.5.5　確定正確的簇個數(shù)339
　　7.5.6　聚類趨勢340
　　7.5.7　簇有效性的監(jiān)督度量341
　　7.5.8　評估簇有效性度量的顯著性344
　　7.5.9　簇有效性度量的選擇345
　文獻(xiàn)注釋345
　參考文獻(xiàn)347
　習(xí)題349
第8章　聚類分析：其他問題與算法356
　8.1　數(shù)據(jù)、簇和聚類算法的特性356
　　8.1.1　示例：比較K均值和DBSCAN356
　　8.1.2　數(shù)據(jù)特性357
　　8.1.3　簇特性358
　　8.1.4　聚類算法的一般特性359
　8.2　基于原型的聚類359
　　8.2.1　模糊聚類360
　　8.2.2　使用混合模型的聚類362
　　8.2.3　自組織映射369
　8.3　基于密度的聚類372
　　8.3.1　基于網(wǎng)格的聚類372
　　8.3.2　子空間聚類374
　　8.3.3　DENCLUE：基于密度聚類的一種基于核的方案377
　8.4　基于圖的聚類378
　　8.4.1　稀疏化379
　　8.4.2　最小生成樹聚類380
　　8.4.3　OPOSSUM：使用METIS的稀疏相似度最優(yōu)劃分380
　　8.4.4　Chameleon：使用動態(tài)建模的層次聚類381
　　8.4.5　譜聚類384
　　8.4.6　共享最近鄰相似度388
　　8.4.7　Jarvis-Patrick聚類算法390
　　8.4.8　SNN密度391
　　8.4.9　基于SNN密度的聚類392
　8.5　可伸縮的聚類算法393
　　8.5.1　可伸縮：一般問題和方法393
　　8.5.2　BIRCH394
　　8.5.3　CURE395
　8.6　使用哪種聚類算法397
　文獻(xiàn)注釋399
　參考文獻(xiàn)400
　習(xí)題403
第9章　異常檢測406
　9.1　異常檢測問題的特性407
　　9.1.1　異常的定義407
　　9.1.2　數(shù)據(jù)的性質(zhì)407
　　9.1.3　如何使用異常檢測408
　9.2　異常檢測方法的特性408
　9.3　統(tǒng)計方法409
　　9.3.1　使用參數(shù)模型410
　　9.3.2　使用非參數(shù)模型412
　　9.3.3　對正常類和異常類建模413
　　9.3.4　評估統(tǒng)計意義414
　　9.3.5　優(yōu)點與缺點415
　9.4　基于鄰近度的方法415
　　9.4.1　基于距離的異常分?jǐn)?shù)415
　　9.4.2　基于密度的異常分?jǐn)?shù)416
　　9.4.3　基于相對密度的異常分?jǐn)?shù)416
　　9.4.4　優(yōu)點與缺點417
　9.5　基于聚類的方法418
　　9.5.1　發(fā)現(xiàn)異常簇418
　　9.5.2　發(fā)現(xiàn)異常實例418
　　9.5.3　優(yōu)點與缺點420
　9.6　基于重構(gòu)的方法420
　9.7　單類分類422
　　9.7.1　核函數(shù)的使用422
　　9.7.2　原點技巧423
　　9.7.3　優(yōu)點與缺點425
　9.8　信息論方法425
　9.9　異常檢測評估426
　文獻(xiàn)注釋428
　參考文獻(xiàn)429
　習(xí)題433
第10章　避免錯誤發(fā)現(xiàn)436
　10.1　預(yù)備知識：統(tǒng)計檢驗436
　　10.1.1　顯著性檢驗436
　　10.1.2　假設(shè)檢驗440
　　10.1.3　多重假設(shè)檢驗443
　　10.1.4　統(tǒng)計檢驗中的陷阱448
　10.2　對零分布和替代分布建模450
　　10.2.1　生成合成數(shù)據(jù)集450
　　10.2.2　隨機化類標(biāo)451
　　10.2.3　實例重采樣451
　　10.2.4　對檢驗統(tǒng)計量的分布建模451
　10.3　分類問題的統(tǒng)計檢驗452
　　10.3.1　評估分類性能452
　　10.3.2　以多重假設(shè)檢驗處理二分類問題453
　　10.3.3　模型選擇中的多重假設(shè)檢驗453
　10.4　關(guān)聯(lián)分析的統(tǒng)計檢驗454
　　10.4.1　使用統(tǒng)計模型455
　　10.4.2　使用隨機化方法457
　10.5　聚類分析的統(tǒng)計檢驗458
　　10.5.1　為內(nèi)部指標(biāo)生成零分布459
　　10.5.2　為外部指標(biāo)生成零分布459
　　10.5.3　富集460
　10.6　異常檢測的統(tǒng)計檢驗461
　文獻(xiàn)注釋462
　參考文獻(xiàn)464
　習(xí)題466
索引471

作　者：	[美] 陳封能（Pang-Ning Tan）著，段磊張?zhí)鞈c 等譯
出版社：	機械工業(yè)出版社
叢編項：	計算機科學(xué)叢書
標(biāo)　簽：	暫缺

ISBN：	9787111631620	出版時間：	2019-08-01	包裝：	平裝
開本：	16開	頁數(shù)：	480	字?jǐn)?shù)：

數(shù)據(jù)挖掘?qū)д摚ㄔ瓡?版）

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

智能數(shù)據(jù)服務(wù)、安全與應(yīng)用優(yōu)化

物聯(lián)網(wǎng)大數(shù)據(jù)處理與智能教育

Redis 高手心法

信息交互設(shè)計的演進(jìn)研究

CockroachDB權(quán)威指南

動力學(xué)刻畫的數(shù)據(jù)科學(xué)理論和方法…

大數(shù)據(jù)工程師面試筆試寶典

云原生應(yīng)用開發(fā)實戰(zhàn)：基于.NET開…

聯(lián)動Oracle：設(shè)計思想、架構(gòu)實現(xiàn)…

城市計算