集成學(xué)習(xí)實(shí)戰(zhàn)

定　價(jià)：￥128.00

作　者：	[美] 高塔姆·庫(kù)納普利（Gautam Kunapuli）著郭濤譯
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

當(dāng)當(dāng)網(wǎng) (￥121.60)

ISBN：	9787302660927	出版時(shí)間：	2024-07-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　集成學(xué)習(xí)通過自動(dòng)對(duì)比多個(gè)模型的輸出，將輸出結(jié)合起來，融合成強(qiáng)大的集成模型，得出最優(yōu)結(jié)果。集成學(xué)習(xí)發(fā)揮“集體智慧”，結(jié)果更準(zhǔn)確，克服了單一模型的局限性。這種創(chuàng)新方法能夠綜合多個(gè)視角的響應(yīng)；即使在沒有大規(guī)模數(shù)據(jù)集的情況下，也能給出可靠的預(yù)測(cè)結(jié)果?！都蓪W(xué)習(xí)實(shí)戰(zhàn)》呈現(xiàn)同時(shí)應(yīng)用多種機(jī)器學(xué)習(xí)方法的實(shí)用技巧。每章都列舉一個(gè)獨(dú)特案例（如醫(yī)學(xué)診斷、情感分析等），展示一個(gè)功能完備的集成方法。本書不探討深?yuàn)W的數(shù)學(xué)知識(shí)，所講內(nèi)容淺顯易懂，代碼豐富，供你輕松進(jìn)行實(shí)驗(yàn)！主要內(nèi)容● Bagging法、提升法和梯度提升法● 分類、回歸和檢索方法● 集成方法的模型和決策可解釋性● 特征工程和集成多樣性

作者簡(jiǎn)介

　　Gautam Kunapuli擁有逾15年的學(xué)術(shù)界和機(jī)器學(xué)習(xí)行業(yè)經(jīng)驗(yàn)，重點(diǎn)研究人機(jī)協(xié)作學(xué)習(xí)、基于知識(shí)和建議的學(xué)習(xí)算法，以及針對(duì)機(jī)器學(xué)習(xí)難題的可擴(kuò)展學(xué)習(xí)。

圖書目錄

第I部分　集成學(xué)習(xí)基礎(chǔ)知識(shí)
第1章　集成方法：炒作還是福音· 3
1.1　集成方法：集體智慧 4
1.2　關(guān)注集成學(xué)習(xí)原因 6
1.3　單個(gè)模型中的擬合度與復(fù)雜性 8
1.3.1　決策樹回歸 8
1.3.2　支持向量回歸 12
1.4　第一個(gè)集成模型 15
1.5　集成方法的術(shù)語和分類 19
1.6　小結(jié) 21
第II部分　基本集成方法
第2章　同質(zhì)并行集成：Bagging法和隨機(jī)森林 25
2.1　并行集成 26
2.2　Bagging法：Bootstrap結(jié)合算法 27
2.2.1　直覺：重采樣和模型結(jié)合 28
2.2.2　實(shí)現(xiàn)Bagging法 31
2.2.3　使用scikit-learn實(shí)現(xiàn)Bagging法 33
2.2.4　使用并行化進(jìn)行更快的訓(xùn)練 35
2.3　隨機(jī)森林 36
2.3.1　隨機(jī)決策樹 36
2.3.2　使用scikit-learn實(shí)現(xiàn)隨機(jī)森林 38
2.3.3　特征重要性 39
2.4　更多同質(zhì)并行集成· 40
2.4.1　Pasting 40
2.4.2　隨機(jī)子空間和random patch法 41
2.4.3　極度隨機(jī)樹 42
2.5　案例研究：乳腺癌診斷 43
2.5.1　加載和預(yù)處理 43
2.5.2　Bagging法、隨機(jī)森林和極度隨機(jī)樹 44
2.5.3　隨機(jī)森林中的特征重要性 47
2.6　小結(jié) 50
第3章　異質(zhì)并行集成：結(jié)合強(qiáng)學(xué)習(xí)器 53
3.1　異質(zhì)集成的基礎(chǔ)估計(jì)器 54
3.1.1　擬合基礎(chǔ)估計(jì)器 55
3.1.2　基礎(chǔ)估計(jì)器的單個(gè)預(yù)測(cè) 58
3.2　通過加權(quán)結(jié)合預(yù)測(cè) 60
3.2.1　多數(shù)投票 62
3.2.2　準(zhǔn)確率加權(quán) 63
3.2.3　熵加權(quán)法 65
3.2.4　Dempster-Shafer結(jié)合 67
3.3　通過元學(xué)習(xí)結(jié)合預(yù)測(cè) 69
3.3.1　Stacking 70
3.3.2　通過交叉驗(yàn)證進(jìn)行Stacking 74
3.4　案例研究：情感分析 77
3.4.1　預(yù)處理 78
3.4.2　降低維度 81
3.4.3　blending分類器 82
3.5　小結(jié) 85
第4章　順序集成：自適應(yīng)提升 87
4.1　弱學(xué)習(xí)器的順序集成 88
4.2　AdaBoost：自適應(yīng)提升 90
4.2.1　直覺法：使用加權(quán)樣本進(jìn)行學(xué)習(xí) 90
4.2.2　實(shí)現(xiàn)AdaBoost 93
4.2.3　使用scikit-learn的AdaBoost 99
4.3　AdaBoost在實(shí)踐中的應(yīng)用 101
4.3.1　學(xué)習(xí)率· 102
4.3.2　早停和剪枝 104
4.4　案例研究：手寫數(shù)字分類 106
4.4.1　利用 t-SNE降維 107
4.4.2　提升 109
4.5　LogitBoost：使用邏輯損失進(jìn)行提升 112
4.5.1　邏輯損失函數(shù)與指數(shù)損失函數(shù) 112
4.5.2　將回歸作為分類的弱學(xué)習(xí)算法 113
4.5.3　實(shí)現(xiàn)LogitBoost 113
4.6　小結(jié) 116
第5章　順序集成：梯度提升 117
5.1　用梯度下降實(shí)現(xiàn)最小化 118
5.1.1　舉例說明梯度下降 119
5.1.2　在損失函數(shù)上進(jìn)行梯度下降訓(xùn)練 125
5.2　梯度提升：梯度下降提升 128
5.2.1　直覺：使用殘差學(xué)習(xí) 128
5.2.2　實(shí)現(xiàn)梯度提升 132
5.2.3　使用scikit-learn進(jìn)行梯度提升 136
5.2.4　基于直方圖的梯度提升 138
5.3　LightGBM：梯度提升框架 140
5.3.1　為何將LightGBM稱為“輕量級(jí)” 140
5.3.2　利用LightGBM進(jìn)行梯度提升 142
5.4　LightGBM在實(shí)踐中的應(yīng)用 143
5.4.1　學(xué)習(xí)率 143
5.4.2　早停 146
5.4.3　自定義損失函數(shù) 148
5.5　案例研究：文檔檢索 151
5.5.1　LETOR數(shù)據(jù)集 151
5.5.2　使用LightGBM進(jìn)行文檔檢索 153
5.6　小結(jié) 156
第6章　順序集成：牛頓提升 157
6.1　最小化牛頓法 158
6.1.1　舉例說明牛頓法 160
6.1.2　訓(xùn)練過程中的損失函數(shù)的牛頓下降· 165
6.2　牛頓提升：牛頓法 Boosting 167
6.2.1　直覺：使用加權(quán)殘差進(jìn)行學(xué)習(xí) 167
6.2.2　直覺：使用正則化損失函數(shù)進(jìn)行學(xué)習(xí) 170
6.2.3　實(shí)現(xiàn)牛頓提升 173
6.3　XGBoost：牛頓提升框架 177
6.3.1　XGBoost的“極端”之處在哪里？ 178
6.3.2　XGBoost的牛頓提升 179
6.4　XGBoost實(shí)踐 181
6.4.1　學(xué)習(xí)率 181
6.4.2　早停 184
6.5　案例研究：文檔檢索 185
6.5.1　LETOR數(shù)據(jù)集 185
6.5.2　使用XGBoost進(jìn)行文檔檢索 186
6.6　小結(jié) 188
第III部分　集成之外：將集成方法應(yīng)用于你的數(shù)據(jù)
第7章　學(xué)習(xí)連續(xù)和計(jì)數(shù)標(biāo)簽 193
7.1　回歸的簡(jiǎn)要回顧 194
7.1.1　連續(xù)標(biāo)簽的線性回歸 194
7.1.2　用于計(jì)數(shù)標(biāo)簽的泊松回歸 200
7.1.3　用于分類標(biāo)簽的邏輯回歸 203
7.1.4　廣義線性模型 204
7.1.5　非線性回歸 205
7.2　回歸的并行集成 208
7.2.1　隨機(jī)森林和極度隨機(jī)樹 209
7.2.2　結(jié)合回歸模型 212
7.2.3　Stacking回歸模型 213
7.3　用于回歸的順序集成 214
7.3.1　用于回歸的損失和似然函數(shù) 216
7.3.2　LightGBM和XGBoost的梯度提升 218
7.4　案例研究：需求預(yù)測(cè) 221
7.4.1　UCI自行車共享數(shù)據(jù)集 222
7.4.2　GLM和Stacking· 224
7.4.3　隨機(jī)森林和極度隨機(jī)樹 227
7.4.4　XGBoost和LightGBM 228
7.5　小結(jié) 231
第8章　學(xué)習(xí)分類特征 233
8.1　編碼分類特征 234
8.1.1　分類特征的類型 235
8.1.2　有序編碼和獨(dú)熱編碼 235
8.1.3　使用目標(biāo)統(tǒng)計(jì)信息進(jìn)行編碼 238
8.1.4　類別編碼器包 244
8.2　CatBoost：有序提升框架 247
8.2.1　有序目標(biāo)統(tǒng)計(jì)和有序提升 247
8.2.2　無意識(shí)決策樹 249
8.2.3　CatBoost實(shí)踐 250
8.3　案例研究：收入預(yù)測(cè) 253
8.3.1　adult數(shù)據(jù)集 254
8.3.2　創(chuàng)建預(yù)處理和建模流程 256
8.3.3　類別編碼和集成 259
8.3.4　有序編碼和CatBoost提升 261
8.4　編碼高基數(shù)字符串特征 263
8.5　小結(jié) 267
第9章　集成學(xué)習(xí)可解釋性 269
9.1　可解釋性的含義 270
9.1.1　黑盒與白盒模型 270
9.1.2　決策樹(和決策規(guī)則) 273
9.1.3　廣義線性模型 276
9.2　案例研究：數(shù)據(jù)驅(qū)動(dòng)的營(yíng)銷 278
9.2.1　銀行營(yíng)銷數(shù)據(jù)集 279
9.2.2　訓(xùn)練集成 281
9.2.3　樹集成中的特征重要性 282
9.3　全局可解釋性的黑盒方法 283
9.3.1　排列特征重要性 284
9.3.2　部分依賴圖 286
9.3.3　全局代理模型· 289
9.4　適用于局部可解釋性的黑盒方法 292
9.4.1　借助LIME的局部代理模型 292
9.4.2　借助SHAP的局部可解釋性 296
9.5　白盒集成：訓(xùn)練解釋性 302
9.5.1　可解釋性提升機(jī) 303
9.5.2　EBM實(shí)踐 306
9.6　小結(jié) 309
結(jié)語 311