注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡軟件與程序設計大話數據科學:大數據與機器學習實戰(zhàn)(基于R語言)

大話數據科學:大數據與機器學習實戰(zhàn)(基于R語言)

大話數據科學:大數據與機器學習實戰(zhàn)(基于R語言)

定 價:¥128.00

作 者: 陳文賢 著
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302551300 出版時間: 2020-06-01 包裝: 平裝
開本: 16 頁數: 382 字數:  

內容簡介

  本書以獨特的方式講解數據科學,不僅讓讀者可以輕松學習數據科學理論,又可以動手(手算和機算)進行數據科學實戰(zhàn)。本書特色:全彩印刷,圖形、表格、思維導圖豐富;避免深奧的數學證明,采用簡單的數學說明;用各種學習圖將本書內容貫穿起來;實戰(zhàn)計算,包含小型數據的演算和大型數據的實戰(zhàn)程序。 本書共13章,內容涵蓋豐富的數據科學模型,包含關聯(lián)分析、聚類分析、貝葉斯分類、近鄰法、決策樹、降維分析、回歸模型等算法。利用小數據例題介紹計算步驟,同時用R語言驗證計算結果。另外,也有大數據的案例數據,例如:推薦系統(tǒng)、支持向量機、集成學習等。另外,本書只有大數據的案例數據用R語言計算。 本書適合各個專業(yè)領域(包含金融、電商、保險、互聯(lián)網等行業(yè))想掌握數據科學的讀者,也可以作為高校、社會培訓機構教材。由于內容比較多,教師可自行選擇教學內容。

作者簡介

  陳文賢,美國加州大學伯克利分校工業(yè)工程博士,歷任:臺大信息管理系教授兼系主任、美國雪城Syracuse大學客座教授、澳大利亞悉尼科技大學UTS客座教授、臺北德明財經科技大學信息管理系特聘教授。

圖書目錄

第一篇 基礎篇
第1章 大數據概述 3
1.1 大數據與相關學科的定義 4
1.1.1 大數據的定義 4
1.1.2 數據挖掘 6
1.1.3 數據挖掘標準過程 7
1.1.4 機器學習 9
1.1.5 知識管理 12
1.1.6 數據科學 14
1.1.7 商業(yè)智能 15
1.1.8 人工智能 17
1.1.9 統(tǒng)計學與大數據比較 19
1.1.10 數據名詞的定義 21
1.2 系統(tǒng)與模型概念 22
1.2.1 系統(tǒng)定義與成分 22
1.2.2 輸入,處理,輸出與黑箱 23
1.2.3 環(huán)境 24
1.2.4 反饋 25
1.2.5 效率與效果 25
1.2.6 模型與建模 26
1.2.7 模型的假定與參數 27
1.2.8 敏感,穩(wěn)健或魯棒 28
1.2.9 模型的過擬合 28
1.3 大數據分析模型的分類 30
1.3.1 后設模型 30
1.3.2 關系與因果 31
1.3.3 基于因果關系的統(tǒng)計學分類 32
1.3.4 基于因果關系的大數據分類 32
1.3.5 基于數據類型的分類 34
1.3.6 基于測量的分類 35
1.3.7 數據科學模型的其他分類 36
1.4 大數據的江湖傳奇 36
1.5 R語言“詞云圖”代碼 40
1.6 本章思維導圖 42
第2 章 大數據與R 語言 43
2.1 大數據進位 44
2.2 R語言介紹 45
2.2.1 安裝 R 語言軟件 45
2.2.2 下載R語言程序包 45
2.3 R數據對象的屬性與結構 46
2.3.1 數值 47
2.3.2 整數 47
2.3.3 字符串 47
2.3.4 邏輯 47
2.3.5 向量 48
2.3.6 因子 49
2.3.7 矩陣 50
2.3.8 數據框 52
2.3.9 數組 52
2.3.10 列表 53
2.3.11 時間序列 54
2.3.12 訪問數據類型和結構 54
2.3.13 遺失值 55
2.3.14 讀入Excel CSV數據 55
2.3.15 編輯數據 55
2.3.16 保存Excel CSV數據 55
2.3.17 數據輸入窗口 56
2.3.18 R 的數據結構和函數表 56
2.4 R的函數包 56
2.5 R的數據繪圖 59
2.6 本章思維導圖 64
第二篇 非監(jiān)督式學習
第3 章 關聯(lián)分析 67
3.1 關聯(lián)分析介紹 68
3.1.1 事務與項目的定義 68
3.1.2 項集的關聯(lián)規(guī)則 69
3.2 關聯(lián)規(guī)則數據格式 71
3.3 關聯(lián)規(guī)則的算法 72
3.3.1 Apriori算法 73
3.3.2 關聯(lián)規(guī)則其他測度值 74
3.3.3 負關聯(lián)規(guī)則 75
3.4 關聯(lián)規(guī)則的優(yōu)點和缺點 76
3.4.1 Apriori算法的優(yōu)點 76
3.4.2 Apriori算法的缺點 76
3.4.3 關聯(lián)規(guī)則的評估 76
3.5 關聯(lián)規(guī)則的實例計算 77
3.5.1 尿布與啤酒 77
3.5.2 豆?jié){、燒餅與飯團 79
3.5.3 評估與應用 82
3.6 R語言實戰(zhàn) 82
3.6.1 泰坦尼克號 82
3.6.2 商店數據 86
3.6.3 食品雜貨數據 90
3.6.4 人口收入數據 92
3.6.5 鳶尾花數據 93
3.7 本章思維導圖 96
第4 章 聚類分析 97
4.1 聚類分析介紹 98
4.2 距離與相似度衡量 99
4.2.1 數值數據距離 99
4.2.2 標準化與歸一化 100
4.2.3 0-1數據距離和相似度 100
4.2.4 混合數據的距離 102
4.2.5 顧客數據的距離 102
4.2.6 距離和相似度的轉換 104
4.2.7 計算距離的R函數 104
4.3 層次聚類分析 106
4.3.1 兩類連接 106
4.3.2 顧客數據的聚類 107
4.3.3 層次聚類的優(yōu)點和缺點 110
4.4 非層次聚類分析 110
4.4.1 K-mean聚類 110
4.4.2 PAM 聚類 112
4.4.3 K-mean聚類的優(yōu)點和缺點 113
4.5 聚類分析的評價 113
4.6 R語言實戰(zhàn) 115
4.6.1 歐洲語言的聚類 115
4.6.2 美國電力公司數據 118
4.6.3 歐州人蛋白質數據 120
4.6.4 紅酒數據 124
4.6.5 汽車數據 126
4.7 本章思維導圖 128
第5 章 降維分析 129
5.1 降維分析介紹 130
5.2 主成分分析 131
5.2.1 主成分分析的計算理論 132
5.2.2 主成分分析的計算步驟 134
5.2.3 主成分分析的優(yōu)點和缺點 134
5.3 R語言程序 135
5.4 R語言實戰(zhàn) 138
5.4.1 鳶尾花數據 138
5.4.2 美國罪犯數據 138
5.4.3 美國法官數據 145
5.4.4 國家冰球聯(lián)盟資料 146
5.4.5 美國職業(yè)棒球數據 149
5.4.6 早餐麥片數據 151
5.4.7 紅酒數據 151
5.4.8 心理學數據 152
5.5 本章思維導圖 154
第三篇 監(jiān)督式學習
第6 章 模型選擇與評價 157
6.1 模型選擇與評價步驟 158
6.2 大數據的抽樣方法 159
6.2.1 保留方法抽樣 160
6.2.2 自助抽樣法 162
6.2.3 632自助法 163
6.2.4 過采樣 164
6.3 交叉驗證 165
6.3.1 k-折交叉驗證 165
6.3.2 留一交叉驗證 166
6.4 模型選擇 167
6.4.1 參數和非參數學習 168
6.4.2 偏差和方差 169
6.4.3 模型的復雜度 170
6.4.4 正則化 171
6.4.5 認真學習和懶惰學習 171
6.5 模型評價 172
6.5.1 二元0-1分類器的評價——混淆矩陣 172
6.5.2 混淆矩陣的舉例說明 174
6.5.3 二元分類器的成本計算 176
6.5.4 二元分類器例題數據R語言 176
6.5.5 多標簽分類器的評價 179
6.5.6 多標簽分類器評價R 語言 181
6.5.7 交叉驗證分類的評價 183
6.5.8 分類學習的ROC曲線 183
6.5.9 連續(xù)型目標變量回歸模型的評價 187
6.6 R語言實戰(zhàn) 189
6.6.1 R語言自動調模與調參 189
6.6.2 汽車數據 190
6.6.3 乳腺癌診斷數據 190
6.7 本章思維導圖 192
第7 章 回歸分析 193
7.1 多元線性回歸 194
7.1.1 多元線性回歸模型 194
7.1.2 參數估計 195
7.1.3 適合性檢驗 196
7.1.4 實例計算 197
7.1.5 R語言的實例計算 199
7.2 變量(特征)選擇 200
7.2.1 偏相關系數 200
7.2.2 逐步回歸 203
7.2.3 部分子集回歸 204
7.2.4 壓縮方法 205
7.3 Logistic邏輯回歸 207
7.4 R語言實戰(zhàn) 209
7.4.1 股票數據 209
7.4.2 乳腺癌病理數據 210
7.4.3 醫(yī)療保險數據 213
7.4.4 棒球數據 215
7.4.5 波士頓房價數據 218
7.4.6 皮瑪數據 221
7.5 本章思維導圖 224
第8 章 近鄰法 225
8.1 學習器 226
8.1.1 認真學習器和懶惰學習器 226
8.1.2 基于實例學習器 227
8.1.3 參數學習器和非參數學習器 228
8.2 近鄰法介紹 229
8.2.1 k-近鄰法算法步驟 229
8.2.2 k-近鄰法分類器 230
8.2.3 k-近鄰法回歸 231
8.2.4 自變量是分類變量 232
8.3 近鄰法的優(yōu)點和缺點 232
8.4 R語言實戰(zhàn) 233
8.4.1 食材數據 233
8.4.2 鳶尾花數據 234
8.4.3 乳癌檢查數據 236
8.4.4 美國總統(tǒng)候選人數據 238
8.4.5 玻璃數據 240
8.4.6 波士頓房價數據 241
8.4.7 皮瑪數據 242
8.5 本章思維導圖 244
第9 章 貝葉斯分類 245
9.1 貝葉斯公式 246
9.2 貝葉斯分類 247
9.2.1 樸素貝葉斯分類 247
9.2.2 特征值是連續(xù)變量 248
9.2.3 樸素貝葉斯分類的優(yōu)點和缺點 249
9.3 貝葉斯分類的實例計算 249
9.3.1 天氣和打網球 249
9.3.2 驗前概率與似然概率 251
9.3.3 拉普拉斯校準 251
9.3.4 R 語言實例計算 252
9.4 R語言實戰(zhàn) 255
9.4.1 泰坦尼克號數據 255
9.4.2 鳶尾花數據 256
9.4.3 垃圾郵件數據 258
9.4.4 皮瑪數據 261
9.5 本章思維導圖 262
第10 章 決策樹 263
10.1 決策樹概述 264
10.1.1 圖形表示 264
10.1.2 邏輯表示 265
10.1.3 規(guī)則表示 265
10.1.4 數學公式表示 265
10.2 決策樹的信息計算 266
10.2.1 信息計算 266
10.2.2 熵與信息 267
10.2.3 信息增益 267
10.2.4 信息增益比 268
10.2.5 基尼系數與基尼增益 268
10.2.6 卡方統(tǒng)計量 269
10.2.7 分枝法則的選擇 269
10.2.8 回歸樹 269
10.3 決策樹的實例計算 270
10.4 決策樹的剪枝 277
10.4.1 貪婪算法 277
10.4.2 決策樹剪枝 278
10.5 決策樹的優(yōu)點和缺點 279
10.6 R語言實戰(zhàn) 280
10.6.1 決策樹R語言包 280
10.6.2 打網球數據 280
10.6.3 泰坦尼克號數據 283
10.6.4 鳶尾花數據 284
10.6.5 皮瑪數據 289
10.6.6 汽車座椅銷售數據 292
10.6.7 波士頓房價數據 295
10.6.8 貓數據 297
10.6.9 駝背數據 300
10.6.10 美國總統(tǒng)選舉投票數據 301
10.6.11 員工離職數據 302
10.7 本章思維導圖 306
第11 章 支持向量機 307
11.1 支持向量機概述 308
11.2 最大間隔分類(硬間隔) 310
11.3 支持向量分類(軟間隔) 311
11.4 支持向量機(核函數) 313
11.4.1 支持向量機的核函數 313
11.4.2 多元分類支持向量機 315
11.5 支持向量機的優(yōu)點和缺點 315
11.6 支持向量機R語言應用 316
11.6.1 隨機正態(tài)分布數據線性核函數 317
11.6.2 隨機正態(tài)分布數據徑向基核函數 318
11.6.3 三分類數據徑向基核函數 321
11.7 R語言實戰(zhàn) 322
11.7.1 基因表達數據 322
11.7.2 鳶尾花數據 322
11.7.3 貓數據 323
11.7.4 皮瑪數據 325
11.7.5 字符數據 328
11.7.6 玻璃數據 329
11.8 本章思維導圖 332
第12 章 集成學習 333
12.1 集成學習介紹 334
12.2 個別分類方法評價 335
12.3 Bagging學習 337
12.4 隨機森林 338
12.4.1 隨機森林介紹 338
12.4.2 隨機森林算法步驟 339
12.4.3 R 語言 339
12.4.4 隨機森林的優(yōu)點和缺點 340
12.4.5 非監(jiān)督式學習-鳶尾花數據 340
12.4.6 美國大學數據 341
12.5 Boosting學習 342
12.6 Stacking學習 343
12.6.1 皮瑪數據 343
12.6.2 員工離職數據 344
12.7 R語言實戰(zhàn) 345
12.7.1 紅酒數據 345
12.7.2 信用數據 347
12.7.3 皮瑪數據 348
12.7.4 波士頓房價數據 349
12.7.5 汽車座椅數據 352
12.7.6 顧客流失數據 353
12.8 本章思維導圖 356
第13 章 推薦系統(tǒng) 357
13.1 推薦系統(tǒng)概述 358
13.2 過濾推薦 359
13.2.1 相似度 360
13.2.2 基于用戶的協(xié)同過濾 360
13.2.3 基于項目的協(xié)同過濾 361
13.2.4 協(xié)同過濾的評價 362
13.2.5 協(xié)同過濾的優(yōu)點和缺點 363
13.2.6 混合的推薦機制 364
13.3 R語言應用 365
13.3.1 推薦系統(tǒng)R語言包 365
13.3.2 recommenderlab 函數程序 366
13.3.3 模擬數據 367
13.4 R語言實戰(zhàn) 369
13.4.1 電影數據 369
13.4.2 笑話數據 373
13.5 本章思維導圖 378
結語 379
參考文獻 381

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號