第1章 阿里云機器學習\t1
1.1 產品特點\t1
1.2 名詞解釋\t2
1.3 構建機器學習實驗\t3
1.3.1 新建實驗\t3
1.3.2 使用組件搭建工作流\t4
1.3.3 運行實驗、查看結果\t5
1.3.4 模型部署、在線預測\t6
第2章 商家作弊行為檢測\t7
2.1 數(shù)據探索\t8
2.2 建模、預測和評估\t15
2.3 嘗試其他分類模型\t19
2.4 判斷商家作弊\t24
第3章 生存預測\t27
3.1 數(shù)據集一\t27
3.1.1 特征分析\t28
3.1.2 生存預測\t33
3.2 數(shù)據集二\t36
3.2.1 隨機森林模型\t39
3.2.2 樸素貝葉斯模型\t47
第4章 信用風險預測\t50
4.1 整體流程\t53
4.1.1 特征啞元化\t54
4.1.2 特征重要性\t57
4.2 模型效果評估\t61
4.3 減少模型特征的個數(shù)\t62
第5章 用戶購買行為預測\t65
5.1 數(shù)據探索\t66
5.2 思路\t68
5.2.1 用戶和品牌的各種特征\t69
5.2.2 二分類模型訓練\t71
5.3 計算訓練數(shù)據集\t71
5.3.1 原始數(shù)據劃分\t72
5.3.2 計算特征\t74
5.3.3 計算標簽\t89
5.4 二分類模型訓練\t90
5.4.1 正負樣本配比\t90
5.4.2 邏輯回歸算法\t92
5.4.3 隨機森林算法\t94
第6章 聚類與分類\t96
6.1 數(shù)據可視化\t97
6.2 K-Means聚類\t98
6.2.1 聚類、評估流程\t100
6.2.2 聚成兩類\t101
6.2.3 聚成三類\t103
6.3 K最近鄰算法\t104
6.3.1 使用KNN算法進行分類\t105
6.3.2 算法比較\t108
6.4 多分類模型\t109
6.4.1 使用樸素貝葉斯算法\t109
6.4.2 使用邏輯回歸多分類算法\t112
6.4.3 使用隨機森林算法\t115
6.4.4 各多分類模型效果對比\t118
第7章 葡萄酒品質預測\t119
7.1 數(shù)據探索\t120
7.2 線性回歸\t123
7.3 GBDT回歸\t125
第8章 文本分析\t127
8.1 分詞\t128
8.2 詞頻統(tǒng)計\t130
8.3 單詞的區(qū)分度\t131
8.4 字符串比較\t133
8.5 抽取關鍵詞、關鍵句\t139
8.5.1 原理簡介\t139
8.5.2 完整流程\t141
8.6 主題模型\t146
8.6.1 LDA模型\t147
8.6.2 新聞的主題模型\t149
8.6.3 數(shù)據預處理\t150
8.6.4 主題與原始分類的關系\t153
8.7 單詞映射為向量\t160
8.7.1 相近單詞\t162
8.7.2 單詞聚類\t165
8.8 組件使用小結\t168
第9章 基于用戶退貨描述的賠付預測\t170
9.1 思路\t171
9.2 訓練集的特征生成\t173
9.3 測試集的特征生成\t180
9.4 模型訓練、預測、評估\t181
9.5 提高召回率\t185
第10章 情感分析\t189
10.1 詞袋模型\t190
10.1.1 訓練集的特征生成\t192
10.1.2 測試集的特征生成\t196
10.1.3 模型訓練、預測、評估\t197
10.2 詞向量模型\t200
10.2.1 特征生成\t201
10.2.2 模型訓練\t206
第11章 影片推薦\t211
11.1 協(xié)同過濾\t212
11.2 整體流程\t213
11.3 預處理,過濾出好評信息\t215
11.4 計算影片間的相似度\t215
11.5 計算用戶可能喜歡的影片\t221
11.6 查看推薦效果\t224
第12章 支持深度學習框架\t227
12.1 TensorFlow組件簡介\t227
12.2 Softmax模型\t231
12.3 深度神經網絡\t234
附錄A\t237