注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計深度實踐Spark機器學(xué)習(xí)

深度實踐Spark機器學(xué)習(xí)

深度實踐Spark機器學(xué)習(xí)

定 價:¥69.00

作 者: 吳茂貴、郁明敏、朱鳳云、張粵磊、楊本法 等著
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 計算機/網(wǎng)絡(luò) 人工智能

ISBN: 9787111589952 出版時間: 2018-03-01 包裝: 平裝
開本: 16開 頁數(shù): 234 字數(shù):  

內(nèi)容簡介

  本書以新的Spark2.0為技術(shù)基礎(chǔ),重點講解了如何構(gòu)建機器學(xué)習(xí)系統(tǒng)以及如何實現(xiàn)機器學(xué)習(xí)流程的標準化,這兩點都是目前同類書中沒有的。第1~7章從概念、架構(gòu)、算法等角度介紹了機器學(xué)習(xí)的基本概念;第8~12章以實例為主,詳細講解了機器學(xué)習(xí)流程標準化涉及的關(guān)鍵技術(shù);第13章主要以在線數(shù)據(jù)或流式數(shù)據(jù)為主介紹了流式計算框架SparkStreaming;第14章重點講解了深度學(xué)習(xí)的框架TensorFlowOnSprak。此外,附錄部分提供了線性代數(shù)、概率統(tǒng)計及Scala的基礎(chǔ)知識,幫助讀者更好地學(xué)習(xí)和掌握機器學(xué)習(xí)的相關(guān)內(nèi)容。

作者簡介

  吳茂貴 郁明敏 朱鳳云 張粵磊 楊本法等

圖書目錄

目  錄?Contents
前言
第1章 了解機器學(xué)習(xí) 1
1.1 機器學(xué)習(xí)的定義 1
1.2 大數(shù)據(jù)與機器學(xué)習(xí) 2
1.3 機器學(xué)習(xí)、人工智能及深度學(xué)習(xí) 2
1.4 機器學(xué)習(xí)的基本任務(wù) 3
1.5 如何選擇合適算法 4
1.6 Spark在機器學(xué)習(xí)方面的優(yōu)勢 5
1.7 小結(jié) 5
第2章 構(gòu)建Spark機器學(xué)習(xí)系統(tǒng) 6
2.1 機器學(xué)習(xí)系統(tǒng)架構(gòu) 6
2.2 啟動集群 7
2.3 加載數(shù)據(jù) 9
2.4 探索數(shù)據(jù) 10
2.4.1 數(shù)據(jù)統(tǒng)計信息 10
2.4.2 數(shù)據(jù)質(zhì)量分析 11
2.4.3 數(shù)據(jù)特征分析 12
2.4.4 數(shù)據(jù)的可視化 17
2.5 數(shù)據(jù)預(yù)處理 19
2.5.1 數(shù)據(jù)清理 20
2.5.2 數(shù)據(jù)變換 21
2.5.3 數(shù)據(jù)集成 22
2.5.4 數(shù)據(jù)歸約 23
2.6 構(gòu)建模型 25
2.7 模型評估 26
2.8 組裝 30
2.9 模型選擇或調(diào)優(yōu) 30
2.9.1 交叉驗證 31
2.9.2 訓(xùn)練–驗證切分 32
2.10 保存模型 32
2.11 小結(jié) 33
第3章 ML Pipeline原理與實戰(zhàn) 34
3.1 Pipeline簡介 34
3.2 DataFrame 35
3.3 Pipeline組件 36
3.4 Pipeline原理 37
3.5 Pipeline實例 38
3.5.1 使用Estimator、Transformer和Param的實例 38
3.5.2 ML使用Pipeline的實例 40
3.6 小結(jié) 41
第4章 特征提取、轉(zhuǎn)換和選擇 42
4.1 特征提取 42
4.1.1 詞頻—逆向文件
頻率(TF-IDF) 42
4.1.2 Word2Vec 43
4.1.3 計數(shù)向量器 44
4.2 特征轉(zhuǎn)換 45
4.2.1 分詞器 45
4.2.2 移除停用詞 46
4.2.3 n-gram 47
4.2.4 二值化 48
4.2.5 主成分分析 48
4.2.6 多項式展開 50
4.2.7 離散余弦變換 50
4.2.8 字符串—索引變換 51
4.2.9  索引—字符串變換 53
4.2.10 獨熱編碼 54
4.2.11 向量—索引變換 57
4.2.12 交互式 58
4.2.13 正則化 59
4.2.14 規(guī)范化 60
4.2.15 最大值—最小值縮放 60
4.2.16 最大值—絕對值縮放 61
4.2.17 離散化重組 62
4.2.18 元素乘積 63
4.2.19 SQL轉(zhuǎn)換器 64
4.2.20 向量匯編 65
4.2.21 分位數(shù)離散化 66
4.3 特征選擇 67
4.3.1 向量機 67
4.3.2 R公式 69
4.3.3 卡方特征選擇 70
4.4 小結(jié) 71
第5章 模型選擇和優(yōu)化 72
5.1 模型選擇 72
5.2 交叉驗證 73
5.3 訓(xùn)練驗證拆分法 75
5.4 自定義模型選擇 76
5.5 小結(jié) 78
第6章 Spark MLlib基礎(chǔ) 79
6.1 Spark MLlib簡介 80
6.2 Spark MLlib架構(gòu) 81
6.3 數(shù)據(jù)類型 82
6.4 基礎(chǔ)統(tǒng)計 84
6.4.1 摘要統(tǒng)計 84
6.4.2 相關(guān)性 84
6.4.3 假設(shè)檢驗 85
6.4.4 隨機數(shù)據(jù)生成 85
6.5 RDD、Dataframe和Dataset 86
6.5.1 RDD 86
6.5.2 DatasetDataFrame 87
6.5.3 相互轉(zhuǎn)換 88
6.6 小結(jié) 89
第7章 構(gòu)建Spark ML推薦模型 90
7.1 推薦模型簡介 91
7.2 數(shù)據(jù)加載 92
7.3 數(shù)據(jù)探索 94
7.4 訓(xùn)練模型 94
7.5 組裝 95
7.6 評估模型 96
7.7 模型優(yōu)化 96
7.8 小結(jié) 98
第8章 構(gòu)建Spark ML分類模型 99
8.1 分類模型簡介 99
8.1.1 線性模型 100
8.1.2 決策樹模型 101
8.1.3 樸素貝葉斯模型 102
8.2 數(shù)據(jù)加載 102
8.3 數(shù)據(jù)探索 103
8.4 數(shù)據(jù)預(yù)處理 104
8.5 組裝 109
8.6 模型優(yōu)化 110
8.7 小結(jié) 113
第9章 構(gòu)建Spark ML回歸模型 114
9.1 回歸模型簡介 115
9.2 數(shù)據(jù)加載 115
9.3 探索特征分布 117
9.4 數(shù)據(jù)預(yù)處理 120
9.4.1 特征選擇 121
9.4.2 特征轉(zhuǎn)換 121
9.5 組裝 122
9.6 模型優(yōu)化 124
9.7 小結(jié) 126
第10章 構(gòu)建Spark ML聚類模型 127
10.1 K-means模型簡介 128
10.2 數(shù)據(jù)加載 129
10.3 探索特征的相關(guān)性 129
10.4 數(shù)據(jù)預(yù)處理 131
10.5 組裝 132
10.6 模型優(yōu)化 134
10.7 小結(jié) 136
第11章 PySpark 決策樹模型 137
11.1 PySpark 簡介 138
11.2 決策樹簡介 139
11.3 數(shù)據(jù)加載 140
11.3.1 原數(shù)據(jù)集初探 140
11.3.2 PySpark的啟動 142
11.3.3 基本函數(shù) 142
11.4 數(shù)據(jù)探索 143
11.5 數(shù)據(jù)預(yù)處理 143
11.6 創(chuàng)建決策樹模型 145
11.7 訓(xùn)練模型進行預(yù)測 146
11.8 模型優(yōu)化 149
11.8.1 特征值的優(yōu)化 149
11.8.2 交叉驗證和網(wǎng)格參數(shù) 152
11.9 腳本方式運行 154
11.9.1 在腳本中添加配置信息 154
11.9.2 運行腳本程序 154
11.10 小結(jié) 154
第12章 SparkR樸素貝葉斯模型 155
12.1 SparkR簡介 156
12.2 獲取數(shù)據(jù) 157
12.2.1 SparkDataFrame數(shù)據(jù)結(jié)構(gòu)
說明 157
12.2.2 創(chuàng)建SparkDataFrame 157
12.2.3 SparkDataFrame的常用操作 160
12.3 樸素貝葉斯分類器 162
12.3.1 數(shù)據(jù)探查 162
12.3.2 對原始數(shù)據(jù)集進行轉(zhuǎn)換 163
12.3.3 查看不同船艙的生還率差異 163
12.3.4 轉(zhuǎn)換成SparkDataFrame格式的數(shù)據(jù) 165
12.3.5 模型概要 165
12.3.6 預(yù)測 165
12.3.7 評估模型 166
12.4 小結(jié) 167
第13章 使用Spark Streaming構(gòu)建在線學(xué)習(xí)模型 168
13.1 Spark Streaming簡介 168
13.1.1 Spark Streaming常用術(shù)語 169
13.1.2 Spark Streaming處理流程 169
13.2 Dstream操作

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號