123,123

內(nèi)容簡(jiǎn)介

　　《Hadoop + Spark 大數(shù)據(jù)巨量分析與機(jī)器學(xué)習(xí)整合開(kāi)發(fā)實(shí)戰(zhàn)》從淺顯易懂的“大數(shù)據(jù)和機(jī)器學(xué)習(xí)”原理介紹和說(shuō)明入手，講述大數(shù)據(jù)和機(jī)器學(xué)習(xí)的基本概念，如：分類(lèi)、分析、訓(xùn)練、建模、預(yù)測(cè)、機(jī)器學(xué)習(xí)（推薦引擎）、機(jī)器學(xué)習(xí)（二元分類(lèi)）、機(jī)器學(xué)習(xí)（多元分類(lèi)）、機(jī)器學(xué)習(xí)（回歸分析）和數(shù)據(jù)可視化應(yīng)用。為降低讀者學(xué)習(xí)大數(shù)據(jù)技術(shù)的門(mén)檻，書(shū)中提供了豐富的上機(jī)實(shí)踐操作和范例程序詳解，展示了如何在單臺(tái)Windows系統(tǒng)上通過(guò)Virtual Box虛擬機(jī)安裝多臺(tái)Linux虛擬機(jī)，如何建立Hadoop集群，再建立Spark開(kāi)發(fā)環(huán)境。書(shū)中介紹搭建的上機(jī)實(shí)踐平臺(tái)并不限制于單臺(tái)實(shí)體計(jì)算機(jī)。對(duì)于有條件的公司和學(xué)校，參照書(shū)中介紹的搭建過(guò)程，同樣可以將實(shí)踐平臺(tái)搭建在多臺(tái)實(shí)體計(jì)算機(jī)上，以便更加接近于大數(shù)據(jù)和機(jī)器學(xué)習(xí)真實(shí)的運(yùn)行環(huán)境?！禜adoop + Spark 大數(shù)據(jù)巨量分析與機(jī)器學(xué)習(xí)整合開(kāi)發(fā)實(shí)戰(zhàn)》非常適合于學(xué)習(xí)大數(shù)據(jù)基礎(chǔ)知識(shí)的初學(xué)者閱讀，*適合正在學(xué)習(xí)大數(shù)據(jù)理論和技術(shù)的人員作為上機(jī)實(shí)踐用的教材。

作者簡(jiǎn)介

　　林大貴，作者從事IT產(chǎn)業(yè)多年，包括系統(tǒng)設(shè)計(jì)、網(wǎng)站開(kāi)發(fā)等諸多領(lǐng)域，具備豐富實(shí)戰(zhàn)開(kāi)發(fā)經(jīng)驗(yàn)，多版多部具有影響力的作品。

圖書(shū)目錄

第1章大數(shù)據(jù)與機(jī)器學(xué)習(xí)
1．1 大數(shù)據(jù)定義
1．2 Hadoop簡(jiǎn)介
1．3 Hadoop HDFS分布式文件系統(tǒng)
1．4 Hadoop MapReduce的介紹
1．5 Spark的介紹
1．6 機(jī)器學(xué)習(xí)的介紹
第2章 VirtualBox虛擬機(jī)軟件的安裝
2．1 VirtualBox的下載和安裝
2．2 設(shè)置VirtualBox語(yǔ)言版本
2．3 設(shè)置VirtualBox存儲(chǔ)文件夾
2．4 在VirtualBox創(chuàng)建虛擬機(jī)
第3章 Ubuntu Linux操作系統(tǒng)的安裝
3．1 下載安裝Ubuntu的光盤(pán)文件
3．2 在Virtual設(shè)置Ubuntu虛擬光盤(pán)文件
3．3 開(kāi)始安裝Ubuntu
3．4 啟動(dòng)Ubuntu
3．5 安裝增強(qiáng)功能
3．6 設(shè)置默認(rèn)輸入法
3．7 設(shè)置“終端”程序
3．8 設(shè)置“終端”程序?yàn)榘椎缀谧?br />3．9 設(shè)置共享剪貼板
第4章 Hadoop Single Node Cluster的安裝
4．1 安裝JDK
4．2 設(shè)置SSH無(wú)密碼登錄
4．3 下載安裝Hadoop
4．4 設(shè)置Hadoop環(huán)境變量
4．5 修改Hadoop配置設(shè)置文件
4．6 創(chuàng)建并格式化HDFS目錄
4．7 啟動(dòng)Hadoop
4．8 打開(kāi)Hadoop ResourceManager Web界面
4．9 NameNode HDFS Web界面
第5章 Hadoop Multi Node Cluster的安裝
5．1 把Single Node Cluster復(fù)制到data1
5．2 設(shè)置VirtualBox網(wǎng)卡
5．3 設(shè)置data1服務(wù)器
5．4 復(fù)制data1服務(wù)器到data2、data3、master
5．5 設(shè)置data2、data3服務(wù)器
5．6 設(shè)置master服務(wù)器
5．7 master連接到data1、data2、data3創(chuàng)建HDFS目錄
5．8 創(chuàng)建并格式化NameNode HDFS目錄
5．9 啟動(dòng)Hadoop Multi Node Cluster
5．10 打開(kāi)Hadoop ResourceManager Web界面
5．11 打開(kāi)NameNode Web界面
第6章 Hadoop HDFS命令
6．1 啟動(dòng)Hadoop Multi-Node Cluster
6．2 創(chuàng)建與查看HDFS目錄
6．3 從本地計(jì)算機(jī)復(fù)制文件到HDFS
6．4 將HDFS上的文件復(fù)制到本地計(jì)算機(jī)
6．5 復(fù)制與刪除HDFS文件
6．6 在Hadoop HDFS Web用戶(hù)界面瀏覽HDFS
第7章 Hadoop MapReduce
7．1 介紹wordCount．Java
7．2 編輯wordCount．Java
7．3 編譯wordCount．Java
7．4 創(chuàng)建測(cè)試文本文件
7．5 運(yùn)行wordCount．Java
7．6 查看運(yùn)行結(jié)果
7．7 Hadoop MapReduce的缺點(diǎn)
第8章 Spark的安裝與介紹
8．1 Spark的Cluster模式架構(gòu)圖
8．2 Scala的介紹與安裝
8．3 安裝Spark
8．4 啟動(dòng)spark-shell交互界面
8．5 設(shè)置spark-shell顯示信息
8．6 啟動(dòng)Hadoop
8．7 本地運(yùn)行spark-shell程序
8．8 在Hadoop YARN運(yùn)行spark-shell
8．9 構(gòu)建Spark Standalone Cluster執(zhí)行環(huán)境
8．10 在Spark Standalone運(yùn)行spark-shell
第9章 Spark RDD
9．1 RDD的特性
9．2 基本RDD“轉(zhuǎn)換”運(yùn)算
9．3 多個(gè)RDD“轉(zhuǎn)換”運(yùn)算
9．4 基本“動(dòng)作”運(yùn)算
9．5 RDD Key-Value 基本“轉(zhuǎn)換”運(yùn)算
9．6 多個(gè)RDD Key-Value“轉(zhuǎn)換”運(yùn)算
9．7 Key-Value“動(dòng)作”運(yùn)算
9．8 Broadcast廣播變量
9．9 accumulator累加器
9．10 RDD Persistence持久化
9．11 使用Spark創(chuàng)建WordCount
9．12 Spark WordCount詳細(xì)解說(shuō)
第10章 Spark的集成開(kāi)發(fā)環(huán)境
10．1 下載與安裝eclipse Scala IDE
10．2 下載項(xiàng)目所需要的Library
10．3 啟動(dòng)eclipse
10．4 創(chuàng)建新的Spark項(xiàng)目
10．5 設(shè)置項(xiàng)目鏈接庫(kù)
10．6 新建scala程序
10．7 創(chuàng)建WordCount測(cè)試文本文件
10．8 創(chuàng)建WordCount．scala
10．9 編譯WordCount．scala程序
10．10 運(yùn)行WordCount．scala程序
10．11 導(dǎo)出jar文件
10．12 spark-submit的詳細(xì)介紹
10．13 在本地local模式運(yùn)行WordCount程序
10．14 在Hadoop yarn-client運(yùn)行WordCount程序
10．15 在Spark Standalone Cluster上運(yùn)行WordCount程序
10．16 本書(shū)范例程序的安裝說(shuō)明
第11章創(chuàng)建推薦引擎
11．1 推薦算法介紹
11．2 “推薦引擎”大數(shù)據(jù)分析使用場(chǎng)景
11．3 ALS推薦算法的介紹
11．4 ml-100k推薦數(shù)據(jù)的下載與介紹
11．5 使用spark-shell導(dǎo)入ml-100k數(shù)據(jù)
11．6 查看導(dǎo)入的數(shù)據(jù)
11．7 使用ALS．train進(jìn)行訓(xùn)練
11．8 使用模型進(jìn)行推薦
11．9 顯示推薦的電影名稱(chēng)
11．10 創(chuàng)建Recommend項(xiàng)目
11．11 Recommend．scala程序代碼
11．12 創(chuàng)建PrepareData（）數(shù)據(jù)準(zhǔn)備
11．13 recommend（）推薦程序代碼
11．14 運(yùn)行Recommend．scala
11．15 創(chuàng)建AlsEvaluation．scala調(diào)校推薦引擎參數(shù)
11．16 創(chuàng)建PrepareData（）數(shù)據(jù)準(zhǔn)備
11．17 進(jìn)行訓(xùn)練評(píng)估
11．18 運(yùn)行AlsEvaluation
11．19 修改Recommend．scala為佳參數(shù)組合
第12章 StumbleUpon數(shù)據(jù)集
12．1 StumbleUpon數(shù)據(jù)集簡(jiǎn)介
12．2 下載StumbleUpon數(shù)據(jù)
12．3 用LibreOffice Calc 電子表格查看train．tsv
12．4 二元分類(lèi)算法
第13章決策樹(shù)二元分類(lèi)
13．1 決策樹(shù)的介紹
13．2 創(chuàng)建Classification項(xiàng)目
13．3 開(kāi)始輸入RunDecisionTreeBinary．scala程序
13．4 數(shù)據(jù)準(zhǔn)備階段
13．5 訓(xùn)練評(píng)估階段
13．6 預(yù)測(cè)階段
13．7 運(yùn)行RunDecisionTreeBinary．scala
13．6 修改RunDecisionTreeBinary調(diào)校訓(xùn)練參數(shù)
13．7 運(yùn)行RunDecisionTreeBinary進(jìn)行參數(shù)調(diào)校
13．8 運(yùn)行RunDecisionTreeBinary不進(jìn)行參數(shù)調(diào)校
第14章邏輯回歸二元分類(lèi)
14．1 邏輯回歸分析介紹
14．2 RunLogisticRegression WithSGDBinary．scala程序說(shuō)明
14．3 運(yùn)行RunLogisticRegression WithSGDBinary．scala進(jìn)行參數(shù)調(diào)校
14．4 運(yùn)行RunLogisticRegression WithSGDBinary．scala不進(jìn)行參數(shù)調(diào)校
第15章支持向量機(jī)SVM二元分類(lèi)
15．1 支持向量機(jī)SVM算法的基本概念
15．2 RunSVMWithSGDBinary．scala 程序說(shuō)明
15．3 運(yùn)行SVMWithSGD．scala進(jìn)行參數(shù)調(diào)校
15．4 運(yùn)行SVMWithSGD．scala不進(jìn)行參數(shù)調(diào)校
第16章樸素貝葉斯二元分類(lèi)
16．1 樸素貝葉斯分析原理的介紹
16．2 RunNaiveBayesBinary．scala程序說(shuō)明
16．3 運(yùn)行NaiveBayes．scala進(jìn)行參數(shù)調(diào)校
16．4 運(yùn)行NaiveBayes．scala不進(jìn)行參數(shù)調(diào)校
第17章決策樹(shù)多元分類(lèi)
17．1 “森林覆蓋植被”大數(shù)據(jù)問(wèn)題分析場(chǎng)景
17．2 UCI Covertype數(shù)據(jù)集介紹
17．3 下載與查看數(shù)據(jù)
17．4 創(chuàng)建RunDecisionTreeMulti．scala
17．5 修改RunDecisionTreeMulti．scala程序
17．6 運(yùn)行RunDecisionTreeMulti．scala進(jìn)行參數(shù)調(diào)校
17．7 運(yùn)行RunDecisionTreeMulti．scala不進(jìn)行參數(shù)調(diào)校
第18章決策樹(shù)回歸分析
18．1 Bike Sharing大數(shù)據(jù)問(wèn)題分析
18．2 Bike Sharing數(shù)據(jù)集
18．3 下載與查看數(shù)據(jù)
18．4 創(chuàng)建RunDecisionTreeRegression．scala
18．5 修改RunDecisionTreeRegression．scala
18．6 運(yùn)行RunDecisionTreeRegression． scala進(jìn)行參數(shù)調(diào)校
18．7 運(yùn)行RunDecisionTreeRegression． scala不進(jìn)行參數(shù)調(diào)校
第19章使用Apache Zeppelin 數(shù)據(jù)可視化
19．1 Apache Zeppelin簡(jiǎn)介
19．2 安裝Apache Zeppelin
19．3 啟動(dòng)Apache Zeppelin
19．4 創(chuàng)建新的Notebook
19．5 使用Zeppelin運(yùn)行Shell 命令
19．6 創(chuàng)建臨時(shí)表UserTable
19．7 使用Zeppelin運(yùn)行年齡統(tǒng)計(jì)Spark SQL
19．8 使用Zeppelin運(yùn)行性別統(tǒng)計(jì)Spark SQL
19．9 按照職業(yè)統(tǒng)計(jì)
19．10 Spark SQL加入文本框輸入?yún)?shù)
19．11 加入選項(xiàng)參數(shù)
19．12 同時(shí)顯示多個(gè)統(tǒng)計(jì)字段
19．13 設(shè)置工具欄
19．14 設(shè)置段落標(biāo)題
19．15 設(shè)置Paragraph段落的寬度
19．16 設(shè)置顯示模式

作　者：	林大貴著
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)

ISBN：	9787302453758	出版時(shí)間：	2017-01-01	包裝：	平裝
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	425	字?jǐn)?shù)：

Hadoop + Spark 大數(shù)據(jù)巨量分析與機(jī)器學(xué)習(xí)整合開(kāi)發(fā)實(shí)戰(zhàn)

購(gòu)買(mǎi)這本書(shū)可以去

內(nèi)容簡(jiǎn)介

作者簡(jiǎn)介

圖書(shū)目錄

本目錄推薦

一個(gè)公式，玩轉(zhuǎn)PPT

Word+Excel+PPT+PS+移動(dòng)辦公完全…

Excel公式與函數(shù)大辭典（第2版）…

小學(xué)生學(xué)電腦WPS Office（全3冊(cè)…

Word ExcelPPT PS PDF文件處理思…

WPS Office AI智能化高效辦公從…

一圖抵萬(wàn)言：Excel數(shù)據(jù)分析可視…

Word+Excel+PPT 2019辦公應(yīng)用一…

Web應(yīng)用小程序案例研究與分析

WPS Office實(shí)例教程