本書是使用Spark進行大規(guī)模數(shù)據(jù)分析的實戰(zhàn)寶典,由知名數(shù)據(jù)科學(xué)家撰寫。本書在第1版的基礎(chǔ)上,針對Spark近年來的發(fā)展,對樣例代碼和所使用的資料進行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL兩個子項目也發(fā)生了較大變化,本書為關(guān)注Spark發(fā)展趨勢的讀者提供了與時俱進的資料,例如Dataset和DataFrame的使用,以及與DataFrame API高度集成的Spark ML API。
作者簡介
【作者簡介】桑迪·里扎(Sandy Ryza),Spark項目代碼提交者、Hadoop項目管理委員會委員,Time Series for Spark項目創(chuàng)始人。曾任Cloudera公司高級數(shù)據(jù)科學(xué)家,現(xiàn)就職于Remix公司從事公共交通算法開發(fā)。于里·萊瑟森(Uri Laserson),MIT博士畢業(yè),致力于用技術(shù)解決遺傳學(xué)問題,曾利用Hadoop生態(tài)系統(tǒng)開發(fā)了可擴展的基因組學(xué)和免疫學(xué)技術(shù)。目前是西奈山伊坎醫(yī)學(xué)院遺傳學(xué)助理教授,曾任Cloudera公司核心數(shù)據(jù)科學(xué)家。肖恩·歐文(Sean Owen),Spark、Mahout項目代碼提交者,Spark項目管理委員會委員?,F(xiàn)任Cloudera公司數(shù)據(jù)科學(xué)總監(jiān)。喬希·威爾斯(Josh Wills),Crunch項目發(fā)起人,現(xiàn)任Slack公司數(shù)據(jù)工程主管。曾任Cloudera公司高級數(shù)據(jù)科學(xué)總監(jiān)?!咀g者簡介】龔少成現(xiàn)任萬達科技集團數(shù)據(jù)工程部總經(jīng)理,清華大學(xué)自動化系研究生畢業(yè),國內(nèi)專注企業(yè)級大數(shù)據(jù)平臺建設(shè)的先驅(qū)者之一,曾經(jīng)在Intel和Cloudera公司擔(dān)任大數(shù)據(jù)技術(shù)負(fù)責(zé)人,Cloudera公司認(rèn)證大數(shù)據(jù)培訓(xùn)講師。邱鑫畢業(yè)于武漢大學(xué),目前就職于英特爾亞太研發(fā)有限公司,是Intel大數(shù)據(jù)團隊高級工程師。主要研究大數(shù)據(jù)與深度學(xué)習(xí)技術(shù),是基于Spark的深度學(xué)習(xí)框架BigDL的核心貢獻者。