Spark是當今大數據領域最活躍、最熱門、最高效的大數據通用計算平臺,是Apache軟件基金會下所有開源項目中三大頂級開源項目之一。在“One Stack to rule them all”理念的指引下,Spark基于RDD成功地構建起了大數據處理的一體化解決方案,將MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大數據計算模型統(tǒng)一到一個技術堆棧中,開發(fā)者使用一致的API操作Spark中的所有功能;更為重要的是Spark的Spark SQL、MLlib、GraphX、Spark Streaming等四大子框架之間可以在內存中完美地無縫集成并可以互相操作彼此的數據,這不僅打造了Spark在當今大數據計算領域其他任何計算框架都無可匹敵的優(yōu)勢,更使得Spark正在加速成為大數據處理中心首選的和唯一的計算平臺。本書詳細解析了企業(yè)級Spark開發(fā)所需的幾乎所有技術內容,涵蓋Spark的架構設計、Spark的集群搭建、Spark內核的解析、Spark SQL、MLlib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多語言編程、Spark常見問題及調優(yōu)等,并且結合Spark源碼細致地解析了Spark內核和四大子框架,最后在附錄中提供了Spark的開發(fā)語言Scala快速入門實戰(zhàn)內容,學習完此書即可勝任絕大多數的企業(yè)級Spark開發(fā)需求。