本書從大數據分析的原理、技術和應用的角度,圍繞著大數據分析的基礎知識、大數據分析平臺的核心原理、大數據分析的關鍵技術、大數據分析的應用四個方面進行講述,使學生能掌握大數據分析的基本原理和核心技術,同時通過大數據分析在上市公司信用風險預測研究中的應用案例使學生熟悉大數據分析的原理和技術的實際應用,并能搭建大數據分析平臺分析大規(guī)模數據集。其中,大數據分析的基礎知識包括:大數據產生的背景、大數據的概念、特點、價值、大數據帶來的思維變革;大數據分析平臺的核心原理包括:兩種常用開源大數據分析平臺――Hadoop和Spark的起源、發(fā)展及應用現狀,理解兩種平臺各自的體系架構、基本運行機制及適用范圍,掌握其安裝部署過程及基本使用方法,為大數據分析的應用打下基礎;大數據分析的關鍵技術包括:Hadoop分布式文件系統(tǒng)、MapReduce并行編程模型、Hadoop 2.0的資源管理調度框架――YARN、大數據的獲取和預處理、大數據的聚類和分類算法。