本書從大數(shù)據分析的原理、技術和應用的角度,圍繞著大數(shù)據分析的基礎知識、大數(shù)據分析平臺的核心原理、大數(shù)據分析的關鍵技術、大數(shù)據分析的應用四個方面進行講述,使學生能掌握大數(shù)據分析的基本原理和核心技術,同時通過大數(shù)據分析在上市公司信用風險預測研究中的應用案例使學生熟悉大數(shù)據分析的原理和技術的實際應用,并能搭建大數(shù)據分析平臺分析大規(guī)模數(shù)據集。其中,大數(shù)據分析的基礎知識包括:大數(shù)據產生的背景、大數(shù)據的概念、特點、價值、大數(shù)據帶來的思維變革;大數(shù)據分析平臺的核心原理包括:兩種常用開源大數(shù)據分析平臺――Hadoop和Spark的起源、發(fā)展及應用現(xiàn)狀,理解兩種平臺各自的體系架構、基本運行機制及適用范圍,掌握其安裝部署過程及基本使用方法,為大數(shù)據分析的應用打下基礎;大數(shù)據分析的關鍵技術包括:Hadoop分布式文件系統(tǒng)、MapReduce并行編程模型、Hadoop 2.0的資源管理調度框架――YARN、大數(shù)據的獲取和預處理、大數(shù)據的聚類和分類算法。