本書系統(tǒng)地介紹了數據預處理?數據倉庫和數據挖掘的原理?方法及應用技術, 以及采用Mahout 對相應的挖掘算法進行實際練習?本書共有11 章, 分為兩大部分?第1 ~7 章為理論部分?第1 章為緒論, 介紹了數據挖掘與知識發(fā)現領域中的一些基本理論?研究方法等, 也簡單介紹了Hadoop 生態(tài)系統(tǒng)中的Mahout; 第2 ~7 章按知識發(fā)現的過程, 介紹數據預處理的方法和技術?數據倉庫的構建與OLAP 技術?數據挖掘原理及算法(包括關聯規(guī)則挖掘?聚類分析方法?分類規(guī)則挖掘)?常見的數據挖掘工具與產品?第8 ~11 章為實驗部分, 采用Mahout 對數據挖掘各類算法進行實際練習? 本書應用性較強, 與實踐相結合, 以小數據集為例詳細介紹各種挖掘算法, 使讀者更易掌握挖掘算法的基本原理及過程; 使用廣泛的大數據平臺———Hadoop 生態(tài)系統(tǒng)中的Mahout 對各種挖掘算法進行實際練習, 實戰(zhàn)性強, 也符合目前數據處理與挖掘的發(fā)展趨勢? 本書既便于教師課堂講授, 又便于自學者閱讀, 可作為高等院校高年級學生“數據挖掘技術” “數據倉庫與數據挖掘” “數據處理與智能決策”等課程的教材?