本書全面介紹了Hadoop生態(tài)系統(tǒng)中各個開源組件的理論知識和實踐案例。全書分為上篇——Hadoop基礎篇、中篇——Hadoop提高篇、下篇——案例篇三部分,共11章,涉及數(shù)據(jù)采集、數(shù)據(jù)存儲與管理、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化一系列大數(shù)據(jù)應用生命周期中各階段典型組件的理論知識、安裝部署和實戰(zhàn)使用。上篇為第1~8章,具體內容包括大數(shù)據(jù)概述、初識Hadoop、分布式文件系統(tǒng)HDFS、分布式計算框架MapReduce、統(tǒng)一資源管理和調度框架YARN、分布式協(xié)調框架ZooKeeper、分布式數(shù)據(jù)庫HBase、數(shù)據(jù)倉庫Hive;中篇為第9、10章,具體內容包括大數(shù)據(jù)遷移和采集工具、數(shù)據(jù)可視化;下篇為第11章,介紹了使用Hadoop平臺完成用戶畫像項目的全過程。本書在Hadoop、HDFS、MapReduce、ZooKeeper、HBase、Hive等重要章節(jié)安排了初級實踐操作,以便讀者更好地學習和掌握Hadoop關鍵技術。 本書內容翔實,案例豐富,既可作為高等院校大數(shù)據(jù)、計算機、人工智能等相關專業(yè)研究生、本科生的大數(shù)據(jù)課程教材,也可供相關技術人員參考。 本書配套有《Hadoop大數(shù)據(jù)原理與應用實驗教程》,同時可在西安電子科技大學出版社網站下載本書作者提供的相關資源。