本書主要分為三個部分。 第一部分(第1章)對如何建立Hadoop的開發(fā)、分析環(huán)境做了簡單的介紹。對于Hadoop這樣復雜、龐大的項目,一個好的開發(fā)環(huán)境可以讓讀者事半功倍地學習、研究源代碼。 第二部分(第2~5章)主要對Hadoop公共工具Common的實現進行研究。分別介紹了Hadoop的配置系統(tǒng)、面向海量數據處理的序列化和壓縮機制、Hadoop使用的遠程過程調用,以及滿足Hadoop上各類應用訪問數據的Hadoop抽象文件系統(tǒng)和部分具體文件系統(tǒng)。 第三部分(第6~9章)對Hadoop分布式文件系統(tǒng)進行了詳細的分析。這部分內容采用總-分-總的結構,第6章介紹了HDFS各個實體和實體間接口,第7章和第8章分別詳細地研究了數據節(jié)點和名字節(jié)點的實現原理,第9章通過對客戶端的解析,回顧HDFS各節(jié)點間的配合,完整地介紹了一個大規(guī)模數據存儲系統(tǒng)的實現。 通過本書,讀者不僅能全面了解Hadoop的優(yōu)秀架構和設計思想,而且還能從Hadoop,特別是HDFS的實現源碼中一窺Java開發(fā)的精髓和分布式系統(tǒng)的精要??闭`和支持 由于作者的水平有限,編寫時間跨度較長,同時開源軟件的演化較快,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。如果大家有和本書相關的內容需要探討,或有更多的寶貴意見,歡迎通過caibinbupt@qq.com和我們聯系,希望能結識更多的朋友,大家共同進步。書中的源代碼文件可以從華章網站下載。致謝 感謝機械工業(yè)出版社華章公司的編輯楊福川和白宇,楊老師的耐心和支持讓本書最終得以出版,白老師的很多建議使本書的可讀性更強。 感謝騰訊數據平臺部的張文郁、趙重慶和徐釗,作為本書的第一批讀者和Hadoop專家,他們的反饋意見讓本書增色不少。 感謝和我們一起工作、研究和應用Hadoop的騰訊數據平臺部,以及IBM中國研究中心和中山大學的領導和同事們,本書的很多內容是對實際項目的總結。最后,作者向支持本書寫作的家人深表謝意,感謝他們的耐心和理解。