注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)自動(dòng)化技術(shù)、計(jì)算技術(shù)Hadoop實(shí)戰(zhàn)手冊

Hadoop實(shí)戰(zhàn)手冊

Hadoop實(shí)戰(zhàn)手冊

定 價(jià):¥59.00

作 者: (美)Jonathan R. Owens,Jon Lentz,Brian Femiano 著,傅杰,趙磊,盧學(xué)裕 譯
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 人工智能

ISBN: 9787115337955 出版時(shí)間: 2014-03-01 包裝: 平裝
開本: 16開 頁數(shù): 242 字?jǐn)?shù):  

內(nèi)容簡介

  這是一本Hadoop實(shí)用手冊,主要針對(duì)實(shí)際問題給出相應(yīng)的解決方案?!禜adoop實(shí)戰(zhàn)手冊》特色是以實(shí)踐結(jié)合理論分析,手把手教讀者如何操作,并且對(duì)每個(gè)操作都做詳細(xì)的解釋,對(duì)一些重要的知識(shí)點(diǎn)也做了必要的拓展。全書共包括3個(gè)部分,第一部分為基礎(chǔ)篇,主要介紹Hadoop數(shù)據(jù)導(dǎo)入導(dǎo)出、HDFS的概述、Pig與Hive的使用、ETL和簡單的數(shù)據(jù)處理,還介紹了MapReduce的調(diào)試方式;第二部分為數(shù)據(jù)分析高級(jí)篇,主要介紹高級(jí)聚合、大數(shù)據(jù)分析等技巧;第三部分為系統(tǒng)管理篇,主要介紹Hadoop的部署的各種模式、添加新節(jié)點(diǎn)、退役節(jié)點(diǎn)、快速恢復(fù)、MapReduce調(diào)優(yōu)等?!禜adoop實(shí)戰(zhàn)手冊》適合各個(gè)層次的Hadoop技術(shù)人員閱讀。通過閱讀《Hadoop實(shí)戰(zhàn)手冊》,Hadoop初學(xué)者可以使用Hadoop來進(jìn)行數(shù)據(jù)處理,Hadoop工程師或者數(shù)據(jù)挖掘工程師可以解決復(fù)雜的業(yè)務(wù)分析,Hadoop系統(tǒng)管理員可以更好地進(jìn)行日常運(yùn)維?!禜adoop實(shí)戰(zhàn)手冊》也可作為一本Hadoop技術(shù)手冊,針對(duì)要解決的相關(guān)問題,在工作中隨時(shí)查閱。

作者簡介

  Jonathan R. Owens:軟件工程師,擁有Java和C++技術(shù)背景,最近主要從事Hadoop及相關(guān)分布式處理技術(shù)工作。目前就職于comScore公司,為核心數(shù)據(jù)處理團(tuán)隊(duì)成員。comScore是一家知名的從事數(shù)字測量與分析的公司,公司使用Hadoop及其他定制的分布式系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行聚合、分析和管理,每天處理超過400億單的交易。Jon Lentz:comScore核心數(shù)據(jù)處理團(tuán)隊(duì)軟件工程師。他更傾向于使用Pig腳本來解決問題。在加入comScore之前,他主要開發(fā)優(yōu)化供應(yīng)鏈和分配固定收益證券的軟件。Brian Femiano:本科畢業(yè)于計(jì)算機(jī)科學(xué)專業(yè),并且從事相關(guān)專業(yè)軟件開發(fā)工作6年,最近兩年主要利用Hadoop構(gòu)建高級(jí)分析與大數(shù)據(jù)存儲(chǔ)。他擁有商業(yè)領(lǐng)域的相關(guān)經(jīng)驗(yàn),以及豐富的政府合作經(jīng)驗(yàn)。他目前就職于Potomac Fusion公司,這家公司主要從事可擴(kuò)展算法的開發(fā),并致力于學(xué)習(xí)并改進(jìn)政府領(lǐng)域中最先進(jìn)和最復(fù)雜的數(shù)據(jù)集。他通過教授課程和會(huì)議培訓(xùn)在公司內(nèi)部普及Hadoop和云計(jì)算相關(guān)的技術(shù)。譯者簡介傅杰 碩士,畢業(yè)于清華大學(xué)高性能所,現(xiàn)就職于優(yōu)酷土豆集團(tuán),任數(shù)據(jù)平臺(tái)架構(gòu)師,負(fù)責(zé)集團(tuán)大數(shù)據(jù)基礎(chǔ)平臺(tái)建設(shè),支撐其他團(tuán)隊(duì)的存儲(chǔ)與計(jì)算需求,包含Hadoop基礎(chǔ)平臺(tái)、日志采集系統(tǒng)、實(shí)時(shí)計(jì)算平臺(tái)、消息系統(tǒng)、天機(jī)鏡系統(tǒng)等。個(gè)人專注于大數(shù)據(jù)基礎(chǔ)平臺(tái)架構(gòu)及安全研究,積累了豐富的平臺(tái)運(yùn)營經(jīng)驗(yàn),擅長Hadoop平臺(tái)性能調(diào)優(yōu)、JVM調(diào)優(yōu)及診斷各種MapReduce作業(yè),還擔(dān)任China Hadoop Submit 2013大會(huì)專家委員、優(yōu)酷土豆大數(shù)據(jù)系列課程策劃&講師、EasyHadoop社區(qū)講師。趙磊 碩士,畢業(yè)于中國科學(xué)技術(shù)大學(xué),現(xiàn)就職于優(yōu)酷土豆集團(tuán),任數(shù)據(jù)挖掘算法工程師,負(fù)責(zé)集團(tuán)個(gè)性化推薦和無線消息推送系統(tǒng)的搭建和相關(guān)算法的研究。個(gè)人專注于基于大數(shù)據(jù)的推薦算法的研究與應(yīng)用,積累了豐富的大數(shù)據(jù)分析與數(shù)據(jù)挖掘的實(shí)踐經(jīng)驗(yàn),對(duì)分布式計(jì)算和海量數(shù)據(jù)處理有深刻的認(rèn)識(shí)。盧學(xué)裕 碩士,畢業(yè)于武漢大學(xué),曾供職騰訊公司即通部門,現(xiàn)就職于優(yōu)酷土豆集團(tuán),擔(dān)任大數(shù)據(jù)技術(shù)負(fù)責(zé)人,負(fù)責(zé)優(yōu)酷土豆集團(tuán)大數(shù)據(jù)系統(tǒng)平臺(tái)、大數(shù)據(jù)分析、數(shù)據(jù)挖掘和推薦系統(tǒng)。有豐富的Hadoop平臺(tái)使用及優(yōu)化經(jīng)驗(yàn),尤其擅長MapReduce的性能優(yōu)化。基于Hadoop生態(tài)系統(tǒng)構(gòu)建了優(yōu)酷土豆的推薦系統(tǒng),BI分析平臺(tái)。

圖書目錄

目 錄
第1章 Hadoop分布式文件系統(tǒng)——導(dǎo)入和導(dǎo)出數(shù)據(jù) 1
1.1 介紹 1
1.2 使用Hadoop shell命令導(dǎo)入和導(dǎo)出數(shù)據(jù)到HDFS 2
1.3 使用distcp實(shí)現(xiàn)集群間數(shù)據(jù)復(fù)制 7
1.4 使用Sqoop從MySQL數(shù)據(jù)庫導(dǎo)入數(shù)據(jù)到HDFS 9
1.5 使用Sqoop從HDFS導(dǎo)出數(shù)據(jù)到MySQL 12
1.6 配置Sqoop以支持SQL Server 15
1.7 從HDFS導(dǎo)出數(shù)據(jù)到MongoDB 17
1.8 從MongoDB導(dǎo)入數(shù)據(jù)到HDFS 20
1.9 使用Pig從HDFS導(dǎo)出數(shù)據(jù)到MongoDB 23
1.10 在Greenplum外部表中使用HDFS 24
1.11 利用Flume加載數(shù)據(jù)到HDFS中 26
第2章 HDFS 28
2.1 介紹 28
2.2 讀寫HDFS數(shù)據(jù) 29
2.3 使用LZO壓縮數(shù)據(jù) 31
2.4 讀寫序列化文件數(shù)據(jù) 34
2.5 使用Avro序列化數(shù)據(jù) 37
2.6 使用Thrift序列化數(shù)據(jù) 41
2.7 使用Protocol Buffers序列化數(shù)據(jù) 44
2.8 設(shè)置HDFS備份因子 48
2.9 設(shè)置HDFS塊大小 49
第3章 抽取和轉(zhuǎn)換數(shù)據(jù) 51
3.1 介紹 51
3.2 使用MapReduce將Apache日志轉(zhuǎn)換為TSV格式 52
3.3 使用Apache Pig過濾網(wǎng)絡(luò)服務(wù)器日志中的爬蟲訪問量 54
3.4 使用Apache Pig根據(jù)時(shí)間戳對(duì)網(wǎng)絡(luò)服務(wù)器日志數(shù)據(jù)排序 57
3.5 使用Apache Pig對(duì)網(wǎng)絡(luò)服務(wù)器日志進(jìn)行會(huì)話分析 59
3.6 通過Python擴(kuò)展Apache Pig的功能 61
3.7 使用MapReduce及二次排序計(jì)算頁面訪問量 62
3.8 使用Hive和Python清洗、轉(zhuǎn)換地理事件數(shù)據(jù) 67
3.9 使用Python和Hadoop Streaming執(zhí)行時(shí)間序列分析 71
3.10 在MapReduce中利用MultipleOutputs輸出多個(gè)文件 75
3.11 創(chuàng)建用戶自定義的Hadoop Writable及InputFormat讀取地理事件數(shù)據(jù) 78
第4章 使用Hive、Pig和MapReduce處理常見的任務(wù) 85
4.1 介紹 85
4.2 使用Hive將HDFS中的網(wǎng)絡(luò)日志數(shù)據(jù)映射為外部表 86
4.3 使用Hive動(dòng)態(tài)地為網(wǎng)絡(luò)日志查詢結(jié)果創(chuàng)建Hive表 87
4.4 利用Hive字符串UDF拼接網(wǎng)絡(luò)日志數(shù)據(jù)的各個(gè)字段 89
4.5 使用Hive截取網(wǎng)絡(luò)日志的IP字段并確定其對(duì)應(yīng)的國家 92
4.6 使用MapReduce對(duì)新聞檔案數(shù)據(jù)生成n-gram 94
4.7 通過MapReduce使用分布式緩存查找新聞檔案數(shù)據(jù)中包含關(guān)鍵詞的行 98
4.8 使用Pig加載一個(gè)表并執(zhí)行包含GROUP BY的SELECT操作 102
第5章 高級(jí)連接操作 104
5.1 介紹 104
5.2 使用MapReduce對(duì)數(shù)據(jù)進(jìn)行連接 104
5.3 使用Apache Pig對(duì)數(shù)據(jù)進(jìn)行復(fù)制連接 108
5.4 使用Apache Pig對(duì)有序數(shù)據(jù)進(jìn)行歸并連接 110
5.5 使用Apache Pig對(duì)傾斜數(shù)據(jù)進(jìn)行傾斜連接 111
5.6 在Apache Hive中通過map端連接對(duì)地理事件進(jìn)行分析 113
5.7 在Apache Hive通過優(yōu)化的全外連接分析地理事件數(shù)據(jù) 115
5.8 使用外部鍵值存儲(chǔ)(Redis)連接數(shù)據(jù) 118
第6章 大數(shù)據(jù)分析 123
6.1 介紹 123
6.2 使用MapReduce和Combiner統(tǒng)計(jì)網(wǎng)絡(luò)日志數(shù)據(jù)集中的獨(dú)立IP數(shù) 124
6.3 運(yùn)用Hive日期UDF對(duì)地理事件數(shù)據(jù)集中的時(shí)間日期進(jìn)行轉(zhuǎn)換與排序 129
6.4 使用Hive創(chuàng)建基于地理事件數(shù)據(jù)的每月死亡報(bào)告 131
6.5 實(shí)現(xiàn)Hive用戶自定義UDF用于確認(rèn)地理事件數(shù)據(jù)的來源可靠性 133
6.6 使用Hive的map/reduce操作以及Python標(biāo)記最長的無暴力發(fā)生的時(shí)間區(qū)間 136
6.7 使用Pig計(jì)算Audioscrobbler數(shù)據(jù)集中藝術(shù)家之間的余弦相似度 141
6.8 使用Pig以及datafu剔除Audioscrobbler數(shù)據(jù)集中的離群值 145
第7章 高級(jí)大數(shù)據(jù)分析 147
7.1 介紹 147
7.2 使用Apache Giraph計(jì)算PageRank 147
7.3 使用Apache Giraph計(jì)算單源最短路徑 150
7.4 使用Apache Giraph執(zhí)行分布式寬度優(yōu)先搜索 158
7.5 使用Apache Mahout計(jì)算協(xié)同過濾 165
7.6 使用Apache Mahout進(jìn)行聚類 168
7.7 使用Apache Mahout進(jìn)行情感分類 171
第8章 調(diào)試 174
8.1 介紹 174
8.2 在MapReduce中使用Counters監(jiān)測異常記錄 174
8.3 使用MRUnit開發(fā)和測試MapReduce 177
8.4 本地模式下開發(fā)和測試MapReduce 179
8.5 運(yùn)行MapReduce作業(yè)跳過異常記錄 182
8.6 在流計(jì)算作業(yè)中使用Counters 184
8.7 更改任務(wù)狀態(tài)顯示調(diào)試信息 185
8.8 使用illustrate調(diào)試Pig作業(yè) 187
第9章 系統(tǒng)管理 189
9.1 介紹 189
9.2 在偽分布模式下啟動(dòng)Hadoop 189
9.3 在分布式模式下啟動(dòng)Hadoop 192
9.4 添加一個(gè)新節(jié)點(diǎn) 195
9.5 節(jié)點(diǎn)安全退役 197
9.6 NameNode故障恢復(fù) 198
9.7 使用Ganglia監(jiān)控集群 199
9.8 MapReduce作業(yè)參數(shù)調(diào)優(yōu) 201
第10章 使用Apache Accumulo進(jìn)行持久化 204
10.1 介紹 204
10.2 在Accumulo中設(shè)計(jì)行鍵存儲(chǔ)地理事件 205
10.3 使用MapReduce批量導(dǎo)入地理事件數(shù)據(jù)到Accumulo 213
10.4 設(shè)置自定義字段約束Accumulo中的地理事件數(shù)據(jù) 220
10.5 使用正則過濾器限制查詢結(jié)果 225
10.6 使用SumCombiner計(jì)算同一個(gè)鍵的不同版本的死亡數(shù)總和 228
10.7 使用Accumulo實(shí)行單元級(jí)安全的掃描 232
10.8 使用MapReduce聚集Accumulo中的消息源 237

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)