注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件數(shù)據(jù)科學與大數(shù)據(jù)分析

數(shù)據(jù)科學與大數(shù)據(jù)分析

數(shù)據(jù)科學與大數(shù)據(jù)分析

定 價:¥69.00

作 者: (美)EMC教育服務團隊(EMC Education Services)
出版社: 人民郵電出版社
叢編項:
標 簽: 計算機/網(wǎng)絡 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787115416377 出版時間: 2016-07-01 包裝: 平裝
開本: 16開 頁數(shù): 356 字數(shù):  

內(nèi)容簡介

  數(shù)據(jù)科學與大數(shù)據(jù)分析在當前是炙手可熱的概念,關注的是如何通過分析海量數(shù)據(jù)來洞悉隱藏于數(shù)據(jù)背后的見解。本書是數(shù)據(jù)科學領域為數(shù)不多的實用性技術圖書,它通過詳細剖析數(shù)據(jù)分析生命周期的各個階段來講解用于發(fā)現(xiàn)、分析、可視化、表示數(shù)據(jù)的相關方法和技術?!稊?shù)據(jù)科學與大數(shù)據(jù)分析——數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示》總共分為12章,主要內(nèi)容包括大數(shù)據(jù)分析的簡單介紹,數(shù)據(jù)分析生命周期的各個階段,使用R語言進行基本的數(shù)據(jù)分析,以及高級的分析理論和方法,主要涉及數(shù)據(jù)的聚類、關聯(lián)規(guī)則、回歸、分類、時間序列分析、文本分析等方法。此外,本書還涵蓋了用來進行高級數(shù)據(jù)分析所使用的技術和工具,比如MapReduce和Hadoop、數(shù)據(jù)庫內(nèi)分析等。《數(shù)據(jù)科學與大數(shù)據(jù)分析——數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示》內(nèi)容詳細,示例豐富,側(cè)重于理論與練習的結(jié)合,因此比較適合對大數(shù)據(jù)分析、數(shù)據(jù)科學感興趣的人員閱讀,有志于成為數(shù)據(jù)科學家的讀者也可以從本書中獲益。

作者簡介

  David Dietrich是EMC Education Services的數(shù)據(jù)科學教育團隊的負責人,他領導著大數(shù)據(jù)分析和數(shù)據(jù)科學相關的課程、策略和課程開發(fā)工作。他參與編寫了EMC數(shù)據(jù)科學課程的首門課程,以及兩門額外的EMC課程(以向領導和管理人員講授大數(shù)據(jù)和數(shù)據(jù)科學為主),而且還是本書的作者兼編輯。他在數(shù)據(jù)科學、數(shù)據(jù)隱私和云計算領域已經(jīng)申請了14項專利。David曾指導若干所大學開設數(shù)據(jù)分析相關的課程項目,而且還經(jīng)常在會議和行業(yè)活動中發(fā)表演講。他還是波士頓地區(qū)幾所大學的客座講師。他的作品已被精選到包括福布斯雜志、哈佛商業(yè)評論以及由美國馬薩諸塞州長Deval Patrick委托起草的2014 馬薩諸塞大數(shù)據(jù)報告等內(nèi)在的主流出版物中。David在分析和技術領域已經(jīng)浸淫了近20年。在其職業(yè)生涯中,他曾在多家財富500強公司工作過,出任多個與數(shù)據(jù)分析相關的職位,其中包括管理分析和運營團隊,提供分析咨詢服務,管理用于規(guī)范美國銀行業(yè)的分析軟件產(chǎn)品線,以及開發(fā)軟件即服務(Software-as-a-Service)和Bl即服務(Bl-as-a-Service)的產(chǎn)品。此外,David還曾與美聯(lián)儲一起合作開發(fā)用于監(jiān)控房產(chǎn)抵押貸款的預測模型。Barry Heller是EMC Education Services的一名咨詢技術教育顧問。Barry是大數(shù)據(jù)和數(shù)據(jù)科學新興技術領域的課程開發(fā)人員和課程顧問。在此之前,Barry曾是一名顧問研究科學家,在EMC全面客戶體驗(Total Customer Experience)部門內(nèi)發(fā)起并領導了許多與數(shù)據(jù)分析相關的項目。在其EMC職業(yè)生涯的早期,他負責管理統(tǒng)計工程團隊,并負責企業(yè)資源企劃(ERP)實施中的數(shù)據(jù)倉庫工作。在加盟EMC之前,Barry在醫(yī)療診斷和技術公司擔任過可靠性工程功能(Reliability Engineering Functions)的管理和分析角色。在此期間,他將其數(shù)量分析技能應用到了客戶服務、工程、制造、銷售/營銷、金融和法律領域內(nèi)的無數(shù)商業(yè)應用中。他強調(diào)與客戶管理人員深入互動的重要性,他的許多成功案例不僅源自對分析的技術細節(jié)的關注,也源自針對分析結(jié)果會做出的決策的關注。Barry擁有羅徹斯特理工學院計算數(shù)學專業(yè)的本科學位,以及紐約州立大學新帕爾茲分校數(shù)學專業(yè)的碩士學位。Beibei Yang是EMC Education Services的一名技術教育顧問,在EMC負責開發(fā)若干與數(shù)據(jù)科學和大數(shù)據(jù)分析相關的公開課程。Bebei在IT行業(yè)有7年的從業(yè)經(jīng)驗。在加盟EMC之前,她在一家財富500強公司先后擔任過軟件工程師、系統(tǒng)管理員和網(wǎng)絡管理員等職位,并引入了多種提升效率和鼓勵合作的新技術。Beibei曾在國際會議上發(fā)表過學術論文,并申請了多項專利。她在馬薩諸塞大學盧維爾分校獲得了計算機科學專業(yè)的博士學位。她專注于自然語言處理和數(shù)據(jù)挖掘,尤其是使用各種工具和技術來發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式,以及用數(shù)據(jù)來講故事。數(shù)據(jù)科學和大數(shù)據(jù)分析是一個令人振奮的領域。在這個領域,數(shù)字信息的潛力可以很大程度地用來幫助做出明智的商業(yè)決策。我們相信,無論是短期、中期還是長期來看,這一領域都將會吸引越來越多有才華的學生和專業(yè)人士投身其中。 譯者簡介曹逾,于新加坡國立大學獲得計算機博士學位,杰出大數(shù)據(jù)與機器學習專家,當前供職于EMC中國卓越研發(fā)集團首席技術官辦公室,同時擔任EMC中國研究院數(shù)據(jù)科學實驗室主任,主要負責EMC大中華區(qū)大數(shù)據(jù)與數(shù)據(jù)科學方向的應用型研究以及創(chuàng)新解決方案研發(fā),同時也負責EMC在亞太特別是中國大陸地區(qū)的高??蒲泻献黜椖?。曹博士在SIGMOD、VLDB、ICDE、VLDB Journal等國際會議和期刊發(fā)表論文20余篇,并多次受邀擔任國際會議和期刊審稿人,而且其相關研究成果在EMC內(nèi)部產(chǎn)品及解決方案中得以廣泛應用。曹博士擁有60余項美國及國際專利授權或申請。劉文苗,現(xiàn)任EMC IT第三平臺高級項目經(jīng)理,對大數(shù)據(jù)、存儲系統(tǒng)、網(wǎng)絡系統(tǒng)以及文件系統(tǒng)具有一定研究,還具有國內(nèi)金融行業(yè)多年從業(yè)經(jīng)驗。劉先生曾經(jīng)參與過上海證券交易所新一代交易系統(tǒng)、海通期貨核心交易系統(tǒng)的設計與建設工作。李楓林,于上海交通大學獲得軟件工程碩士學位,曾在微軟中國公司擔任數(shù)據(jù)庫工程師,現(xiàn)就職于EMC中國研發(fā)中心,擔任Senior Social Engagement Manager一職,主要負責EMC中文技術社區(qū)的運營與后臺數(shù)據(jù)處理工作,近年來潛心鉆研數(shù)據(jù)存儲與大數(shù)據(jù)相關技術,曾在EMC中文社區(qū)及社交媒體上發(fā)表多篇大數(shù)據(jù)技術相關的文章。 主審人員簡介孫宇熙(Ricky Sun),EMC中國研究院院長,在EMC主要負責大數(shù)據(jù)、軟件定義的數(shù)據(jù)中心、云計算、超融合架構、高性能計算、高效存儲等領域的研發(fā)、戰(zhàn)略合作與創(chuàng)新等工作。Ricky有在硅谷和國內(nèi)近20年的學習、工作、生活和創(chuàng)業(yè)的經(jīng)驗。Ricky既有在大型跨國公司(EMC、微軟、Yahoo!)的工作經(jīng)歷,也有過往成功的創(chuàng)業(yè)經(jīng)歷,曾于2001年在美國加州硅谷地區(qū)創(chuàng)立WL科技公司并成功帶領公司在2004年與香港Telewave集團合并。Ricky在混合云架構、大數(shù)據(jù)快數(shù)據(jù)處理與分析、軟件定義存儲等領域有著多年的國際領先的工作經(jīng)驗業(yè)界的影響力,并持有多項專利。Ricky在近年的專業(yè)著作有《程序員生存手冊:面試篇》、《軟件定義數(shù)據(jù)中心:技術與實踐》等。

圖書目錄

第1章 大數(shù)據(jù)分析介紹 1 1.1 大數(shù)據(jù)概述 2 1.1.1 數(shù)據(jù)結(jié)構 4 1.1.2 數(shù)據(jù)存儲的分析視角 9 1.2 分析的實踐狀態(tài) 10 1.2.1 商業(yè)智能 VS 數(shù)據(jù)科學 11 1.2.2 當前分析架構 12 1.2.3 大數(shù)據(jù)的驅(qū)動力 14 1.2.4 新的大數(shù)據(jù)生態(tài)系統(tǒng)和新的分析方法 15 1.3 新的大數(shù)據(jù)生態(tài)系統(tǒng)中的關鍵角色 17 1.4 大數(shù)據(jù)分析案例 20 1.5 總結(jié) 21 1.6 練習 21 參考書目 21 第2章 數(shù)據(jù)分析生命周期 23 2.1 數(shù)據(jù)分析生命周期概述 24 2.1.1 一個成功分析項目的關鍵角色 24 2.1.2 數(shù)據(jù)分析生命周期的背景和概述 26 2.2 第1階段:發(fā)現(xiàn) 28 2.2.1 學習業(yè)務領域 29 2.2.2 資源 29 2.2.3 設定問題 30 2.2.4 確定關鍵利益相關者 30 2.2.5 采訪分析發(fā)起人 31 2.2.6 形成初始假設 32 2.2.7 明確潛在數(shù)據(jù)源 32 2.3 第2階段:數(shù)據(jù)準備 33 2.3.1 準備分析沙箱 34 2.3.2 執(zhí)行ETLT 35 2.3.3 研究數(shù)據(jù) 36 2.3.4 數(shù)據(jù)治理 37 2.3.5 調(diào)查和可視化 37 2.3.6 數(shù)據(jù)準備階段的常用工具 38 2.4 第3階段:模型規(guī)劃 39 2.4.1 數(shù)據(jù)探索和變量選擇 40 2.4.2 模型的選擇 41 2.4.3 模型設計階段的常用工具 42 2.5 第4階段:模型建立 42 2.5.1 模型構建階段中的常用工具 44 2.6 第5階段:溝通結(jié)果 45 2.7 第6階段:實施 46 2.8 案例研究:全球創(chuàng)新網(wǎng)絡和分析(GINA) 49 2.8.1 第1階段:發(fā)現(xiàn) 50 2.8.2 第2階段:數(shù)據(jù)準備 51 2.8.3 第3階段:模型規(guī)劃 51 2.8.4 第4階段:模型建立 51 2.8.5 第5階段:溝通結(jié)果 53 2.8.6 第6階段:實施 54 2.9 總結(jié) 55 2.10 練習 55 參考書目 55 第3章 使用R進行基本數(shù)據(jù)分析 57 3.1 R簡介 58 3.1.1 R圖形用戶界面 6

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號