注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計大數(shù)據(jù)分析(基于R語言)

大數(shù)據(jù)分析(基于R語言)

大數(shù)據(jù)分析(基于R語言)

定 價:¥89.00

作 者: [印] 塞瑪·阿查亞(Seema Acharya) 著
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302557326 出版時間: 2020-08-01 包裝: 平裝
開本: 16開 頁數(shù): 492 字數(shù):  

內容簡介

  這本書主要面向計算機科學和工程專業(yè)的本科生。同時,這本書也可供IT專業(yè)數(shù)據(jù)分析師、企業(yè)決策人員和業(yè)務分析人員參考。 本書由Acharya編著,介紹了R語言作為非穩(wěn)態(tài)數(shù)據(jù)分析和可視化工具的強大功能,并向學習者介紹了幾種數(shù)據(jù)挖掘算法和可視化方法。

作者簡介

  Seema Acharya是Infosys有限公司教育、培訓和評估部的高級校長。她是一位技術傳道者、學習戰(zhàn)略家,也是一位擁有超過15年的信息技術行業(yè)學習/教育服務經(jīng)驗的作者。她在全球范圍內設計和實施了幾個大規(guī)模的能力發(fā)展項目,包括組織能力需求分析、概念化、設計、開發(fā)和部署能力發(fā)展項目。她的興趣和專長主要包括商業(yè)智能和大數(shù)據(jù),以及分析技術,如數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、文本挖掘和數(shù)據(jù)可視化

圖書目錄

第1章R概述\\\\1
1.1概述1
1.1.1R是什么1
1.1.2為什么是R1
1.1.3R相對于其他編程語言的優(yōu)勢3
1.2下載并安裝R4
1.2.1下載R4
1.2.2安裝R6
1.2.3R的主要文件類型7
1.3集成開發(fā)環(huán)境和文本編輯器8
1.3.1R Studio8
1.3.2具有StatET插件的Eclipse9
1.4R中軟件包的處理10
1.4.1R軟件包的安裝11
1.4.2準備開始的一些函數(shù)12
本章小結17
關鍵術語18
鞏固練習18
單項選擇題參考答案19

第2章開始使用R\\\\20
2.1概述20
2.2處理目錄20
2.2.1getwd()命令20
2.2.2setwd()命令21
2.2.3dir()函數(shù)21
2.3R中的數(shù)據(jù)類型23
2.3.1強制類型轉換26
2.3.2引入變量和ls()函數(shù)26
2.4數(shù)據(jù)探索的一些命令27
2.4.1加載內部數(shù)據(jù)集27
本章小結38
關鍵術語38
實戰(zhàn)練習38
大數(shù)據(jù)分析——基于R語言目錄
第3章在R中加載及處理數(shù)據(jù)\\\\40
3.1概述40
3.2分析數(shù)據(jù)處理的挑戰(zhàn)40
3.2.1數(shù)據(jù)格式41
3.2.2數(shù)據(jù)質量41
3.2.3項目范圍41
3.2.4利益方期望的輸出結果的管理41
3.3表達式、變量和函數(shù)42
3.3.1表達式42
3.3.2邏輯值42
3.3.3日期43
3.3.4變量45
3.3.5函數(shù)45
3.3.6處理數(shù)據(jù)中的文本48
3.4R中缺失值的處理50
3.5利用as操作符改變數(shù)據(jù)的結構51
3.6向量53
3.6.1順序向量54
3.6.2rep()函數(shù)54
3.6.3向量訪問55
3.6.4向量名56
3.6.5向量的算術運算57
3.6.6向量循環(huán)58
3.7矩陣60
3.7.1矩陣訪問61
3.8因子65
3.8.1創(chuàng)建因子65
3.9列表67
3.9.1列表標簽和值68
3.9.2從列表中添加和刪除元素69
3.9.3列表的大小70
3.10一些常見的分析任務72
3.10.1探索數(shù)據(jù)集72
3.10.2數(shù)據(jù)集的條件操作72
3.10.3合并數(shù)據(jù)75
3.11變量的聚合和分組處理76
3.11.1aggregate()函數(shù)76
3.11.2tapply()函數(shù)76
3.12使用R進行簡單分析78
3.12.1輸入78
3.12.2描述數(shù)據(jù)結構78
3.12.3描述變量結構79
3.12.4輸出82
3.13讀取數(shù)據(jù)的方法83
3.13.1CSV和電子表格83
3.13.2從包中讀取數(shù)據(jù)86
3.13.3從Web/API中讀取數(shù)據(jù)86
3.13.4讀取一個JSON(JavaScript Object Notation)文檔88
3.13.5讀取XML文件89
3.14數(shù)據(jù)輸入的R GUI的比較92
3.15使用R連接數(shù)據(jù)庫及商務智能系統(tǒng)94
3.15.1RODBC95
3.15.2使用MySQL和R96
3.15.3使用PostgreSQL和R96
3.15.4使用SQLite和R97
3.15.5使用JasperDB和R97
3.15.6使用Pentaho和R98
3.16案例研究: 日志分析99
本章小結101
關鍵術語103
鞏固練習103
單項選擇題參考答案106

第4章在R中探索數(shù)據(jù)\\\\107
4.1概述107
4.2數(shù)據(jù)框107
4.2.1數(shù)據(jù)框訪問108
4.2.2數(shù)據(jù)框排序110
4.3用于理解數(shù)據(jù)框中數(shù)據(jù)的R函數(shù)111
4.3.1dim()函數(shù)111
4.3.2str()函數(shù)111
4.3.3summary()函數(shù)112
4.3.4names()函數(shù)112
4.3.5head()函數(shù)112
4.3.6tail()函數(shù)113
4.3.7edit()函數(shù)113
4.4加載數(shù)據(jù)框114
4.4.1從CSV文件中讀取數(shù)據(jù)114
4.4.2獲取數(shù)據(jù)框子集115
4.4.3從TSV文件中讀取數(shù)據(jù)115
4.4.4從表格讀取數(shù)據(jù)116
4.4.5合并數(shù)據(jù)框117
4.5探索數(shù)據(jù)117
4.6數(shù)據(jù)匯總118
4.7查找缺失值122
4.8無效值和異常值124
4.9描述性統(tǒng)計126
4.9.1數(shù)據(jù)全距126
4.9.2頻數(shù)126
4.9.3均值和中值127
4.9.4標準差131
4.9.5眾數(shù)132
4.10利用可視化發(fā)現(xiàn)數(shù)據(jù)中的問題134
4.10.1對單變量的分布進行可視化檢查135
4.10.2直方圖136
4.10.3密度圖138
4.10.4柱狀圖140
本章小結144
關鍵術語145
鞏固練習145
單項選擇題參考答案147

第5章線性回歸——使用R\\\\148
5.1概述148
5.2模型擬合148
5.3線性回歸149
5.3.1R中的lm()函數(shù)149
5.4線性回歸的假設161
5.5驗證線性假設162
5.5.1使用散點圖162
5.5.2使用殘差與擬合圖162
5.5.3使用正態(tài)QQ圖162
5.5.4使用位置尺度圖163
5.5.5使用殘差與杠桿圖164
案例研究: 推薦引擎169
本章小結170
關鍵術語171
鞏固練習171
實戰(zhàn)練習172
單項選擇題參考答案172

第6章邏輯回歸\\\\173
6.1概述173
6.2什么是回歸174
6.2.1為什么要使用邏輯回歸175
6.2.2為什么不能使用線性回歸176
6.2.3邏輯回歸的假設176
6.3廣義線性模型概述177
6.4什么是邏輯回歸179
6.4.1邏輯回歸的使用179
6.4.2二項邏輯回歸179
6.4.3Logistic函數(shù)179
6.4.4Logit函數(shù)180
6.4.5似然函數(shù)181
6.4.6極大似然估計183
6.5二元邏輯回歸185
6.5.1二元邏輯回歸概述185
6.5.2具有單分類預測變量的二元邏輯回歸186
6.5.3三維列聯(lián)表和k維列聯(lián)表的二元邏輯回歸191
6.5.4具有連續(xù)協(xié)變量的二元邏輯回歸191
6.6診斷邏輯回歸195
6.6.1殘差195
6.6.2擬合性能測試196
6.6.3受試者工作特征曲線196
6.7多元邏輯回歸模型197
案例研究: 受眾/顧客洞察分析204
本章小結206
關鍵術語207
鞏固練習208
單項選擇題參考答案210

第7章決策樹\\\\211
7.1概述211
7.2什么是決策樹211
7.3決策樹在R中的表示216
7.3.1使用party包進行表示216
7.3.2使用rpart包進行表示226
7.4決策樹學習中的問題解決方案228
7.4.1由屬性值對表示的實例228
7.4.2目標函數(shù)具有離散輸出值229
7.4.3析取描述229
7.4.4訓練數(shù)據(jù)可能包含錯誤或缺失屬性值229
7.5基本決策樹學習算法230
7.5.1ID3算法231
7.5.2哪個屬性是最好的分類器232
7.6度量特征233
7.6.1熵度量同質性233
7.6.2信息增益——度量熵的期望約簡234
7.7決策樹學習中的假設空間搜索236
7.8決策樹學習中的歸納偏差237
7.8.1優(yōu)選偏差與限定偏差237
7.9為什么首選短假設238
7.9.1選擇短假設的原因238
7.9.2爭論的問題238
7.10決策樹學習中的問題238
7.10.1過擬合238
7.10.2合并連續(xù)值屬性241
7.10.3選擇屬性的其他方法241
7.10.4處理具有缺失屬性值的訓練樣本242
7.10.5處理具有不同成本的屬性242
案例研究: 幫助零售商預測店內客流243
本章小結244
關鍵術語245
鞏固練習246
實戰(zhàn)練習247
單項選擇題參考答案248

第8章R中的時間序列\(zhòng)\\\249
8.1概述249
8.2時間序列數(shù)據(jù)250
8.2.1數(shù)據(jù)可視化的基本R函數(shù)250
8.2.2用于數(shù)據(jù)操作的基本R函數(shù)259
8.2.3時間序列線性濾波267
8.3讀取時間序列數(shù)據(jù)269
8.3.1scan()函數(shù)269
8.3.2ts()函數(shù)269
8.4繪制時間序列數(shù)據(jù)271
8.5分解時間序列數(shù)據(jù)272
8.5.1分解非季節(jié)性數(shù)據(jù)272
8.5.2分解季節(jié)性數(shù)據(jù)274
8.5.3季節(jié)性調整277
8.5.4回歸分析278
8.6使用指數(shù)平滑進行預測279
8.6.1簡單指數(shù)平滑279
8.6.2Holts指數(shù)平滑279
8.6.3HoltWinters指數(shù)平滑280
8.7ARIMA模型281
8.7.1差分時間序列282
8.7.2選擇一個候選ARIMA模型282
8.7.3使用ARIMA模型進行預測284
8.7.4自相關性和偏自相關性分析284
8.7.5診斷檢驗285
實踐任務286
案例研究: 保險欺詐檢測292
本章小結293
關鍵術語295
鞏固練習295
單項選擇題參考答案299

第9章聚類\\\\300
9.1概述300
9.2什么是聚類300
9.3聚類中的基本概念301
9.3.1點、空間和距離302
9.3.2聚類策略305
9.3.3維數(shù)災難306
9.3.4向量之間的夾角307
9.4分層聚類308
9.4.1歐氏空間中的分層聚類308
9.4.2分層聚類的效率312
9.4.3控制分層聚類的其他規(guī)則313
9.4.4非歐氏空間的分層聚類314
9.5kmeans算法314
9.5.1kmeans基本原理314
9.5.2初始化kmeans集群319
9.5.3選擇k的正確值319
9.5.4Bradley、Fayyad和Reina算法319
9.5.5使用BFR算法處理數(shù)據(jù)320
9.6CURE算法321
9.6.1CURE中的初始化321
9.6.2實現(xiàn)CURE算法321
9.7非歐氏空間中的聚類322
9.7.1在GRGPF算法中表示集群323
9.7.2初始化聚類樹323
9.7.3在GRGPF算法中增加點323
9.7.4拆分和合并集群324
9.8流和并行數(shù)據(jù)的聚類325
9.8.1流計算模型325
9.8.2流聚類算法326
9.8.3并行環(huán)境中的聚類328
案例研究: 個性化產品推薦329
本章小結330
關鍵術語331
鞏固練習332
實戰(zhàn)練習333
單項選擇題參考答案339

第10章關聯(lián)規(guī)則\\\\340
10.1概述340
10.2頻繁項集341
10.2.1關聯(lián)規(guī)則341
10.2.2規(guī)則評估度量標準342
10.2.3蠻力法344
10.2.4兩步法344
10.2.5Apiori算法346
10.3數(shù)據(jù)結構概述350
10.3.1表示項集的集合351
10.3.2事務數(shù)據(jù)354
10.3.3關聯(lián): 項集和規(guī)則項356
10.4挖掘算法接口358
10.4.1apriori()函數(shù)358
10.4.2eclat()函數(shù)371
10.5輔助函數(shù)372
10.5.1計算項集的支持度372
10.5.2規(guī)則推導372
10.6事務抽樣374
10.7生成人工事務數(shù)據(jù)375
10.7.1子項集、超項集、最大項集和閉項集375
10.8興趣度的其他度量378
10.9基于距離聚類事務和關聯(lián)379
案例研究: 使用戶生成的內容變得有價值381
本章小結382
關鍵術語383
鞏固練習384
實戰(zhàn)練習386
單項選擇題參考答案393

第11章文本挖掘\\\\394
11.1概述394
11.2文本挖掘的定義395
11.2.1文檔集395
11.2.2文檔395
11.2.3文檔特征395
11.2.4領域和背景知識396
11.3文本挖掘中的一些挑戰(zhàn)396
11.4文本挖掘和數(shù)據(jù)挖掘396
11.5R中的文本挖掘396
11.6文本挖掘的總體架構406
11.6.1預處理任務406
11.6.2核心挖掘操作407
11.6.3表示層成分與瀏覽功能407
11.6.4精簡技術407
11.7R中文檔的預處理407
11.8核心文本挖掘操作409
11.8.1分布(比例)410
11.8.2頻繁概念集410
11.8.3近頻繁概念集410
11.8.4關聯(lián)411
11.9文本挖掘的背景知識413
11.10文本挖掘查詢語言413
11.11挖掘頻繁模式、關聯(lián)和相關性的基本概念和方法413
11.11.1基本概念414
11.11.2購物籃分析414
11.11.3關聯(lián)規(guī)則415
11.12頻繁項集、閉項集和關聯(lián)規(guī)則416
11.12.1頻繁項集416
11.12.2閉項集416
11.12.3關聯(lián)規(guī)則挖掘416
11.13頻繁項集的挖掘方法417
11.13.1Apriori算法: 發(fā)現(xiàn)頻繁項集417
11.13.2從頻繁項集生成關聯(lián)規(guī)則419
11.13.3提高Apriori算法的效率421
11.13.4挖掘頻繁項集的模式生長方法422
11.13.5使用垂直數(shù)據(jù)格式挖掘頻繁項集422
11.13.6挖掘閉模式和最大模式423
11.14模式評估方法424
11.14.1強規(guī)則并不一定有趣425
11.14.2從關聯(lián)分析到相關性分析425
11.14.3模式評估度量的比較426
11.15情感分析427
11.15.1情感分析的目的427
11.15.2情感分析要用到的知識427
11.15.3情感分析的輸入428
11.15.4情感分析的工作方式428
案例研究: 客戶群體的信用卡消費可以通過商業(yè)需求進行識別428
本章小結429
關鍵術語431
鞏固練習432
實戰(zhàn)練習434
單項選擇題參考答案436

第12章使用R實現(xiàn)并行計算\\\\437
12.1概述437
12.2R工具庫概述438
12.2.1在R中使用高性能計算的動機438
12.3HPC中使用R的時機439
12.3.1單節(jié)點中的并行計算440
12.3.2多節(jié)點的并行化支持440
12.4R對并行化的支持443
12.4.1R中對單節(jié)點并行化執(zhí)行的支持443
12.4.2使用消息傳遞接口對多個節(jié)點上的并行執(zhí)行提供支持450
12.4.3使用其他分布式系統(tǒng)的包454
12.5R中并行包的比較461
案例研究: 銷售預測462
本章小節(jié)464
關鍵術語465
鞏固練習466
實戰(zhàn)練習468
單項選擇題參考答案471

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號