定 價:¥69.00
作 者: | 鄔書豪,劉健 |
出版社: | 機械工業(yè)出版社 |
叢編項: | |
標 簽: | 暫缺 |
ISBN: | 9787111629948 | 出版時間: | 2019-07-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數: | 241 | 字數: |
推薦語
前言
第一部分 工具包篇
第1章 數據導入工具2
1.1 utils—數據讀取基本功3
1.1.1 read.csv/csv2—逗號分隔數據讀取3
1.1.2 read.delim/delim2—特定分隔符數據讀取6
1.1.3 read.table—任意分隔符數據讀取7
1.2 readr—進階數據讀取15
1.3 utils vs readr—你喜歡哪個?17
1.4 readxl—Excel文件讀取18
1.5 DBI—數據庫數據查詢、下載21
1.6 pdftools—PDF文件22
1.7 jsonlite—JSON文件25
1.8 foreign package統計軟件數據26
1.9 本章小結27
第2章 數據清理工具28
2.1 基本概念29
2.2 tibble包—數據集準備31
2.2.1 為什么使用tibble32
2.2.2 創(chuàng)建tbl格式34
2.2.3 as_tibble—轉換已有格式的數據集34
2.2.4 add_row/column—實用小工具37
2.3 tidyr—數據清道夫40
2.3.1 為什么使用tidyr40
2.3.2 gather/spread—“長”“寬”數據轉換40
2.3.3 separate/unite—拆分合并列43
2.3.4 replace_na / drop_na/—默認值處理工具44
2.3.5 fill/complete—填坑神器44
2.3.6 separate_rows/nest/unest—行數據處理45
2.4 lubridate日期時間處理47
2.4.1 為什么使用lubridate47
2.4.2 ymd/ymd_hms—年月日還是日月年?48
2.4.3 year/month/week/day/hour/minute/second—時間單位提取49
2.4.4 guess_formats/parse_date_time—時間日期格式分析49
2.5 stringr字符處理工具51
2.5.1 baseR vs stringr51
2.5.2 正則表達式基礎53
2.5.3 簡易正則表達式創(chuàng)建54
2.5.4 文本挖掘淺析55
第3章 數據計算工具58
3.1 baseR計算工具概覽59
3.1.1 基本數學函數59
3.1.2 基本運算符號61
3.1.3 基本統計函數62
3.2 dplyr包實戰(zhàn)技巧63
3.2.1 常見實用函數中英對照 63
3.2.2 dplyr—行(Row)數據處理64
3.2.3 dplyr—列(Column)數據處理 73
3.3 文本挖掘實操88
第4章 基本循環(huán)—loops和*apply92
4.1 for循環(huán)93
4.1.1 基本概念93
4.1.2 基本構建過程94
4.1.3 簡單應用97
4.2 while循環(huán)98
4.2.1 基本概念98
4.2.2 基本構建過程99
4.2.3 簡單應用100
4.3 “*apply”函數家族102
4.3.1 lapply—“線性”數據迭代103
4.3.2 sapply—簡約而不簡單106
4.3.3 apply—多維數據處理利器107
4.3.4 vapply—迭代的安全模式109
4.3.5 rapply—多層列表數據處理112
4.3.6 mapply—對多個列表進行函數運算115
第5章 優(yōu)雅的循環(huán)—purrr包119
5.1 map函數家族120
5.1.1 map—對單一元素進行迭代運算120
5.1.2 map2和pmap—對兩個及以上元素進行迭代運算125
5.1.3 imap—變量名稱或位置迭代128
5.1.4 lmap—對列表型數據中的列表元素進行迭代運算130
5.1.5 invoke_map—對多個元素進行多個函數的迭代運算131
5.2 探測函數群134
5.2.1 detect/detect_index—尋找第一個匹配條件的值134
5.2.2 every/some—列表中是否全部或部分元素滿足條件?136
5.2.3 has_element—向量中是否存在想要的元素?137
5.2.4 head/tail_while—滿足條件之前和之后的元素138
5.2.5 keep/discard/com-pact—有條件篩選139
5.2.6 prepend—隨意插入數據141
5.3 向量操縱工具箱142
5.3.1 accumulate和reduce家族—元素累積運算142
5.3.2 其他工具函數143
5.4 其他實用函數144
5.4.1 set_names—命名向量中的元素144
5.4.2 vec_depth—嵌套列表型數據探測器148
5.5 循環(huán)讀取、清理和計算149
第6章 data.table—超級“瑞士軍刀”152
6.1 data.table簡介152
6.2 基本函數153
6.2.1 fread—速讀153
6.2.2 DT[i, j, by]—數據處理句式基本結構158
6.2.3 “:=”—急速修改數值162
6.2.4 fwrite—速寫,數據輸出165
6.3 進階應用167
6.3.1 有條件的急速行篩選168
6.3.2 列選擇的多種可能171
6.3.3 批量處理列及列的分裂與合并173
6.3.4 合并數據集176
6.3.5 “長寬”數據置換177
6.3.6 計算分析178
第二部分 案例篇
第7章 數據科學從業(yè)者調查分析182
7.1 案例背景及變量介紹182
7.2 簡單數據清洗183
7.3 數據科學從業(yè)者探索性數據分析186
7.4 封裝繪圖函數189
7.5 通過柱狀圖進行探索性分析數據190
7.6 未來將會學習的機器學習工具193
7.7 明年將學習的機器學習方法194
第8章 共享單車租用頻次分析198
8.1 案例簡介198
8.2 數據準備及描述性統計分析199
8.3 數據重塑201
8.4 柱狀圖在數據分析中的簡單應用202
8.5 柱狀和扇形圖在數據分析中的運用204
8.6 折線圖在數據分析中的運用207
8.7 相關系數圖綜合分析209
第9章 星巴克商業(yè)案例分析211
9.1 案例背景介紹及變量介紹211
9.2 數據描述性統計量分析212
9.3 數據統計分析213
第10章 學生成績水平分析220
10.1 數據集220
10.2 探索性數據分析229
第11章 YouTube視頻觀看分析234
11.1 案例背景及相關內容介紹234
11.2 探索性數據分析237