定 價:¥69.80
作 者: | 葛繼科,張曉琴,陳祖琴 |
出版社: | 人民郵電出版社 |
叢編項: | |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787115614353 | 出版時間: | 2023-07-01 | 包裝: | 平裝 |
開本: | 128開 | 頁數(shù): | 字?jǐn)?shù): |
【章名目錄】
第 1章 大數(shù)據(jù)概述
第2章 Python程序設(shè)計
第3章 大數(shù)據(jù)采集
第4章 大數(shù)據(jù)預(yù)處理技術(shù)
第5章 Excel數(shù)據(jù)獲取與預(yù)處理
第6章 Python數(shù)據(jù)預(yù)處理
第7章 數(shù)據(jù)可視化技術(shù)
【詳細(xì)目錄】
第 1章 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)時代 1
1.2 大數(shù)據(jù)的相關(guān)概念及特征 2
1.2.1 大數(shù)據(jù)的概念 2
1.2.2 大數(shù)據(jù)的發(fā)展歷程 3
1.2.3 大數(shù)據(jù)的特征 5
1.2.4 大數(shù)據(jù)的作用 6
1.2.5 大數(shù)據(jù)的應(yīng)用領(lǐng)域 7
1.2.6 大數(shù)據(jù)的關(guān)鍵技術(shù) 8
1.3 大數(shù)據(jù)系統(tǒng)簡介 9
1.3.1 Hadoop生態(tài)系統(tǒng) 9
1.3.2 Spark生態(tài)系統(tǒng) 12
1.4 大數(shù)據(jù)思維 15
1.4.1 傳統(tǒng)思維方式 15
1.4.2 大數(shù)據(jù)思維方式 16
1.5 大數(shù)據(jù)倫理 17
1.5.1 大數(shù)據(jù)倫理的由來 17
1.5.2 大數(shù)據(jù)的倫理問題 18
1.5.3 大數(shù)據(jù)的倫理原則 21
1.6 大數(shù)據(jù)安全 22
1.6.1 數(shù)據(jù)全生命周期安全 22
1.6.2 大數(shù)據(jù)安全防護(hù)技術(shù) 23
1.7 本章小結(jié) 24
1.8 習(xí)題 24
第2章 Python程序設(shè)計
2.1 Python的安裝與運行 25
2.1.1 Python的特點 25
2.1.2 Python的下載與安裝 26
2.1.3 Python程序的運行 27
2.1.4 第三方軟件包的安裝 29
2.1.5 Python編程規(guī)范 31
2.2 數(shù)據(jù)類型與運算符 33
2.2.1 數(shù)字和字符串 33
2.2.2 列表和元組 38
2.2.3 字典和集合 42
2.2.4 運算符 44
2.3 程序控制結(jié)構(gòu) 47
2.3.1 程序流程圖 47
2.3.2 順序結(jié)構(gòu) 48
2.3.3 選擇結(jié)構(gòu) 49
2.3.4 循環(huán)結(jié)構(gòu) 51
2.4 函數(shù)與模塊 54
2.4.1 函數(shù)的使用 54
2.4.2 函數(shù)的參數(shù)傳遞 55
2.4.3 全局變量與局部變量 57
2.4.4 匿名函數(shù) 58
2.4.5 模塊 59
2.5 文件 60
2.5.1 文件的打開與關(guān)閉 60
2.5.2 文件的讀取與寫入 62
2.5.3 文件的定位 63
2.6 本章小結(jié) 63
2.7 習(xí)題 64
第3章 大數(shù)據(jù)采集
3.1 大數(shù)據(jù)采集概述 65
3.1.1 大數(shù)據(jù)采集的概念 65
3.1.2 大數(shù)據(jù)采集的數(shù)據(jù)源 66
3.1.3 大數(shù)據(jù)采集方法 67
3.1.4 大數(shù)據(jù)采集平臺 69
3.2 網(wǎng)絡(luò)爬蟲技術(shù) 71
3.2.1 網(wǎng)絡(luò)爬蟲概述 72
3.2.2 常用網(wǎng)絡(luò)爬蟲方法 72
3.2.3 網(wǎng)頁數(shù)據(jù)采集的實現(xiàn) 75
3.2.4 常用網(wǎng)絡(luò)爬蟲工具 78
3.2.5 電影評論爬取 82
3.3 數(shù)據(jù)抽取技術(shù) 85
3.3.1 數(shù)據(jù)抽取概述 85
3.3.2 Kettle簡介與其安裝 86
3.3.3 文本數(shù)據(jù)抽取 87
3.3.4 網(wǎng)頁數(shù)據(jù)抽取 89
3.4 案例:網(wǎng)絡(luò)租房信息采集 91
3.4.1 網(wǎng)絡(luò)爬蟲采集數(shù)據(jù) 91
3.4.2 抽取租房信息 94
3.5 本章小結(jié) 96
3.6 習(xí)題 96
第4章 大數(shù)據(jù)預(yù)處理技術(shù)
4.1 數(shù)據(jù)預(yù)處理概述 97
4.1.1 數(shù)據(jù)質(zhì)量 97
4.1.2 數(shù)據(jù)預(yù)處理的主要任務(wù) 99
4.2 數(shù)據(jù)清洗 99
4.2.1 缺失值處理方法 99
4.2.2 噪聲數(shù)據(jù)處理方法 101
4.2.3 冗余數(shù)據(jù)處理方法 105
4.2.4 數(shù)據(jù)格式與內(nèi)容處理方法 106
4.3 數(shù)據(jù)集成 106
4.3.1 實體識別問題 106
4.3.2 冗余問題 107
4.3.3 數(shù)據(jù)值沖突的檢測與處理 109
4.4 數(shù)據(jù)變換 110
4.4.1 數(shù)據(jù)規(guī)范化 110
4.4.2 通過離散化變換數(shù)據(jù) 112
4.5 數(shù)據(jù)歸約 113
4.5.1 過濾法 114
4.5.2 包裝法 115
4.5.3 嵌入法 116
4.6 數(shù)據(jù)脫敏 117
4.6.1 數(shù)據(jù)脫敏類型 117
4.6.2 數(shù)據(jù)脫敏方法 118
4.7 案例:汽車行駛工況數(shù)據(jù)預(yù)處理 119
4.7.1 案例背景 119
4.7.2 數(shù)據(jù)描述 119
4.7.3 數(shù)據(jù)預(yù)處理 120
4.8 本章小結(jié) 124
4.9 習(xí)題 125
第5章 Excel數(shù)據(jù)獲取與預(yù)處理
5.1 Excel數(shù)據(jù)獲取 126
5.1.1 獲取文本數(shù)據(jù) 126
5.1.2 獲取網(wǎng)站數(shù)據(jù) 128
5.1.3 獲取數(shù)據(jù)庫中的數(shù)據(jù) 130
5.2 Excel數(shù)據(jù)清洗與轉(zhuǎn)換 132
5.2.1 常用數(shù)據(jù)分析函數(shù) 132
5.2.2 刪除重復(fù)行 136
5.2.3 文本查找與替換 137
5.2.4 字符串截取 139
5.2.5 數(shù)據(jù)的轉(zhuǎn)置 140
5.2.6 數(shù)據(jù)的查詢和引用 140
5.2.7 字母與數(shù)字的轉(zhuǎn)換 142
5.3 Excel數(shù)據(jù)抽取與合并 143
5.3.1 值的抽取 144
5.3.2 數(shù)據(jù)合并 146
5.3.3 字段合并 147
5.4 案例:房價行情的對比分析 148
5.4.1 數(shù)據(jù)獲取 148
5.4.2 數(shù)據(jù)預(yù)處理與分析 149
5.5 本章小結(jié) 151
5.6 習(xí)題 151
第6章 Python數(shù)據(jù)預(yù)處理
6.1 Python數(shù)據(jù)預(yù)處理基礎(chǔ) 153
6.1.1 科學(xué)計算庫NumPy 153
6.1.2 數(shù)據(jù)分析庫pandas 160
6.2 數(shù)據(jù)的分組、分割、合并和變形 168
6.2.1 數(shù)據(jù)分組 168
6.2.2 數(shù)據(jù)分割 171
6.2.3 數(shù)據(jù)合并 172
6.2.4 數(shù)據(jù)變形 175
6.3 缺失值、異常值和重復(fù)值處理 177
6.3.1 缺失值處理 177
6.3.2 異常值處理 181
6.3.3 重復(fù)值處理 185
6.4 時間序列數(shù)據(jù)處理 185
6.4.1 時間序列的基本操作 186
6.4.2 固定頻率的時間序列 187
6.4.3 時間周期及其計算 188
6.5 文本數(shù)據(jù)分析 189
6.5.1 字符串處理方法 189
6.5.2 文本數(shù)據(jù)分析工具 191
6.5.3 正則表達(dá)式 194
6.5.4 文本預(yù)處理 196
6.6 案例:IMDb5000電影數(shù)據(jù)預(yù)處理 199
6.6.1 數(shù)據(jù)分析及代碼實現(xiàn) 199
6.6.2 完整代碼 201
6.7 本章小結(jié) 203
6.8 習(xí)題 203
第7章 數(shù)據(jù)可視化技術(shù)
7.1 數(shù)據(jù)可視化概述 205
7.1.1 數(shù)據(jù)可視化的定義 205
7.1.2 數(shù)據(jù)可視化的發(fā)展歷程 206
7.1.3 數(shù)據(jù)可視化的作用 211
7.2 數(shù)據(jù)可視化的理論基礎(chǔ) 212
7.2.1 數(shù)據(jù)可視化的流程 212
7.2.2 數(shù)據(jù)可視化的設(shè)計要素 213
7.2.3 數(shù)據(jù)可視化的基礎(chǔ)圖表 216
7.2.4 數(shù)據(jù)可視化的常見工具 219
7.3 Python數(shù)據(jù)可視化方法 221
7.3.1 Matplotlib繪制基礎(chǔ)圖表 221
7.3.2 seaborn繪制統(tǒng)計圖 229
7.3.3 wordcloud繪制詞云圖 254
7.3.4 NetworkX繪制網(wǎng)絡(luò)圖 257
7.3.5 案例:重慶公開庭審數(shù)據(jù)可視化 260
7.4 pyecharts數(shù)據(jù)可視化方法 265
7.4.1 pyecharts簡介 265
7.4.2 pyecharts應(yīng)用 266
7.4.3 案例:2020年東京奧運會獎牌看板 267
7.5 本章小結(jié) 278
7.6 習(xí)題 279
參考文獻(xiàn) 280