Python 3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)

定　價(jià)：￥79.00

作　者：	胡松濤
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787302557340	出版時(shí)間：	2020-07-01	包裝：
開本：	16開	頁數(shù)：	386	字?jǐn)?shù)：

內(nèi)容簡介

　　本書從Python 3.8的安裝開始，詳細(xì)講解從網(wǎng)頁基礎(chǔ)到Python網(wǎng)絡(luò)爬蟲的全過程。本書從實(shí)戰(zhàn)出發(fā)，根據(jù)不同的需求選取不同的網(wǎng)絡(luò)爬蟲，并有針對(duì)性地講解幾種Python網(wǎng)絡(luò)爬蟲。本書共12章，涵蓋的內(nèi)容有網(wǎng)絡(luò)爬蟲的技術(shù)基礎(chǔ)、Python常用IDE的使用、Python數(shù)據(jù)的存儲(chǔ)、Python爬蟲常用模塊、Scrapy爬蟲、BeautifulSoup爬蟲、PyQuery模塊、Selenium模擬瀏覽器、PySpider框架圖片驗(yàn)證識(shí)別、爬取App、爬蟲與反爬蟲等。本書內(nèi)容豐富，實(shí)例典型，實(shí)用性強(qiáng)，適合Python網(wǎng)絡(luò)爬蟲初學(xué)者、Python數(shù)據(jù)分析與挖掘技術(shù)初學(xué)者以及高等院校和培訓(xùn)學(xué)校相關(guān)專業(yè)的師生閱讀。

作者簡介

　　胡松濤，高級(jí)工程師，參與多個(gè)Linux開源項(xiàng)目，github知名代碼分享者，活躍于國內(nèi)著名的多個(gè)開源論壇。

圖書目錄

第1章 Python環(huán)境配置 1
1.1 Python簡介 1
1.1.1 Python的歷史由來 1
1.1.2 Python的現(xiàn)狀 2
1.1.3 Python的應(yīng)用 2
1.2 Python 3.8.0開發(fā)環(huán)境配置 4
1.2.1 在Windows下安裝Python 4
1.2.2 在Windows下安裝配置pip 8
1.2.3 在Linux下安裝Python 9
1.2.4 在Linux下安裝配置pip 11
1.2.5 永遠(yuǎn)的hello world 15
1.3 本章小結(jié) 19
第2章爬蟲基礎(chǔ)快速入門 20
2.1 HTTP基本原理 20
2.1.1 URI和URL 20
2.1.2 超文本 21
2.1.3 HTTP和HTTPS 21
2.1.4 HTTP請(qǐng)求過程 22
2.1.5 請(qǐng)求 24
2.1.6 響應(yīng) 26
2.2 網(wǎng)頁基礎(chǔ) 27
2.2.1 網(wǎng)頁的組成 27
2.2.2 網(wǎng)頁的結(jié)構(gòu) 28
2.2.3 節(jié)點(diǎn)樹及節(jié)點(diǎn)間的關(guān)系 30
2.2.4 選擇器 36
2.3 爬蟲的基本原理 37
2.3.1 爬蟲概述 37
2.3.2 能抓取什么樣的數(shù)據(jù) 37
2.3.3 JavaScript渲染頁面 38
2.4 會(huì)話和Cookies 39
2.4.1 靜態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁 40
2.4.2 無狀態(tài)HTTP 41
2.4.3 常見誤區(qū) 42
2.5 代理的基本原理 42
2.5.1 基本原理 42
2.5.2 代理的作用 43
2.5.3 代理分類 43
2.5.4 常見代理設(shè)置 44
2.6 本章小結(jié) 44
第3章數(shù)據(jù)存儲(chǔ)與解析 45
3.1 文件存儲(chǔ) 45
3.1.1 TXT文件存儲(chǔ) 45
3.1.2 JSON文件存儲(chǔ) 49
3.1.3 CSV文件存儲(chǔ) 52
3.2 關(guān)系型數(shù)據(jù)庫存儲(chǔ) 57
3.2.1 連接數(shù)據(jù)庫 59
3.2.2 創(chuàng)建表 59
3.2.3 插入數(shù)據(jù) 60
3.2.4 瀏覽數(shù)據(jù) 61
3.2.5 修改數(shù)據(jù) 62
3.2.6 刪除數(shù)據(jù) 63
3.3 非關(guān)系型數(shù)據(jù)庫存儲(chǔ) 64
3.3.1 安裝數(shù)據(jù)庫 64
3.3.2 MongoDB概念解析 68
3.3.3 創(chuàng)建數(shù)據(jù)庫 68
3.3.4 創(chuàng)建集合 69
3.3.5 插入文檔 69
3.3.6 查詢集合數(shù)據(jù) 71
3.3.7 修改記錄 73
3.3.8 數(shù)據(jù)排序 74
3.3.9 刪除文檔 75
3.4 lxml模塊解析數(shù)據(jù) 76
3.4.1 安裝模塊 76
3.4.2 XPath常用規(guī)則 76
3.4.3 讀取文件進(jìn)行解析 79
3.5 本章小結(jié) 81
第4章 Python爬蟲常用模塊 82
4.1 Python網(wǎng)絡(luò)爬蟲技術(shù)核心 82
4.1.1 Python網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)原理 82
4.1.2 爬行策略 83
4.1.3 身份識(shí)別 83
4.2 Python 3標(biāo)準(zhǔn)庫之urllib.request模塊 84
4.2.1 urllib.request請(qǐng)求返回網(wǎng)頁 84
4.2.2 urllib.request使用代理訪問網(wǎng)頁 86
4.2.3 urllib.request修改header 89
4.3 Python 3標(biāo)準(zhǔn)庫之logging模塊 93
4.3.1 簡述logging模塊 93
4.3.2 自定義模塊myLog 97
4.4 re模塊（正則表達(dá)式） 100
4.4.1 re模塊（正則表達(dá)式的操作） 100
4.4.2 re模塊實(shí)戰(zhàn) 102
4.5 其他有用模塊 103
4.5.1 sys模塊（系統(tǒng)參數(shù)獲?。?nbsp; 103
4.5.2 time模塊（獲取時(shí)間信息） 105
4.6 本章小結(jié) 108
第5章 Scrapy爬蟲框架 109
5.1 安裝Scrapy 109
5.1.1 在Windows下安裝Scrapy環(huán)境 109
5.1.2 在Linux下安裝Scrapy 110
5.1.3 vim編輯器 111
5.2 Scrapy選擇器XPath和CSS 112
5.2.1 XPath選擇器 112
5.2.2 CSS選擇器 115
5.2.3 其他選擇器 116
5.3 Scrapy爬蟲實(shí)戰(zhàn)一：今日影視 117
5.3.1 創(chuàng)建Scrapy項(xiàng)目 117
5.3.2 Scrapy文件介紹 119
5.3.3 Scrapy爬蟲的編寫 121
5.4 Scrapy爬蟲實(shí)戰(zhàn)二：天氣預(yù)報(bào) 128
5.4.1 項(xiàng)目準(zhǔn)備 129
5.4.2 創(chuàng)建并編輯Scrapy爬蟲 130
5.4.3 數(shù)據(jù)存儲(chǔ)到JSON 137
5.4.4 數(shù)據(jù)存儲(chǔ)到MySQL 139
5.5 Scrapy爬蟲實(shí)戰(zhàn)三：獲取代理 145
5.5.1 項(xiàng)目準(zhǔn)備 145
5.5.2 創(chuàng)建編輯Scrapy爬蟲 146
5.5.3 多個(gè)Spider 152
5.5.4 處理Spider數(shù)據(jù) 156
5.6 Scrapy爬蟲實(shí)戰(zhàn)四：糗事百科 158
5.6.1 目標(biāo)分析 158
5.6.2 創(chuàng)建編輯Scrapy爬蟲 159
5.6.3 Scrapy項(xiàng)目中間件——添加headers 160
5.6.4 Scrapy項(xiàng)目中間件——添加Proxy 163
5.7 Scrapy爬蟲實(shí)戰(zhàn)五：爬蟲攻防 166
5.7.1 創(chuàng)建一般爬蟲 166
5.7.2 封鎖間隔時(shí)間破解 169
5.7.3 封鎖Cookies破解 170
5.7.4 封鎖User-Agent破解 170
5.7.5 封鎖IP破解 176
5.8 本章小結(jié) 179
第6章 BeautifulSoup爬蟲 180
6.1 安裝BeautifulSoup環(huán)境 180
6.1.1 在Windows下安裝BeautifulSoup 180
6.1.2 在Linux下安裝BeautifulSoup 181
6.1.3 強(qiáng)大的IDE——Eclipse 181
6.2 BeautifulSoup解析器 190
6.2.1 bs4解析器選擇 190
6.2.2 lxml解析器的安裝 191
6.2.3 使用bs4過濾器 192
6.3 bs4爬蟲實(shí)戰(zhàn)一：獲取百度貼吧內(nèi)容 197
6.3.1 目標(biāo)分析 197
6.3.2 項(xiàng)目實(shí)施 199
6.3.3 代碼分析 206
6.3.4 Eclipse調(diào)試 207
6.4 bs4爬蟲實(shí)戰(zhàn)二：獲取雙色球中獎(jiǎng)信息 208
6.4.1 目標(biāo)分析 209
6.4.2 項(xiàng)目實(shí)施 211
6.4.3 保存結(jié)果到Excel 214
6.4.4 代碼分析 219
6.5 bs4爬蟲實(shí)戰(zhàn)三：獲取起點(diǎn)小說信息 220
6.5.1 目標(biāo)分析 220
6.5.2 項(xiàng)目實(shí)施 222
6.5.3 保存結(jié)果到MySQL 224
6.5.4 代碼分析 228
6.6 bs4爬蟲實(shí)戰(zhàn)四：獲取電影信息 229
6.6.1 目標(biāo)分析 229
6.6.2 項(xiàng)目實(shí)施 230
6.6.3 bs4反爬蟲 233
6.6.4 代碼分析 235
6.7 bs4爬蟲實(shí)戰(zhàn)五：獲取音悅臺(tái)榜單 236
6.7.1 目標(biāo)分析 236
6.7.2 項(xiàng)目實(shí)施 237
6.7.3 代碼分析 242
6.8 本章小結(jié) 243
第7章 PyQuery模塊 244
7.1 PyQuery模塊 244
7.1.1 什么是PyQuery模塊 244
7.1.2 PyQuery與其他工具 244
7.1.3 PyQuery模塊的安裝 245
7.2 PyQuery模塊的用法 247
7.2.1 使用字符串初始化 247
7.2.2 使用文件初始化 248
7.2.3 使用URL初始化 249
7.3 CSS篩選器的使用 250
7.3.1 基本CSS選擇器 250
7.3.2 查找節(jié)點(diǎn) 251
7.3.3 遍歷結(jié)果 255
7.3.4 獲取文本信息 256
7.4 PyQuery爬蟲實(shí)戰(zhàn)一：爬取百度風(fēng)云榜 258
7.5 PyQuery爬蟲實(shí)戰(zhàn)二：爬取微博熱搜 259
7.6 本章小結(jié) 260
第8章 Selenium模擬瀏覽器 261
8.1 安裝Selenium模塊 261
8.1.1 在Windows下安裝Selenium模塊 261
8.1.2 在Linux下安裝Selenium模塊 262
8.2 瀏覽器選擇 262
8.2.1 Webdriver支持列表 262
8.2.2 在Windows下安裝PhantomJS 263
8.2.3 在Linux下安裝PhantomJS 265
8.3 Selenium&PhantomJS抓取數(shù)據(jù) 266
8.3.1 獲取百度搜索結(jié)果 267
8.3.2 獲取搜索結(jié)果 269
8.3.3 獲取有效數(shù)據(jù)位置 271
8.3.4 從位置中獲取有效數(shù)據(jù) 273
8.4 Selenium&PhantomJS實(shí)戰(zhàn)一：獲取代理 274
8.4.1 準(zhǔn)備環(huán)境 274
8.4.2 爬蟲代碼 276
8.4.3 代碼解釋 278
8.5 Selenium&PhantomJS實(shí)戰(zhàn)二：漫畫爬蟲 279
8.5.1 準(zhǔn)備環(huán)境 279
8.5.2 爬蟲代碼 281
8.5.3 代碼解釋 283
8.6 本章小結(jié) 284

第9章 PySpider框架的使用 285
9.1 安裝PySpider 285
9.1.1 安裝PySpider 285
9.1.2 使用PyQuery測試 291
9.2 PySpider實(shí)戰(zhàn)一：優(yōu)酷影視排行 293
9.2.1 創(chuàng)建項(xiàng)目 293
9.2.2 爬蟲編寫一：使用PySpider PyQuery實(shí)現(xiàn)爬取 295
9.2.3 爬蟲編寫二：使用PySpider BeautifulSoup實(shí)現(xiàn)爬取 301
9.3 PySpider實(shí)戰(zhàn)二：電影下載 304
9.3.1 項(xiàng)目分析 304
9.3.2 爬蟲編寫 306
9.3.3 爬蟲運(yùn)行、調(diào)試 312
9.3.4 刪除項(xiàng)目 317
9.4 PySpider實(shí)戰(zhàn)三：音悅臺(tái)MusicTop 320
9.4.1 項(xiàng)目分析 320
9.4.2 爬蟲編寫 321
9.5 本章小結(jié) 325
第10章圖形驗(yàn)證識(shí)別技術(shù) 326
10.1 圖像識(shí)別開源庫：Tesseract 326
10.1.1 安裝Tesseract 326
10.1.2 設(shè)置環(huán)境變量 329
10.1.3 測試一：使用tesseract命令識(shí)別圖片中的字符 330
10.1.4 測試二：使用pytesseract模塊識(shí)別圖片中的英文字符 331
10.1.5 測試三：使用pytesseract模塊識(shí)別圖片中的中文文字 332
10.2 對(duì)網(wǎng)絡(luò)驗(yàn)證碼的識(shí)別 333
10.2.1 圖形驗(yàn)證實(shí)戰(zhàn)一：讀取網(wǎng)絡(luò)驗(yàn)證碼并識(shí)別 333
10.2.2 圖形驗(yàn)證實(shí)戰(zhàn)二：對(duì)驗(yàn)證碼進(jìn)行轉(zhuǎn)化 334
10.3 實(shí)戰(zhàn)三：破解滑塊驗(yàn)證碼 335
10.3.1 所需工具 335
10.3.2 解決思路 335
10.3.3 編寫代碼 336
10.4 本章小結(jié) 341
第11章爬取App 342
11.1 Charles的使用 342
11.1.1 下載安裝Charles 342
11.1.2 界面介紹 343
11.1.3 Proxy菜單 345
11.1.4 使用Charles進(jìn)行PC端抓包 350
11.1.5 使用Charles進(jìn)行移動(dòng)端抓包 350
11.2 Mitmproxy的使用 351
11.2.1 安裝Mitmproxy 351
11.2.2 啟動(dòng)Mitmproxy 352
11.2.3 編寫自定義腳本 354
11.2.4 Mitmproxy事件 355
11.2.5 實(shí)戰(zhàn)：演示Mitmproxy 358
11.3 實(shí)戰(zhàn)：使用Mitmdump爬取App 362
11.3.1 事先準(zhǔn)備 363
11.3.2 帶腳本抓取 364
11.3.3 分析結(jié)果并保存 365
11.4 Appium的基本使用 366
11.4.1 安裝Appium—直接下載安裝包AppiumDesktop 366
11.4.2 安裝Appium—通過Node.js 368
11.4.3 Android 開發(fā)環(huán)境配置 368
11.4.4 iOS 開發(fā)環(huán)境配置 368
11.4.5 使用Appium 369
11.4.6 操作App 371
11.5 本章小結(jié) 374
第12章爬蟲與反爬蟲 375
12.1 防止爬蟲IP被禁 375
12.1.1 反爬蟲在行動(dòng) 375
12.1.2 爬蟲的應(yīng)對(duì) 378
12.2 在爬蟲中使用Cookies 382
12.2.1 通過Cookies反爬蟲 382
12.2.2 帶Cookies的爬蟲 383
12.2.3 動(dòng)態(tài)加載反爬蟲 386
12.2.4 使用瀏覽器獲取數(shù)據(jù) 386
12.3 本章小結(jié) 386