注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術工業(yè)技術建筑科學建筑設計玩轉Python網(wǎng)絡爬蟲

玩轉Python網(wǎng)絡爬蟲

玩轉Python網(wǎng)絡爬蟲

定 價:¥69.00

作 者: 黃永祥
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302503286 出版時間: 2018-08-01 包裝:
開本: 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書站在初學者的角度,從原理到實踐,循序漸進地講述了使用Python開發(fā)網(wǎng)絡爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰(zhàn)篇和爬蟲框架篇三部分?;A篇主要介紹了編寫網(wǎng)絡爬蟲所需的基礎知識,分別是網(wǎng)站分析、數(shù)據(jù)抓取、數(shù)據(jù)清洗和數(shù)據(jù)入庫。網(wǎng)站分析講述如何使用Chrome和Fiddler抓包工具對網(wǎng)絡做全面分析;數(shù)據(jù)抓取介紹了Python爬蟲模塊Urllib和Requests的基礎知識;數(shù)據(jù)清洗主要介紹字符串操作、正則和Beautiful Soup的使用;數(shù)據(jù)入庫分別講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實現(xiàn)數(shù)據(jù)持久化,實現(xiàn)企業(yè)級開發(fā)。實戰(zhàn)篇深入講解了分布式爬蟲、爬蟲軟件開發(fā)與應用、12306搶票程序和微博爬取,所舉示例均來自于開發(fā)實踐,可幫助讀者快速提升技能,開發(fā)實際項目。框架篇主要講述Scrapy的基礎知識,并通過爬取QQ音樂為實例,讓讀者深層次了解Scrapy的使用。 本書內(nèi)容豐富,注重實戰(zhàn),適用于從零開始學習網(wǎng)絡爬蟲的初學者,或者是已經(jīng)有一些網(wǎng)絡爬蟲編寫經(jīng)驗,但希望更加全面、深入理解Python爬蟲的開發(fā)人員。

作者簡介

  黃永祥

圖書目錄

目    錄

壹章?理解網(wǎng)絡爬蟲 1

1.1  爬蟲的定義 1

1.2  爬蟲的類型 2

1.3  爬蟲的原理 3

1.4  爬蟲的搜索策略 5

1.5  反爬蟲技術及解決方案 6

1.6  本章小結 8

2章?爬蟲開發(fā)基礎 9

2.1  HTTP與HTTPS 9

2.2  請求頭 11

2.3  Cookies 13

2.4  HTML 14

2.5   16

2.6  JSON 18

2.7  Ajax 19

2.8  本章小結 20

3章?Chrome分析網(wǎng)站 21

3.1  Chrome開發(fā)工具 21

3.2  Elements標簽 22

3.3  Network標簽 23

3.4  分析QQ音樂 27

3.5  本章小結 29

4章?Fiddler抓包工具 30

4.1  Fiddler介紹 30

4.2  Fiddler安裝配置 31

4.3  Fiddler抓取手機應用 33

4.4  Toolbar工具欄 36

4.5  Web Session列表 37

4.6  View選項視圖 40

4.7  Quickexec命令行 41

4.8  本章小結 42

5章?Urllib數(shù)據(jù)抓取 43

5.1  Urllib簡介 43

5.2  發(fā)送請求 44

5.3  復雜的請求 46

5.4  代理IP 47

5.5  使用Cookies 48

5.6  證書驗證 50

5.7  數(shù)據(jù)處理 51

5.8  本章小結 52

6章?Requests數(shù)據(jù)抓取 54

6.1  Requests簡介及安裝 54

6.2  請求方式 55

6.3  復雜的請求方式 57

6.4  下載與上傳 60

6.5  本章小結 63

7章?驗證碼識別 64

7.1  驗證碼類型 64

7.2  OCR技術 66

7.3  三方平臺 69

7.4  本章小結 72

8章?數(shù)據(jù)清洗 74

8.1  字符串操作 74

8.2  正則表達式 78

8.3  Beautiful Soup介紹及安裝 84

8.4  Beautiful Soup的使用 86

8.5  本章小結 90

9章?文檔數(shù)據(jù)存儲 92

9.1  CSV數(shù)據(jù)寫入和讀取 92

9.2  Excel數(shù)據(jù)寫入和讀取 94

9.3  Word數(shù)據(jù)寫入和讀取 99

9.4  本章小結 101

壹0章?ORM框架 104

10.1  SQLAlchemy介紹 104

10.2  安裝SQLAlchemy 105

10.3  連接數(shù)據(jù)庫 106

10.4  創(chuàng)建數(shù)據(jù)表 108

10.5  添加數(shù)據(jù) 111

10.6  更新數(shù)據(jù) 112

10.7  查詢數(shù)據(jù) 114

10.8  本章小結 116

壹1章?MongoDB數(shù)據(jù)庫操作 118

11.1  MongoDB介紹 118

11.2  安裝及使用 120

11.2.1  MongoDB 120

11.2.2  MongoDB可視化工具 121

11.2.3  PyMongo 123

11.3  連接數(shù)據(jù)庫 123

11.4  添加文檔 125

11.5  更新文檔 126

11.6  查詢文檔 127

11.7  本章小結 130

壹2章?項目實戰(zhàn):爬取淘寶商品信息 131

12.1  分析說明 131

12.2  功能實現(xiàn) 134

12.3  數(shù)據(jù)存儲 136

12.4  本章小結 138

壹3章?項目實戰(zhàn):分布式爬蟲——QQ音樂 139

13.1  分析說明 139

13.2  歌曲下載 140

13.3  歌手和歌曲信息 145

13.4  分類歌手列表 148

13.5  全站歌手列表 150

13.6  數(shù)據(jù)存儲 152

13.7  分布式概念 154

13.7.1  GIL是什么 154

13.7.2  為什么會有GIL 154

13.8  并發(fā)庫concurrent.futures 155

13.9  分布式爬蟲 157

13.10  本章小結 159

壹4章?項目實戰(zhàn):爬蟲軟件—— 淘寶商品信息 161

14.1  分析說明 161

14.2  GUI庫介紹 162

14.3  PyQt5安裝及環(huán)境搭建 162

14.4  軟件界面開發(fā) 165

14.5  MVC——視圖 169

14.6  MVC——控制器 171

14.7  MVC——模型 172

14.8  擴展思路 173

14.9  本章小結 174

壹5章?項目實戰(zhàn):12306搶票 176

15.1  分析說明 176

15.2  驗證碼驗證 177

15.3  用戶登錄與驗證 181

15.4  查詢車次 187

15.5  預訂車票 193

15.6  提交訂單 196

15.7  生成訂單 204

15.8  本章小結 209

壹6章?項目實戰(zhàn):玩轉微博 219

16.1  分析說明 219

16.2  用戶登錄 220

16.3  用戶登錄(帶驗證碼) 232

16.4  關鍵字搜索熱門微博 240

16.5  發(fā)布微博 247

16.6  關注用戶 253

16.7  點贊和轉發(fā)評論 257

16.8  本章小結 263

壹7章?Scrapy爬蟲框架 265

17.1  爬蟲框架 265

17.2  Scrapy的運行機制 267

17.3  安裝Scrapy 268

17.4  爬蟲開發(fā)快速入門 270

17.5  Spiders介紹 277

17.6  Spider的編寫 278

17.7  Items的編寫 282

17.8  Item Pipeline的編寫 284

17.9  Selectors的編寫 288

17.10  文件下載 291

17.11  本章小結 296

壹8章?項目實戰(zhàn):Scrapy爬取QQ音樂 298

18.1  分析說明 298

18.2  創(chuàng)建項目 299

18.3  編寫setting 300

18.4  編寫Items 301

18.5  編寫Item Pipelines 302

18.6  編寫Spider 305

18.7  本章小結 310 


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號