注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)行業(yè)軟件及應(yīng)用精通Scrapy網(wǎng)絡(luò)爬蟲

精通Scrapy網(wǎng)絡(luò)爬蟲

精通Scrapy網(wǎng)絡(luò)爬蟲

定 價:¥59.00

作 者: 劉碩
出版社: 清華大學出版社
叢編項:
標 簽: 計算機/網(wǎng)絡(luò) 行業(yè)軟件及應(yīng)用

ISBN: 9787302484936 出版時間: 2017-10-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 224 字數(shù):  

內(nèi)容簡介

  本書深入系統(tǒng)地介紹了Python流行框架Scrapy的相關(guān)技術(shù)及使用技巧。全書共14章,從邏輯上可分為基礎(chǔ)篇和高級篇兩部分,基礎(chǔ)篇重點介紹Scrapy的核心元素,如spider、selector、item、link等;高級篇講解爬蟲的高級話題,如登錄認證、文件下載、執(zhí)行JavaScript、動態(tài)網(wǎng)頁爬取、使用HTTP代理、分布式爬蟲的編寫等,并配合項目案例講解,包括供練習使用的網(wǎng)站,以及*、知乎、豆瓣、360爬蟲案例等。本書案例豐富,注重實踐,代碼注釋詳盡,適合有一定Python語言基礎(chǔ),想學習編寫復(fù)雜網(wǎng)絡(luò)爬蟲的讀者使用。

作者簡介

  劉碩:碩士,曾就職于知名外企,從事一線開發(fā)工作10年,目前主要從事Python開發(fā)與教學工作,在慕課網(wǎng)開設(shè)有多門Python課程,深受學員歡迎。

圖書目錄

第1章 初識Scrapy 1

1.1 網(wǎng)絡(luò)爬蟲是什么 1

1.2 Scrapy簡介及安裝 2

1.3 編寫*個Scrapy爬蟲 3

1.3.1 項目需求 4

1.3.2 創(chuàng)建項目 4

1.3.3 分析頁面 5

1.3.4 實現(xiàn)Spider 6

1.3.5 運行爬蟲 8

1.4 本章小結(jié) 11

第2章 編寫Spider 12

2.1 Scrapy框架結(jié)構(gòu)及工作原理 12

2.2 Request和Response對象 14

2.2.1 Request對象 15

2.2.2 Response對象 16

2.3 Spider開發(fā)流程 18

2.3.1 繼承scrapy.Spider 19

2.3.2 為Spider命名 20

2.3.3 設(shè)定起始爬取點 20

2.3.4 實現(xiàn)頁面解析函數(shù) 22

2.4 本章小結(jié) 22

第3章 使用Selector提取數(shù)據(jù) 23

3.1 Selector對象 23

3.1.1 創(chuàng)建對象 24

3.1.2 選中數(shù)據(jù) 25

3.1.3 提取數(shù)據(jù) 26

3.2 Response內(nèi)置Selector 28

3.3 XPath 29

3.3.1 基礎(chǔ)語法 30

3.3.2 常用函數(shù) 35

3.4 CSS選擇器 36

3.5 本章小結(jié) 40

第4章 使用Item封裝數(shù)據(jù) 41

4.1 Item和Field 42

4.2 拓展Item子類 44

4.3 Field元數(shù)據(jù) 44

4.4 本章小結(jié) 47

第5章 使用Item Pipeline處理數(shù)據(jù) 48

5.1 Item Pipeline 48

5.1.1 實現(xiàn)Item Pipeline 49

5.1.2 啟用Item Pipeline 50

5.2 更多例子 51

5.2.1 過濾重復(fù)數(shù)據(jù) 51

5.2.2 將數(shù)據(jù)存入

MongoDB 54

5.3 本章小結(jié) 57

第6章 使用LinkExtractor提取鏈接 58

6.1 使用LinkExtractor 59

6.2 描述提取規(guī)則 60

6.3 本章小結(jié) 65

第7章 使用Exporter導(dǎo)出數(shù)據(jù) 66

7.1 指定如何導(dǎo)出數(shù)據(jù) 67

7.1.1 命令行參數(shù) 67

7.1.2 配置文件 69

7.2 添加導(dǎo)出數(shù)據(jù)格式 70

7.2.1 源碼參考 70

7.2.2 實現(xiàn)Exporter 72

7.3 本章小結(jié) 74

第8章 項目練習 75

8.1 項目需求 77

8.2 頁面分析 77

8.3 編碼實現(xiàn) 83

8.4 本章小結(jié) 88

第9章 下載文件和圖片 89

9.1 FilesPipeline和

ImagesPipeline 89

9.1.1 FilesPipeline使用

說明 90

9.1.2 ImagesPipeline使用

說明 91

9.2 項目實戰(zhàn):爬取matplotlib

例子源碼文件 92

9.2.1 項目需求 92

9.2.2 頁面分析 94

9.2.3 編碼實現(xiàn) 96

9.3 項目實戰(zhàn):下載360圖片 103

9.3.1 項目需求 104

9.3.2 頁面分析 104

9.3.3 編碼實現(xiàn) 107

9.4 本章小結(jié) 109

第10章 模擬登錄 110

10.1 登錄實質(zhì) 110

10.2 Scrapy模擬登錄 114

10.2.1 使用FormRequest 114

10.2.2 實現(xiàn)登錄Spider 117

10.3 識別驗證碼 119

10.3.1 OCR識別 119

10.3.2 網(wǎng)絡(luò)平臺識別 123

10.3.3 人工識別 127

10.4 Cookie登錄 128

10.4.1 獲取瀏覽器

Cookie 128

10.4.2 CookiesMiddleware

源碼分析 129

10.4.3 實現(xiàn)BrowserCookies-

Middleware 132

10.4.4 爬取知乎個人

信息 133

10.5 本章小結(jié) 135

第11章 爬取動態(tài)頁面 136

11.1 Splash渲染引擎 140

11.1.1 render.html端點 141

11.1.2 execute端點 142

11.2 在Scrapy中使用Splash 145

11.3 項目實戰(zhàn):爬取toscrape

中的名人名言 146

11.3.1 項目需求 146

11.3.2 頁面分析 146

11.3.3 編碼實現(xiàn) 147

11.4 項目實戰(zhàn):爬取*商城

中的書籍信息 149

11.4.1 項目需求 149

11.4.2 頁面分析 149

11.4.3 編碼實現(xiàn) 152

11.5 本章小結(jié) 154

第12章 存入數(shù)據(jù)庫 155

12.1 SQLite 156

12.2 MySQL 159

12.3 MongoDB 165

12.4 Redis 169

12.5 本章小結(jié) 173

第13章 使用HTTP代理 174

13.1 HttpProxyMiddleware 175

13.1.1 使用簡介 175

13.1.2 源碼分析 177

13.2 使用多個代理 179

13.3 獲取免費代理 180

13.4 實現(xiàn)*代理 184

13.5 項目實戰(zhàn):爬取豆瓣電影

信息 187

13.5.1 項目需求 188

13.5.2 頁面分析 189

13.5.3 編碼實現(xiàn) 194

13.6 本章小結(jié) 198

第14章 分布式爬取 199

14.1 Redis的使用 200

14.1.1 安裝Redis 200

14.1.2 Redis基本命令 201

14.2 scrapy-redis源碼分析 206

14.2.1 分配爬取任務(wù)

部分 207

14.2.2 匯總爬取數(shù)據(jù)

部分 214

14.3 使用scrapy-redis進行分

布式爬取 217

14.3.1 搭建環(huán)境 217

14.3.2 項目實戰(zhàn) 218

14.4 本章小結(jié) 224

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號