定 價:¥59.00
作 者: | 劉碩 |
出版社: | 清華大學出版社 |
叢編項: | |
標 簽: | 計算機/網(wǎng)絡(luò) 行業(yè)軟件及應(yīng)用 |
ISBN: | 9787302484936 | 出版時間: | 2017-10-01 | 包裝: | 平裝-膠訂 |
開本: | 16開 | 頁數(shù): | 224 | 字數(shù): |
第1章 初識Scrapy 1
1.1 網(wǎng)絡(luò)爬蟲是什么 1
1.2 Scrapy簡介及安裝 2
1.3 編寫*個Scrapy爬蟲 3
1.3.1 項目需求 4
1.3.2 創(chuàng)建項目 4
1.3.3 分析頁面 5
1.3.4 實現(xiàn)Spider 6
1.3.5 運行爬蟲 8
1.4 本章小結(jié) 11
第2章 編寫Spider 12
2.1 Scrapy框架結(jié)構(gòu)及工作原理 12
2.2 Request和Response對象 14
2.2.1 Request對象 15
2.2.2 Response對象 16
2.3 Spider開發(fā)流程 18
2.3.1 繼承scrapy.Spider 19
2.3.2 為Spider命名 20
2.3.3 設(shè)定起始爬取點 20
2.3.4 實現(xiàn)頁面解析函數(shù) 22
2.4 本章小結(jié) 22
第3章 使用Selector提取數(shù)據(jù) 23
3.1 Selector對象 23
3.1.1 創(chuàng)建對象 24
3.1.2 選中數(shù)據(jù) 25
3.1.3 提取數(shù)據(jù) 26
3.2 Response內(nèi)置Selector 28
3.3 XPath 29
3.3.1 基礎(chǔ)語法 30
3.3.2 常用函數(shù) 35
3.4 CSS選擇器 36
3.5 本章小結(jié) 40
第4章 使用Item封裝數(shù)據(jù) 41
4.1 Item和Field 42
4.2 拓展Item子類 44
4.3 Field元數(shù)據(jù) 44
4.4 本章小結(jié) 47
第5章 使用Item Pipeline處理數(shù)據(jù) 48
5.1 Item Pipeline 48
5.1.1 實現(xiàn)Item Pipeline 49
5.1.2 啟用Item Pipeline 50
5.2 更多例子 51
5.2.1 過濾重復(fù)數(shù)據(jù) 51
5.2.2 將數(shù)據(jù)存入
MongoDB 54
5.3 本章小結(jié) 57
第6章 使用LinkExtractor提取鏈接 58
6.1 使用LinkExtractor 59
6.2 描述提取規(guī)則 60
6.3 本章小結(jié) 65
第7章 使用Exporter導(dǎo)出數(shù)據(jù) 66
7.1 指定如何導(dǎo)出數(shù)據(jù) 67
7.1.1 命令行參數(shù) 67
7.1.2 配置文件 69
7.2 添加導(dǎo)出數(shù)據(jù)格式 70
7.2.1 源碼參考 70
7.2.2 實現(xiàn)Exporter 72
7.3 本章小結(jié) 74
第8章 項目練習 75
8.1 項目需求 77
8.2 頁面分析 77
8.3 編碼實現(xiàn) 83
8.4 本章小結(jié) 88
第9章 下載文件和圖片 89
9.1 FilesPipeline和
ImagesPipeline 89
9.1.1 FilesPipeline使用
說明 90
9.1.2 ImagesPipeline使用
說明 91
9.2 項目實戰(zhàn):爬取matplotlib
例子源碼文件 92
9.2.1 項目需求 92
9.2.2 頁面分析 94
9.2.3 編碼實現(xiàn) 96
9.3 項目實戰(zhàn):下載360圖片 103
9.3.1 項目需求 104
9.3.2 頁面分析 104
9.3.3 編碼實現(xiàn) 107
9.4 本章小結(jié) 109
第10章 模擬登錄 110
10.1 登錄實質(zhì) 110
10.2 Scrapy模擬登錄 114
10.2.1 使用FormRequest 114
10.2.2 實現(xiàn)登錄Spider 117
10.3 識別驗證碼 119
10.3.1 OCR識別 119
10.3.2 網(wǎng)絡(luò)平臺識別 123
10.3.3 人工識別 127
10.4 Cookie登錄 128
10.4.1 獲取瀏覽器
Cookie 128
10.4.2 CookiesMiddleware
源碼分析 129
10.4.3 實現(xiàn)BrowserCookies-
Middleware 132
10.4.4 爬取知乎個人
信息 133
10.5 本章小結(jié) 135
第11章 爬取動態(tài)頁面 136
11.1 Splash渲染引擎 140
11.1.1 render.html端點 141
11.1.2 execute端點 142
11.2 在Scrapy中使用Splash 145
11.3 項目實戰(zhàn):爬取toscrape
中的名人名言 146
11.3.1 項目需求 146
11.3.2 頁面分析 146
11.3.3 編碼實現(xiàn) 147
11.4 項目實戰(zhàn):爬取*商城
中的書籍信息 149
11.4.1 項目需求 149
11.4.2 頁面分析 149
11.4.3 編碼實現(xiàn) 152
11.5 本章小結(jié) 154
第12章 存入數(shù)據(jù)庫 155
12.1 SQLite 156
12.2 MySQL 159
12.3 MongoDB 165
12.4 Redis 169
12.5 本章小結(jié) 173
第13章 使用HTTP代理 174
13.1 HttpProxyMiddleware 175
13.1.1 使用簡介 175
13.1.2 源碼分析 177
13.2 使用多個代理 179
13.3 獲取免費代理 180
13.4 實現(xiàn)*代理 184
13.5 項目實戰(zhàn):爬取豆瓣電影
信息 187
13.5.1 項目需求 188
13.5.2 頁面分析 189
13.5.3 編碼實現(xiàn) 194
13.6 本章小結(jié) 198
第14章 分布式爬取 199
14.1 Redis的使用 200
14.1.1 安裝Redis 200
14.1.2 Redis基本命令 201
14.2 scrapy-redis源碼分析 206
14.2.1 分配爬取任務(wù)
部分 207
14.2.2 匯總爬取數(shù)據(jù)
部分 214
14.3 使用scrapy-redis進行分
布式爬取 217
14.3.1 搭建環(huán)境 217
14.3.2 項目實戰(zhàn) 218
14.4 本章小結(jié) 224