定 價:¥79.80
作 者: | 呂云翔,張揚(yáng) |
出版社: | 清華大學(xué)出版社 |
叢編項: | 清華科技大講堂 |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787302515920 | 出版時間: | 2019-04-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數(shù): | 391 | 字?jǐn)?shù): |
目錄
基礎(chǔ)篇
第1章Python與網(wǎng)絡(luò)爬蟲
1.1Python語言
1.1.1什么是Python
1.1.2Python的應(yīng)用現(xiàn)狀
1.2Python的安裝與開發(fā)環(huán)境配置
1.2.1在Windows上安裝
1.2.2在Ubuntu和Mac OS上安裝
1.2.3PyCharm的使用
1.2.4Jupyter Notebook
1.3Python的基本語法
1.3.1數(shù)據(jù)類型
1.3.2邏輯語句
1.3.3Python中的函數(shù)與類
1.3.4如何學(xué)習(xí)Python
1.4互聯(lián)網(wǎng)、HTTP與HTML
1.4.1互聯(lián)網(wǎng)與HTTP協(xié)議
1.4.2HTML
1.5HelloSpider
1.5.1第一個爬蟲程序
1.5.2對爬蟲程序的思考
1.6調(diào)研網(wǎng)站
1.6.1網(wǎng)站的robots.txt與Sitemap
1.6.2查看網(wǎng)站所用的技術(shù)
1.6.3查看網(wǎng)站所有者的信息
1.6.4使用開發(fā)者工具檢查網(wǎng)頁
1.7本章小結(jié)
第2章數(shù)據(jù)的采集
2.1從抓取開始
2.2正則表達(dá)式
2.2.1初識正則表達(dá)式
2.2.2正則表達(dá)式的簡單使用
2.3BeautifulSoup
2.3.1BeautifulSoup的安裝與特點(diǎn)
2.3.2BeautifulSoup的基本使用
2.4XPath與lxml
2.4.1XPath
2.4.2lxml與XPath的使用
2.5遍歷頁面
2.5.1抓取下一個頁面
2.5.2完成爬蟲程序
2.6使用API
2.6.1API簡介
2.6.2API使用示例
2.7本章小結(jié)
第3章文件與數(shù)據(jù)的存儲
3.1Python中的文件
3.1.1基本的文件讀寫
3.1.2序列化
3.2字符串
3.3Python與圖片
3.3.1PIL與Pillow
3.3.2Python與OpenCV簡介
3.4CSV文件
3.4.1CSV簡介
3.4.2CSV的讀寫
3.5使用數(shù)據(jù)庫
3.5.1使用MySQL
3.5.2使用SQLite3
3.5.3使用SQLAlchemy
3.5.4使用Redis
3.6其他類型的文檔
3.7本章小結(jié)
進(jìn)階篇
第4章JavaScript與動態(tài)內(nèi)容
4.1JavaScript與AJAX技術(shù)
4.1.1JavaScript語言
4.1.2AJAX
4.2抓取AJAX數(shù)據(jù)
4.2.1分析數(shù)據(jù)
4.2.2提取數(shù)據(jù)
4.3抓取動態(tài)內(nèi)容
4.3.1動態(tài)渲染頁面
4.3.2使用Selenium
4.3.3PyV8與Splash
4.4本章小結(jié)
第5章表單與模擬登錄
5.1表單
5.1.1表單與POST
5.1.2發(fā)送表單數(shù)據(jù)
5.2Cookie
5.2.1什么是Cookie
5.2.2在Python中使用Cookie
5.3模擬登錄網(wǎng)站
5.3.1分析網(wǎng)站
5.3.2通過Cookie模擬登錄
5.4驗證碼
5.4.1圖片驗證碼
5.4.2滑動驗證
5.5本章小結(jié)
第6章數(shù)據(jù)的進(jìn)一步處理
6.1Python與文本分析
6.1.1什么是文本分析
6.1.2jieba與SnowNLP
6.1.3NLTK
6.1.4文本的分類與聚類
6.2數(shù)據(jù)處理與科學(xué)計算
6.2.1從MATLAB到Python
6.2.2NumPy
6.2.3Pandas
6.2.4Matplotlib
6.2.5SciPy與SymPy
6.3本章小結(jié)
高級篇
第7章更靈活和更多樣的爬蟲
7.1更靈活的爬蟲——以微信數(shù)據(jù)的抓取為例
7.1.1用Selenium抓取Web微信信息
7.1.2基于Python的微信API工具
7.2更多樣的爬蟲
7.2.1PyQuery
7.2.2在線爬蟲應(yīng)用平臺
7.2.3使用urllib
7.3對爬蟲的部署和管理
7.3.1配置遠(yuǎn)程主機(jī)
7.3.2編寫本地爬蟲
7.3.3部署爬蟲
7.3.4查看運(yùn)行結(jié)果
7.3.5使用爬蟲管理框架
7.4本章小結(jié)
第8章瀏覽器模擬與網(wǎng)站測試
8.1關(guān)于測試
8.1.1什么是測試
8.1.2什么是TDD
8.2Python的單元測試
8.2.1使用unittest
8.2.2其他方法
8.3使用Python爬蟲測試網(wǎng)站
8.4使用Selenium測試
8.4.1Selenium測試常用的網(wǎng)站交互
8.4.2結(jié)合Selenium進(jìn)行單元測試
8.5本章小結(jié)
第9章更強(qiáng)大的爬蟲
9.1爬蟲框架
9.1.1Scrapy是什么
9.1.2Scrapy的安裝與入門
9.1.3編寫Scrapy爬蟲
9.1.4其他爬蟲框架
9.2網(wǎng)站反爬蟲
9.2.1反爬蟲的策略
9.2.2偽裝headers
9.2.3使用代理
9.2.4訪問頻率
9.3多進(jìn)程與分布式
9.3.1多進(jìn)程編程與爬蟲抓取
9.3.2分布式爬蟲
9.4本章小結(jié)
實(shí)踐篇
第10章爬蟲實(shí)踐: 下載網(wǎng)頁中的小說和購物評論
10.1下載網(wǎng)絡(luò)小說
10.1.1分析網(wǎng)頁
10.1.2編寫爬蟲
10.1.3運(yùn)行并查看TXT文件
10.2下載購物評論
10.2.1查看網(wǎng)絡(luò)數(shù)據(jù)
10.2.2編寫爬蟲
10.2.3數(shù)據(jù)下載結(jié)果與爬蟲分析
10.3本章小結(jié)
第11章爬蟲實(shí)踐: 保存感興趣的圖片
11.1豆瓣網(wǎng)站分析與爬蟲設(shè)計
11.1.1從需求出發(fā)
11.1.2處理登錄問題
11.2編寫爬蟲程序
11.2.1爬蟲腳本
11.2.2程序分析
11.3運(yùn)行并查看結(jié)果
11.4本章小結(jié)
第12章爬蟲實(shí)踐: 網(wǎng)上影評分析
12.1需求分析與爬蟲設(shè)計
12.1.1網(wǎng)頁分析
12.1.2函數(shù)設(shè)計
12.2編寫爬蟲
12.2.1編寫程序
12.2.2可能的改進(jìn)
12.3本章小結(jié)
第13章爬蟲實(shí)踐: 使用爬蟲下載網(wǎng)頁
13.1設(shè)計抓取程序
13.2運(yùn)行程序
13.3展示網(wǎng)頁
第14章爬蟲實(shí)踐: 使用爬蟲框架
14.1Gain框架
14.2使用Gain做簡單抓取
14.3PySpider框架
14.4使用PySpider進(jìn)行抓取
附錄A
A.1Python中的一些重要概念
A.1.1*args與**kwargs的使用
A.1.2global關(guān)鍵詞
A.1.3enumerate枚舉
A.1.4迭代器與生成器
A.2Python中的常用模塊
A.2.1collections
A.2.2arrow
A.2.3timeit
A.2.4pickle
A.2.5os
A.2.6sys
A.2.7itertools
A.2.8functools
A.2.9threading、queue與multiprocessing
A.3requests庫
A.3.1requests基礎(chǔ)
A.3.2更多用法
A.4正則表達(dá)式
A.4.1什么是正則表達(dá)式
A.4.2正則表達(dá)式的基礎(chǔ)語法
參考文獻(xiàn)