注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術工業(yè)技術建筑科學建筑設計Python強化學習實戰(zhàn):應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習

Python強化學習實戰(zhàn):應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習

Python強化學習實戰(zhàn):應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習

定 價:¥69.00

作 者: (印度)蘇達?!だS尚迪蘭 著
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111612889 出版時間: 2018-12-01 包裝: 平裝
開本: 16開 頁數: 字數:  

內容簡介

  強化學習是一種重要的機器學習方法,在智能體及分析預測等領域有許多應用。《Python強化學習實戰(zhàn):應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習》共13章,主要包括強化學習的各種要素,即智能體、環(huán)境、策略和模型以及相應平臺和庫;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關系,動態(tài)規(guī)劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法;時間差分學習、預測、離線/在線策略控制等;多臂賭博機問題以及相關的各種探索策略方法;深度學習的各種基本概念和RNN、LSTM、CNN等神經網絡;深度強化學習算法DQN,以及雙DQN和對抗網絡體系結構等改進架構;DRQN以及DARQN;A3C網絡的基本工作原理及架構;策略梯度和優(yōu)化問題;*后介紹了強化學習的*新進展以及未來發(fā)展。

作者簡介

  作者簡介Sudharsan Ravichandiran 是一位數據科學家、研究員、人工智能愛好者以及 YouTuber(搜索 Sudharsan reinforcement learning),獲得了 Anna 大學信息技術學士學位。他的研究領域包括深度學習和強化學習的實現(xiàn),其中包括自然語言處理和計算機視覺。他曾是一名自由職業(yè)的網頁開發(fā)人員和設計師,所設計開發(fā)的網站屢獲殊榮,同時也熱衷于開源,擅長解答堆棧溢出問題。原書審稿人簡介Sujit Pal 是 Elsevier 實驗室的技術研究總監(jiān), Elsevier 實驗室是 Reed-Elservier 集團公司下的一個先進技術團隊,研究領域包括語義檢索、自然語言處理、機器學習和深度學習。他在 Elsevier 實驗室主要從事搜索質量檢測與改進、圖像分類和重復率檢測、醫(yī)學和科學語料庫的標注與本體開發(fā)。他曾與 Antonio Gulli 合作撰寫了一本關于深度學習的著作,并在博客 Slamon Run 上撰寫了一些科技文章。Suriyadeepan Ramamoorthy 是一名來自印度 Puducherry 的 AI 研究人員和工程師,主要研究領域是自然語言理解和推理,同時積極撰寫有關深度學習的博客文章。在 SAAMA 技術中,他將先進的深度學習技術應用于生物醫(yī)學文本分析,同時也是一名積極推動 FSFTN領域發(fā)展的免費軟件宣傳者,另外對社交網絡、數據可視化和創(chuàng)造性編程也非常感興趣。

圖書目錄

譯者序 

原書前言 

第1章 強化學習簡介 //1 

1.1 什么是強化學習 //1 

1.2 強化學習算法 //2 

1.3 強化學習與其他機器學習范式的不同 //3 

1.4 強化學習的要素 //3 

1.4.1 智能體 //3 

1.4.2 策略函數 //3 

1.4.3 值函數 //4 

1.4.4 模型 //4 

1.5 智能體環(huán)境接口 //4 

1.6 強化學習的環(huán)境類型 //5 

1.6.1 確定性環(huán)境 //5 

1.6.2 隨機性環(huán)境 //5 

1.6.3 完全可觀測環(huán)境 //5 

1.6.4 部分可觀測環(huán)境 //5 

1.6.5 離散環(huán)境 //5 

1.6.6 連續(xù)環(huán)境 //5 

1.6.7 情景和非情景環(huán)境 //5 

1.6.8 單智能體和多智能體環(huán)境 //6 

1.7 強化學習平臺 //6 

1.7.1 OpenAI Gym和Universe //6 

1.7.2 DeepMind Lab //6 

1.7.3 RLGlue //6 

1.7.4 Project Malmo //6 

1.7.5 VizDoom //6 

1.8 強化學習的應用 //7 

1.8.1 教育 //7 

1.8.2 醫(yī)療和健康 //7 

1.8.3 制造業(yè) //7 

1.8.4 庫存管理 //7 

1.8.5 金融 //7 

1.8.6 自然語言處理和計算機視覺 //7 

1.9 小結 //8 

1.10 問題 //8 

1.11 擴展閱讀 //8 

第2章 從OpenAI和TensorFlow入門 //9 

2.1 計算機設置 //9 

2.1.1 安裝Anaconda //9 

2.1.2 安裝Docker //10 

2.1.3 安裝OpenAI Gym和Universe //11 

2.2 OpenAI Gym //13 

2.2.1 基本模擬 //13 

2.2.2 訓練機器人行走 //14 

2.3 OpenAI Universe //16 

2.3.1 構建一個視頻游戲機器人 //16 

2.4 TensorFlow //20 

2.4.1 變量、常量和占位符 //20 

2.4.2 計算圖 //21 

2.4.3 會話 //21 

2.4.4 TensorBoard //22 

2.5 小結 //25 

2.6 問題 //25 

2.7 擴展閱讀 //25 

第3章 馬爾可夫決策過程和動態(tài)規(guī)劃 //26 

3.1 馬爾可夫鏈和馬爾可夫過程 //26 

3.2 MDP //27 

3.2.1 獎勵和回報 //28 

3.2.2 情景和連續(xù)任務 //28 

3.2.3 折扣因數 //28 

3.2.4 策略函數 //29 

3.2.5 狀態(tài)值函數 //29 

3.2.6 狀態(tài)—行為值函數(Q函數)//30 

3.3 Bellman方程和最優(yōu)性 //30 

3.3.1 推導值函數和Q函數的Bellman方程 //31 

3.4 求解Bellman方程 //32 

3.4.1 動態(tài)規(guī)劃 //32 

3.5 求解冰凍湖問題 //38 

3.5.1 值迭代 //39 

3.5.2 策略迭代 //43 

3.6 小結 //45 

3.7 問題 //45 

3.8 擴展閱讀 //46 

第4章 基于蒙特卡羅方法的博弈游戲 //47 

4.1 蒙特卡羅方法 //47 

4.1.1 利用蒙特卡羅方法估計π值 //47 

4.2 蒙特卡羅預測 //50 

4.2.1 首次訪問蒙特卡羅 //51 

4.2.2 每次訪問蒙特卡羅 //52 

4.2.3 利用蒙特卡羅方法玩二十一點游戲 //52 

4.3 蒙特卡羅控制 //58 

4.3.1 蒙特卡羅探索開始 //58 

4.3.2 在線策略的蒙特卡羅控制 //59 

4.3.3 離線策略的蒙特卡羅控制 //61 

4.4 小結 //62 

4.5 問題 //62 

4.6 擴展閱讀 //63 

第5章 時間差分學習 //64 

5.1 時間差分學習 //64 

5.2 時間差分預測 //64 

5.3 時間差分控制 //66 

5.3.1 Q學習 //66 

5.3.2 SARSA //72 

5.4 Q學習和SARSA之間的區(qū)別 //77 

5.5 小結 //77 

5.6 問題 //78 

5.7 擴展閱讀 //78 

第6章 MAB問題 //79 

6.1 MAB問題 //79 

6.1.1 ε貪婪策略 //80 

6.1.2 Softmax探索算法 //82 

6.1.3 UCB算法 //83 

6.1.4 Thompson采樣算法 //85 

6.2 MAB的應用 //86 

6.3 利用MAB識別正確的廣告標識 //87 

6.4 上下文賭博機 //89 

6.5 小結 //89 

6.6 問題 //89 

6.7 擴展閱讀 //89 

第7章 深度學習基礎 //90 

7.1 人工神經元 //90 

7.2 ANN //91 

7.2.1 輸入層 //92 

7.2.2 隱層 //92 

7.2.3 輸出層 //92 

7.2.4 激活函數 //92 

7.3 深入分析ANN //93 

7.3.1 梯度下降 //95 

7.4 TensorFlow中的神經網絡 //99 

7.5 RNN //101 

7.5.1 基于時間的反向傳播 //103 

7.6 LSTM RNN //104 

7.6.1 利用LSTM RNN生成歌詞 //105 

7.7 CNN //108 

7.7.1 卷積層 //109 

7.7.2 池化層 //111 

7.7.3 全連接層 //112 

7.7.4 CNN架構 //112 

7.8 利用CNN對時尚產品進行分類 //113 

7.9 小結 //117 

7.10 問題 //117 

7.11 擴展閱讀 //118 

第8章 基于DQN的Atari游戲 //119 

8.1 什么是DQN //119 

8.2 DQN的架構 //120 

8.2.1 卷積網絡 //120 

8.2.2 經驗回放 //121 

8.2.3 目標網絡 //121 

8.2.4 獎勵裁剪 //122 

8.2.5 算法理解 //122 

8.3 構建一個智能體來玩Atari游戲 //122 

8.4 雙DQN //129 

8.5 優(yōu)先經驗回放 //130 

8.6 對抗網絡體系結構 //130 

8.7 小結 //131 

8.8 問題 //132 

8.9 擴展閱讀 //132 

第9章 基于DRQN玩Doom游戲 //133 

9.1 DRQN //133 

9.1.1 DRQN架構 //134 

9.2 訓練一個玩Doom游戲的智能體 //135 

9.2.1 基本的Doom游戲 //135 

9.2.2 基于DRQN的Doom游戲 //136 

9.3 DARQN //145 

9.3.1 DARQN架構 //145 

9.4 小結 //145 

9.5 問題 //146 

9.6 擴展閱讀 //146 

第10章 A3C網絡 //147 

10.1 A3C //147 

10.1.1 異步優(yōu)勢行為者 //147 

10.1.2 A3C架構 //148


本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號