深度強化學習實踐（原書第2版）

定　價：￥149.00

作　者：	（俄）馬克西姆·拉潘（Maxim Lapan）
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

ISBN：	9787111687382	出版時間：	2021-08-01	包裝：
開本：	16開	頁數(shù)：	617	字數(shù)：

內容簡介

　　《深度強化學習實踐（原書第2版）》包括新的強化學習工具和技術，介紹了強化學習的基礎知識，以及如何動手編寫智能體以執(zhí)行一系列實際任務。《深度強化學習實踐（原書第2版）》較上一版新增6章，專門介紹了強化學習的新發(fā)展，包括離散優(yōu)化（解決魔方問題）、多智能體方法、Microsoft的TextWorld環(huán)境、高級探索技術等。學完《深度強化學習實踐（原書第2版）》，你將對這個新興領域的前沿技術有深刻的理解。此外，你將獲得對深度Q-network、策略梯度方法、連續(xù)控制問題以及高度可擴展的非梯度方法等領域的可行洞見，還將學會如何構建經(jīng)過強化學習訓練、價格低廉的真實硬件機器人，并通過逐步代碼優(yōu)化在短短30分鐘的訓練后解決Pong環(huán)境問題。簡而言之，《深度強化學習實踐（原書第2版）》將幫助你探索強化學習中令人興奮的復雜主題，讓你通過實例獲得經(jīng)驗和知識。通過閱讀《深度強化學習實踐（原書第2版）》，你將：了解強化學習的深度學習上下文并實現(xiàn)復雜的深度學習模型。學會評估強化學習的方法，包括交叉熵、DQN、actor-critic、TRPO、PPO、DDPG、D4PG等。學會構建經(jīng)過強化學習方法訓練的、價格低廉的硬件機器人。研究Microsoft的TextWorld環(huán)境，這是一個文字冒險游戲平臺。學會在強化學習中使用離散優(yōu)化來解決魔方問題。學會教你的智能體使用AlphaGo Zero玩四子連橫棋。探索有關AI聊天機器人等主題的較新深度強化學習技術。研究先進的探索技術，包括噪聲網(wǎng)絡和網(wǎng)絡蒸餾技術。

作者簡介

　　馬克西姆·拉潘（Maxim Lapan），一位深度學習愛好者和獨立研究者。他擁有15年軟件開發(fā)和系統(tǒng)架構經(jīng)驗，涵蓋從低級Linux內核驅動程序開發(fā)到性能優(yōu)化以及在數(shù)千臺服務器上工作的分布式應用程序設計的方方面面。他在大數(shù)據(jù)、機器學習以及大型并行分布式HPC和非HPC系統(tǒng)方面擁有豐富的工作經(jīng)驗，他能夠使用簡單的詞匯和生動的示例來解釋復雜的事物。他當前感興趣的領域包括深度學習的實際應用，例如，深度自然語言處理和深度強化學習。林然，在2016年加入Thoughtworks之后，主要擔任全棧軟件開發(fā)工程師、TechLead、算法工程師等。在技術領域，他特別擅長全棧軟件開發(fā)、端到端交付、面向對象設計、測試驅動開發(fā)、持續(xù)交付、領域驅動設計（DDD），熟悉整潔架構、微服務、DevOps、Scrum、Kanban、深度強化學習、Hadoop生態(tài)等技術和方法論。當前他在精進以重構、測試驅動開發(fā)和持續(xù)交付為核心的軟件工程能力的基礎上，正深耕于以領域驅動設計為代表的數(shù)字化架構能力、數(shù)據(jù)中臺的架構能力以及以深度強化學習為代表的機器學習解決方案。同時，他曾參與翻譯《Python機器學習手冊》。王薇，北京郵電大學碩士，現(xiàn)任Thoughtworks數(shù)據(jù)分析師。有金融、通信、醫(yī)療、娛樂等不同行業(yè)的數(shù)據(jù)類項目經(jīng)驗，精通多種數(shù)據(jù)挖掘算法，擅長將算法與業(yè)務相結合進行數(shù)據(jù)挖掘和分析。

圖書目錄

譯者序
前言
作者簡介
審校者簡介
第1章什么是強化學習
1．1 機器學習分類
1．1．1 監(jiān)督學習
1．1．2 非監(jiān)督學習
1．1．3 強化學習
1．2 強化學習的復雜性
1．3 強化學習的形式
1．3．1 獎勵
1．3．2 智能體
1．3．3 環(huán)境
1．3．4 動作
1．3．5 觀察
1．4 強化學習的理論基礎
1．4．1 馬爾可夫決策過程
1．4．2 策略
1．5 總結
第2章 OpenAIGym
2．1 剖析智能體
2．2 硬件和軟件要求
2．3 0penAIGymAPI
2．3．1 動作空間
2．3．2 觀察空間
2．3．3 環(huán)境
2．3．4 創(chuàng)建環(huán)境
2．3．5 車擺系統(tǒng)
2．4 隨機CartPole智能體
2．5 Gym的額外功能：包裝器和監(jiān)控器
2．5．1 包裝器
2．5．2 監(jiān)控器
2．6 總結
第3章使用PyTorch進行深度學習
3．1 張量
3．1．1 創(chuàng)建張量
3．1．2 零維張量
3．1．3 張量操作
3．1．4 GPU張量
3．2 梯度
3．3 NN構建塊
3．4 自定義層
3．5 最終黏合劑：損失函數(shù)和優(yōu)化器
3．5．1 損失函數(shù)
3．5．2 優(yōu)化器
3．6 使用TensorBoard進行監(jiān)控
3．6．1 TensorBOard101
3．6．2 繪圖
3．7 示例：將GAN應用于Atari圖像
3．8 PyTorchlgnite
3．9 總結
第4章交叉熵方法
4．1 RL方法的分類
4．2 交叉熵方法的實踐
4．3 交叉熵方法在CartPole中的應用
4．4 交叉熵方法在FrozenLake中的應用
4．5 交叉熵方法的理論背景
4．6 總結
第5章表格學習和Bellman方程
5．1 價值、狀態(tài)和最優(yōu)性
5．2 最佳Bellman方程
5．3 動作的價值
5．4 價值迭代法
5．5 價值迭代實踐
5．6 Q-Iearning在FrozenLake中的應用
5．7 總結
第6章深度Q．network
6．1 現(xiàn)實的價值迭代
6．2 表格Q-Iearning
6．3 深度Q-learning
6．3．1 與環(huán)境交互
6．3．2 SGD優(yōu)化
6．3．3 步驟之間的相關性
6．3．4 馬爾可夫性質
6．3．5 DQN訓練的最終形式
6．4 DQN應用于Pong游戲
6．4．1 包裝器
6．4．2 DQN模型
6．4．3 訓練
6．4．4 運行和性能
6．4．5 模型實戰(zhàn)
6．5 可以嘗試的事情
6．6 總結
第7章高級強化學習庫
7．1 為什么使用強化學習庫
7．2 PTAN庫
7．2．1 動作選擇器
7．2．2 智能體
7．2．3 經(jīng)驗源
7．2．4 經(jīng)驗回放緩沖區(qū)
7．2．5 TargetNet類
7．2．6 Ignite幫助類
7．3 PTAN版本的CartPole解決方案
7．4 其他強化學習庫
7．5 總結
第8章 DQN擴展
8．1 基礎DQN
8．1．1 通用庫
8．1．2 實現(xiàn)
8．1．3 結果
8．2 N步DQN
……
第9章加速強化學習訓練的方法
第10章使用強化學習進行股票交易
第11章策略梯度：一種替代方法
第12章 actor-critic方法
第13章 A3C
第14章使用強化學習訓練聊天機器人
第15章 TextWorld環(huán)境
第16章 Web導航
第17章連續(xù)動作空間
第18章機器人技術中的強化學習
第19章置信域：PPO、TRPO、ACKTR及SAC
第20章強化學習中的黑盒優(yōu)化