注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)

深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)

深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)

定 價(jià):¥149.00

作 者: (俄)馬克西姆·拉潘(Maxim Lapan)
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111687382 出版時(shí)間: 2021-08-01 包裝:
開本: 16開 頁數(shù): 617 字?jǐn)?shù):  

內(nèi)容簡介

  《深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)》包括新的強(qiáng)化學(xué)習(xí)工具和技術(shù),介紹了強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識,以及如何動手編寫智能體以執(zhí)行一系列實(shí)際任務(wù)。《深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)》較上一版新增6章,專門介紹了強(qiáng)化學(xué)習(xí)的新發(fā)展,包括離散優(yōu)化(解決魔方問題)、多智能體方法、Microsoft的TextWorld環(huán)境、高級探索技術(shù)等。學(xué)完《深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)》,你將對這個(gè)新興領(lǐng)域的前沿技術(shù)有深刻的理解。此外,你將獲得對深度Q-network、策略梯度方法、連續(xù)控制問題以及高度可擴(kuò)展的非梯度方法等領(lǐng)域的可行洞見,還將學(xué)會如何構(gòu)建經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練、價(jià)格低廉的真實(shí)硬件機(jī)器人,并通過逐步代碼優(yōu)化在短短30分鐘的訓(xùn)練后解決Pong環(huán)境問題。簡而言之,《深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)》將幫助你探索強(qiáng)化學(xué)習(xí)中令人興奮的復(fù)雜主題,讓你通過實(shí)例獲得經(jīng)驗(yàn)和知識。通過閱讀《深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)》,你將:了解強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)上下文并實(shí)現(xiàn)復(fù)雜的深度學(xué)習(xí)模型。學(xué)會評估強(qiáng)化學(xué)習(xí)的方法,包括交叉熵、DQN、actor-critic、TRPO、PPO、DDPG、D4PG等。學(xué)會構(gòu)建經(jīng)過強(qiáng)化學(xué)習(xí)方法訓(xùn)練的、價(jià)格低廉的硬件機(jī)器人。研究Microsoft的TextWorld環(huán)境,這是一個(gè)文字冒險(xiǎn)游戲平臺。學(xué)會在強(qiáng)化學(xué)習(xí)中使用離散優(yōu)化來解決魔方問題。學(xué)會教你的智能體使用AlphaGo Zero玩四子連橫棋。探索有關(guān)AI聊天機(jī)器人等主題的較新深度強(qiáng)化學(xué)習(xí)技術(shù)。研究先進(jìn)的探索技術(shù),包括噪聲網(wǎng)絡(luò)和網(wǎng)絡(luò)蒸餾技術(shù)。

作者簡介

  馬克西姆·拉潘(Maxim Lapan),一位深度學(xué)習(xí)愛好者和獨(dú)立研究者。他擁有15年軟件開發(fā)和系統(tǒng)架構(gòu)經(jīng)驗(yàn),涵蓋從低級Linux內(nèi)核驅(qū)動程序開發(fā)到性能優(yōu)化以及在數(shù)千臺服務(wù)器上工作的分布式應(yīng)用程序設(shè)計(jì)的方方面面。他在大數(shù)據(jù)、機(jī)器學(xué)習(xí)以及大型并行分布式HPC和非HPC系統(tǒng)方面擁有豐富的工作經(jīng)驗(yàn),他能夠使用簡單的詞匯和生動的示例來解釋復(fù)雜的事物。他當(dāng)前感興趣的領(lǐng)域包括深度學(xué)習(xí)的實(shí)際應(yīng)用,例如,深度自然語言處理和深度強(qiáng)化學(xué)習(xí)。林然,在2016年加入Thoughtworks之后,主要擔(dān)任全棧軟件開發(fā)工程師、TechLead、算法工程師等。在技術(shù)領(lǐng)域,他特別擅長全棧軟件開發(fā)、端到端交付、面向?qū)ο笤O(shè)計(jì)、測試驅(qū)動開發(fā)、持續(xù)交付、領(lǐng)域驅(qū)動設(shè)計(jì)(DDD),熟悉整潔架構(gòu)、微服務(wù)、DevOps、Scrum、Kanban、深度強(qiáng)化學(xué)習(xí)、Hadoop生態(tài)等技術(shù)和方法論。當(dāng)前他在精進(jìn)以重構(gòu)、測試驅(qū)動開發(fā)和持續(xù)交付為核心的軟件工程能力的基礎(chǔ)上,正深耕于以領(lǐng)域驅(qū)動設(shè)計(jì)為代表的數(shù)字化架構(gòu)能力、數(shù)據(jù)中臺的架構(gòu)能力以及以深度強(qiáng)化學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)解決方案。同時(shí),他曾參與翻譯《Python機(jī)器學(xué)習(xí)手冊》。王薇,北京郵電大學(xué)碩士,現(xiàn)任Thoughtworks數(shù)據(jù)分析師。有金融、通信、醫(yī)療、娛樂等不同行業(yè)的數(shù)據(jù)類項(xiàng)目經(jīng)驗(yàn),精通多種數(shù)據(jù)挖掘算法,擅長將算法與業(yè)務(wù)相結(jié)合進(jìn)行數(shù)據(jù)挖掘和分析。

圖書目錄

譯者序
前言
作者簡介
審校者簡介
第1章 什么是強(qiáng)化學(xué)習(xí)
1.1 機(jī)器學(xué)習(xí)分類
1.1.1 監(jiān)督學(xué)習(xí)
1.1.2 非監(jiān)督學(xué)習(xí)
1.1.3 強(qiáng)化學(xué)習(xí)
1.2 強(qiáng)化學(xué)習(xí)的復(fù)雜性
1.3 強(qiáng)化學(xué)習(xí)的形式
1.3.1 獎勵(lì)
1.3.2 智能體
1.3.3 環(huán)境
1.3.4 動作
1.3.5 觀察
1.4 強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)
1.4.1 馬爾可夫決策過程
1.4.2 策略
1.5 總結(jié)
第2章 OpenAIGym
2.1 剖析智能體
2.2 硬件和軟件要求
2.3 0penAIGymAPI
2.3.1 動作空間
2.3.2 觀察空間
2.3.3 環(huán)境
2.3.4 創(chuàng)建環(huán)境
2.3.5 車擺系統(tǒng)
2.4 隨機(jī)CartPole智能體
2.5 Gym的額外功能:包裝器和監(jiān)控器
2.5.1 包裝器
2.5.2 監(jiān)控器
2.6 總結(jié)
第3章 使用PyTorch進(jìn)行深度學(xué)習(xí)
3.1 張量
3.1.1 創(chuàng)建張量
3.1.2 零維張量
3.1.3 張量操作
3.1.4 GPU張量
3.2 梯度
3.3 NN構(gòu)建塊
3.4 自定義層
3.5 最終黏合劑:損失函數(shù)和優(yōu)化器
3.5.1 損失函數(shù)
3.5.2 優(yōu)化器
3.6 使用TensorBoard進(jìn)行監(jiān)控
3.6.1 TensorBOard101
3.6.2 繪圖
3.7 示例:將GAN應(yīng)用于Atari圖像
3.8 PyTorchlgnite
3.9 總結(jié)
第4章 交叉熵方法
4.1 RL方法的分類
4.2 交叉熵方法的實(shí)踐
4.3 交叉熵方法在CartPole中的應(yīng)用
4.4 交叉熵方法在FrozenLake中的應(yīng)用
4.5 交叉熵方法的理論背景
4.6 總結(jié)
第5章 表格學(xué)習(xí)和Bellman方程
5.1 價(jià)值、狀態(tài)和最優(yōu)性
5.2 最佳Bellman方程
5.3 動作的價(jià)值
5.4 價(jià)值迭代法
5.5 價(jià)值迭代實(shí)踐
5.6 Q-Iearning在FrozenLake中的應(yīng)用
5.7 總結(jié)
第6章 深度Q.network
6.1 現(xiàn)實(shí)的價(jià)值迭代
6.2 表格Q-Iearning
6.3 深度Q-learning
6.3.1 與環(huán)境交互
6.3.2 SGD優(yōu)化
6.3.3 步驟之間的相關(guān)性
6.3.4 馬爾可夫性質(zhì)
6.3.5 DQN訓(xùn)練的最終形式
6.4 DQN應(yīng)用于Pong游戲
6.4.1 包裝器
6.4.2 DQN模型
6.4.3 訓(xùn)練
6.4.4 運(yùn)行和性能
6.4.5 模型實(shí)戰(zhàn)
6.5 可以嘗試的事情
6.6 總結(jié)
第7章 高級強(qiáng)化學(xué)習(xí)庫
7.1 為什么使用強(qiáng)化學(xué)習(xí)庫
7.2 PTAN庫
7.2.1 動作選擇器
7.2.2 智能體
7.2.3 經(jīng)驗(yàn)源
7.2.4 經(jīng)驗(yàn)回放緩沖區(qū)
7.2.5 TargetNet類
7.2.6 Ignite幫助類
7.3 PTAN版本的CartPole解決方案
7.4 其他強(qiáng)化學(xué)習(xí)庫
7.5 總結(jié)
第8章 DQN擴(kuò)展
8.1 基礎(chǔ)DQN
8.1.1 通用庫
8.1.2 實(shí)現(xiàn)
8.1.3 結(jié)果
8.2 N步DQN
……
第9章 加速強(qiáng)化學(xué)習(xí)訓(xùn)練的方法
第10章 使用強(qiáng)化學(xué)習(xí)進(jìn)行股票交易
第11章 策略梯度:一種替代方法
第12章 actor-critic方法
第13章 A3C
第14章 使用強(qiáng)化學(xué)習(xí)訓(xùn)練聊天機(jī)器人
第15章 TextWorld環(huán)境
第16章 Web導(dǎo)航
第17章 連續(xù)動作空間
第18章 機(jī)器人技術(shù)中的強(qiáng)化學(xué)習(xí)
第19章 置信域:PPO、TRPO、ACKTR及SAC
第20章 強(qiáng)化學(xué)習(xí)中的黑盒優(yōu)化

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號