注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計強化學(xué)習(xí):原理與Python實現(xiàn)

強化學(xué)習(xí):原理與Python實現(xiàn)

強化學(xué)習(xí):原理與Python實現(xiàn)

定 價:¥89.00

作 者: 肖智清 著
出版社: 機械工業(yè)出版社
叢編項: 智能系統(tǒng)與技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111631774 出版時間: 2019-07-01 包裝: 平裝
開本: 16開 頁數(shù): 239 字?jǐn)?shù):  

內(nèi)容簡介

  全書分為三個部分。第壹部分了解強化學(xué)習(xí)應(yīng)用,了解強化學(xué)習(xí)基本知識,搭建強化學(xué)習(xí)測試環(huán)境。該部分包括:強化學(xué)習(xí)的概況、強化學(xué)習(xí)簡單示例、強化學(xué)習(xí)算法的常見思想、強化學(xué)習(xí)的應(yīng)用、強化學(xué)習(xí)測試環(huán)境的搭建。第二部分介紹強化學(xué)習(xí)理論與深度強化學(xué)習(xí)算法。強化學(xué)習(xí)理論部分:Markov決策過程的數(shù)學(xué)描述、Monte Carlo方法和時序差分方法的數(shù)學(xué)理論;深度強化學(xué)習(xí)算法部分:詳細(xì)剖析全部具有重要影響力的深度強化學(xué)習(xí)算法,結(jié)合TensorFlow實現(xiàn)源碼。第三部分介紹強化學(xué)習(xí)綜合應(yīng)用案例。

作者簡介

  肖智清強化學(xué)習(xí)一線研發(fā)人員,清華大學(xué)工學(xué)博士,現(xiàn)就職于全球知名投資銀行。擅長概率統(tǒng)計和機器學(xué)習(xí),近5年發(fā)表SCI/EI論文十余篇,是多個國際性知名期刊和會議審稿人。在國內(nèi)外多項程序設(shè)計和數(shù)據(jù)科學(xué)競賽上獲得冠軍。

圖書目錄

前言
第1章 初識強化學(xué)習(xí) 1
1.1 強化學(xué)習(xí)及其關(guān)鍵元素 1
1.2 強化學(xué)習(xí)的應(yīng)用 3
1.3 智能體/環(huán)境接口 4
1.4 強化學(xué)習(xí)的分類 6
1.4.1 按任務(wù)分類 6
1.4.2 按算法分類 7
1.5 如何學(xué)習(xí)強化學(xué)習(xí) 8
1.5.1 學(xué)習(xí)路線 9
1.5.2 學(xué)習(xí)資源 9
1.6 案例:基于Gym庫的智能體/環(huán)境交互 9
1.6.1 安裝Gym庫 10
1.6.2 使用Gym庫 10
1.6.3 小車上山 12
1.7 本章小結(jié) 14
第2章 Markov決策過程 16
2.1 Markov決策過程模型 16
2.1.1 離散時間Markov決策過程 16
2.1.2 環(huán)境與動力 18
2.1.3 智能體與策略 19
2.1.4 獎勵、回報與價值函數(shù) 19
2.2 Bellman期望方程 21
2.3 最優(yōu)策略及其性質(zhì) 25
2.3.1 最優(yōu)策略與最優(yōu)價值函數(shù) 25
2.3.2 Bellman最優(yōu)方程 25
2.3.3 用Bellman最優(yōu)方程求解最優(yōu)策略 29
2.4 案例:懸崖尋路 31
2.4.1 實驗環(huán)境使用 31
2.4.2 求解Bellman期望方程 32
2.4.3 求解Bellman最優(yōu)方程 33
2.5 本章小結(jié) 35
第3章 有模型數(shù)值迭代 37
3.1 度量空間與壓縮映射 37
3.1.1 度量空間及其完備性 37
3.1.2 壓縮映射與Bellman算子 38
3.1.3 Banach不動點定理 39
3.2 有模型策略迭代 40
3.2.1 策略評估 40
3.2.2 策略改進 42
3.2.3 策略迭代 44
3.3 有模型價值迭代 45
3.4 動態(tài)規(guī)劃 46
3.4.1 從動態(tài)規(guī)劃看迭代算法 46
3.4.2 異步動態(tài)規(guī)劃 47
3.5 案例:冰面滑行 47
3.5.1 實驗環(huán)境使用 48
3.5.2 有模型策略迭代求解 49
3.5.3 有模型價值迭代求解 51
3.6 本章小結(jié) 52
第4章 回合更新價值迭代 54
4.1 同策回合更新 54
4.1.1 同策回合更新策略評估 54
4.1.2 帶起始探索的同策回合更新 58
4.1.3 基于柔性策略的同策回合更新 60
4.2 異策回合更新 62
4.2.1 重要性采樣 62
4.2.2 異策回合更新策略評估 64
4.2.3 異策回合更新最優(yōu)策略求解 65
4.3 案例:21點游戲 66
4.3.1 實驗環(huán)境使用 66
4.3.2 同策策略評估 67
4.3.3 同策最優(yōu)策略求解 70
4.3.4 異策策略評估 72
4.3.5 異策最優(yōu)策略求解 73
4.4 本章小結(jié) 74
第5章 時序差分價值迭代 76
5.1 同策時序差分更新 76
5.1.1 時序差分更新策略評估 78
5.1.2 SARSA算法 81
5.1.3 期望SARSA算法 83
5.2 異策時序差分更新 85
5.2.1 基于重要性采樣的異策算法 85
5.2.2 Q學(xué)習(xí) 86
5.2.3 雙重Q學(xué)習(xí) 87
5.3 資格跡 89
5.3.1 λ回報 89
5.3.2 TD(λ) 90
5.4 案例:出租車調(diào)度 92
5.4.1 實驗環(huán)境使用 93
5.4.2 同策時序差分學(xué)習(xí)調(diào)度 94
5.4.3 異策時序差分學(xué)習(xí)調(diào)度 97
5.4.4 資格跡學(xué)習(xí)調(diào)度 99
5.5 本章小結(jié) 100
第6章 函數(shù)近似方法 101
6.1 函數(shù)近似原理 101
6.1.1 隨機梯度下降 101
6.1.2 半梯度下降 103
6.1.3 帶資格跡的半梯度下降 105
6.2 線性近似 107
6.2.1 精確查找表與線性近似的關(guān)系 107
6.2.2 線性最小二乘策略評估 107
6.2.3 線性最小二乘最優(yōu)策略求解 109
6.3 函數(shù)近似的收斂性 109
6.4 深度Q學(xué)習(xí) 110
6.4.1 經(jīng)驗回放 111
6.4.2 帶目標(biāo)網(wǎng)絡(luò)的深度Q學(xué)習(xí) 112
6.4.3 雙重深度Q網(wǎng)絡(luò) 114
6.4.4 對偶深度Q網(wǎng)絡(luò) 114
6.5 案例:小車上山 115
6.5.1 實驗環(huán)境使用 116
6.5.2 用線性近似求解最優(yōu)策略 117
6.5.3 用深度Q學(xué)習(xí)求解最優(yōu)策略 120
6.6 本章小結(jié) 123
第7章 回合更新策略梯度方法 125
7.1 策略梯度算法的原理 125
7.1.1 函數(shù)近似與動作偏好 125
7.1.2 策略梯度定理 126
7.2 同策回合更新策略梯度算法 128
7.2.1 簡單的策略梯度算法 128
7.2.2 帶基線的簡單策略梯度算法 129
7.3 異策回合更新策略梯度算法 131
7.4 策略梯度更新和極大似然估計的關(guān)系 132
7.5 案例:車桿平衡 132
7.5.1 同策策略梯度算法求解最優(yōu)策略 133
7.5.2 異策策略梯度算法求解最優(yōu)策略 135
7.6 本章小結(jié) 137
第8章 執(zhí)行者/評論者方法 139
8.1 同策執(zhí)行者/評論者算法 139
8.1.1 動作價值執(zhí)行者/評論者算法 140
8.1.2 優(yōu)勢執(zhí)行者/評論者算法 141
8.1.3 帶資格跡的執(zhí)行者/評論者算法 143
8.2 基于代理優(yōu)勢的同策算法 143
8.2.1 代理優(yōu)勢 144
8.2.2 鄰近策略優(yōu)化 145
8.3 信任域算法 146
8.3.1 KL散度 146
8.3.2 信任域 147
8.3.3 自然策略梯度算法 148
8.3.4 信任域策略優(yōu)化 151
8.3.5 Kronecker因子信任域執(zhí)行者/評論者算法 152
8.4 重要性采樣異策執(zhí)行者/評論者算法 153
8.4.1 基本的異策算法 154
8.4.2 帶經(jīng)驗回放的異策算法 154
8.5 柔性執(zhí)行者/評論者算法 157
8.5.1 熵 157
8.5.2 獎勵工程和帶熵的獎勵 158
8.5.3 柔性執(zhí)行者/評論者的網(wǎng)絡(luò)設(shè)計 159
8.6 案例:雙節(jié)倒立擺 161
8.6.1 同策執(zhí)行者/評論者算法求解最優(yōu)策略 162
8.6.2 異策執(zhí)行者/評論者算法求解最優(yōu)策略 168
8.7 本章小結(jié) 170
第9章 連續(xù)動作空間的確定性策略 172
9.1 同策確定性算法 172
9.

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號