第 一部分 基礎篇
第 1章 什么是強化學習 3
1.1 深度強化學習中的“深度” 4
1.2 強化學習 5
1.3 動態(tài)規(guī)劃與蒙特卡洛 7
1.4 強化學習框架 9
1.5 強化學習可以做什么 12
1.6 為什么是深度強化學習 14
1.7 教學工具:線圖 15
1.8 后續(xù)內容概述 17
小結 18
第 2章 強化學習問題建模: 馬爾可夫決策過程 19
2.1 線圖與本書的教學方法 19
2.2 解決多臂老虎機問題 22
2.2.1 探索與利用 23
2.2.2 貪婪策略 24
2.2.3 Softmax選擇策略 29
2.3 應用老虎機算法優(yōu)化廣告投放 31
2.3.1 上下文老虎機 31
2.3.2 狀態(tài)、動作和獎勵 32
2.4 利用PyTorch構建網絡 33
2.4.1 自動微分 33
2.4.2 構建模型 34
2.5 解決上下文老虎機問題 35
2.6 馬爾可夫性質 39
2.7 預測未來獎勵:價值和策略函數(shù) 41
2.7.1 策略函數(shù) 42
2.7.2 最優(yōu)策略 43
2.7.3 價值函數(shù) 43
小結 44
第3章 預測最佳狀態(tài)和動作: 深度Q網絡 46
3.1 Q函數(shù) 46
3.2 Q-learning導航 47
3.2.1 Q-learning是什么 48
3.2.2 應用于Gridworld游戲 49
3.2.3 超參數(shù) 50
3.2.4 貼現(xiàn)因子 50
3.2.5 構建網絡 52
3.2.6 介紹Gridworld游戲引擎 53
3.2.7 構建Q函數(shù)的神經網絡 55
3.3 防止災難性遺忘:經驗回放 64
3.3.1 災難性遺忘 64
3.3.2 經驗回放 65
3.4 利用目標網絡提高穩(wěn)定性 69
學習的不穩(wěn)定性 70
3.5 回顧 74
小結 76
第4章 學習選擇最佳策略:策略梯度法 77
4.1 使用神經網絡的策略函數(shù) 77
4.1.1 神經網絡作為策略函數(shù) 78
4.1.2 隨機策略梯度 78
4.1.3 探索 80
4.2 強化良好動作:策略梯度算法 81
4.2.1 定義目標 81
4.2.2 強化動作 82
4.2.3 對數(shù)概率 84
4.2.4 信用分配 84
4.3 與OpenAI Gym配合 85
4.3.1 CartPole 87
4.3.2 OpenAI Gym API 87
4.4 REINFORCE算法 88
4.4.1 創(chuàng)建策略網絡 88
4.4.2 使智能體與環(huán)境交互 89
4.4.3 訓練模型 89
4.4.4 完整訓練循環(huán) 91
4.4.5 所得到的結論 93
小結 93
第5章 利用演員-評論家算法 解決更復雜的問題 94
5.1 重構價值-策略函數(shù) 95
5.2 分布式訓練 99
5.3 演員-評論家優(yōu)勢算法 104
5.4 N-step演員-評論家算法 112
小結 116
第二部分 進階篇
第6章 可替代的優(yōu)化方法: 進化算法 119
6.1 另一種強化學習方法 119
6.2 具有進化策略的強化學習 121
6.2.1 進化理論 121
6.2.2 進化實踐 123
6.3 CartPole的遺傳算法 128
6.4 進化算法的優(yōu)缺點 134
6.4.1 進化算法探索更多 134
6.4.2 進化算法令人難以置信的樣本密集性 134
6.4.3 模擬器 135
6.5 進化算法作為一種可擴展的替代方案 135
6.5.1 擴展的進化算法 135
6.5.2 并行與串行處理 137
6.5.3 擴展效率 138
6.5.4 節(jié)點間通信 138
6.5.5 線性擴展 140
6.5.6 擴展基于梯度的算法 140
小結 141
第7章 Dist-DQN:獲取完整故事 142
7.1 Q-learning存在的問題 143
7.2 再論概率統(tǒng)計 147
7.2.1 先驗和后驗 148
7.2.2 期望和方差 149
7.3 貝爾曼方程 153
分布式貝爾曼方程 153
7.4 分布式Q-learning 154
7.4.1 使用Python表示概率分布 154
7.4.2 實現(xiàn)Dist-DQN 162
7.5 比較概率分布 164
7.6 模擬數(shù)據(jù)上的Dist-DQN 167
7.7 使用分布式Q-learning玩Freeway 172
小結 177
第8章 好奇心驅動的 探索 178
8.1 利用預測編碼處理稀疏獎勵 179
8.2 反向動態(tài)預測 182
8.3 搭建《超級馬里奧兄弟》環(huán)境 184
8.4 預處理和Q網絡 186
8.5 創(chuàng)建Q網絡和策略函數(shù) 188
8.6 內在好奇心模塊 191
8.7 可替代的內在獎勵機制 203
小結 205
第9章 多智能體強化 學習 206
9.1 從單個到多個智能體 206
9.2 鄰域Q-learning 210
9.3 一維伊辛模型 213
9.4 平均場Q-learning和二維伊辛模型 221
9.5 混合合作競技游戲 230
小結 239
第 10章 強化學習可解釋性: 注意力和關系 模型 241
10.1 帶注意力和關系偏差的 機器學習可解釋性 242
不變性和等變性 243
10.2 利用注意力進行關系 推理 244
10.2.1 注意力模型 245
10.2.2 關系推理 246
10.2.3 自注意力模型 251
10.3 對MNIST實現(xiàn) 自注意力 253
10.3.1 轉換的MNIST 254
10.3.2 關系模塊 255
10.3.3 張量縮并和愛因斯坦 標記法 258
10.3.4 訓練關系模塊 261
10.4 多頭注意力和 關系DQN 264
10.5 雙Q-learning 270
10.6 訓練和注意力 可視化 271
10.6.1 最大熵學習 275
10.6.2 課程學習 275
10.6.3 可視化注意力權重 276
小結 278
第 11章 總結:回顧和 路線圖 280
11.1 我們學到了什么 280
11.2 深度強化學習中的 未知課題 282
11.2.1 優(yōu)先經驗回放 282
11.2.2 近端策略優(yōu)化 282
11.2.3 分層強化學習和 options框架 283
11.2.4 基于模型的規(guī)劃 283
11.2.5 蒙特卡洛樹搜索 284
全書結語 284
附錄A 數(shù)學、深度學習和
PyTorch 285
A.1 線性代數(shù) 285
A.2 微積分 287
A.3 深度學習 290
A.4 PyTorch 291
參考資料 295