注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)人工智能增強學(xué)習(xí)與近似動態(tài)規(guī)劃

增強學(xué)習(xí)與近似動態(tài)規(guī)劃

增強學(xué)習(xí)與近似動態(tài)規(guī)劃

定 價:¥45.00

作 者: 徐昕 著
出版社: 科學(xué)出版社
叢編項: 智能科學(xué)技術(shù)著作叢書
標(biāo) 簽: 人工智能

ISBN: 9787030275653 出版時間: 2010-05-01 包裝: 平裝
開本: 16開 頁數(shù): 212 字數(shù):  

內(nèi)容簡介

  《增強學(xué)習(xí)與近似動態(tài)規(guī)劃》對增強學(xué)習(xí)與近似動態(tài)規(guī)劃的理論、算法及應(yīng)用進行了深入研究和論述。主要內(nèi)容包括:求解Markov鏈學(xué)習(xí)預(yù)測問題的時域差值學(xué)習(xí)算法和理論,求解連續(xù)空間Markov決策問題的梯度增強學(xué)習(xí)算法以及進化一梯度混合增強學(xué)習(xí)算法,基于核的近似動態(tài)規(guī)劃算法,增強學(xué)習(xí)在移動機器人導(dǎo)航與控制中的應(yīng)用等。《增強學(xué)習(xí)與近似動態(tài)規(guī)劃》是作者在多個國家自然科學(xué)基金項目資助下取得的研究成果的總結(jié),意在推動增強學(xué)習(xí)與近似動態(tài)規(guī)劃理論與應(yīng)用的發(fā)展,對于智能科學(xué)的前沿研究和智能學(xué)習(xí)系統(tǒng)的應(yīng)用具有重要的科學(xué)意義?!对鰪妼W(xué)習(xí)與近似動態(tài)規(guī)劃》可作為高等院校與科研院所中從事人工智能與智能信息處理、機器人與智能控制、智能決策支持系統(tǒng)等專業(yè)領(lǐng)域的研究和教學(xué)用書,也可作為自動化、計算機與管理學(xué)領(lǐng)域其他相關(guān)專業(yè)師生及科研人員的參考書。

作者簡介

暫缺《增強學(xué)習(xí)與近似動態(tài)規(guī)劃》作者簡介

圖書目錄

《智能科學(xué)技術(shù)著作叢書》序
前言
第1章 緒論
1.1 引言
1.2 增強學(xué)習(xí)與近似動態(tài)規(guī)劃的研究概況
1.2.1 增強學(xué)習(xí)研究的相關(guān)學(xué)科背景
1.2.2 增強學(xué)習(xí)算法的研究進展
1.2.3 增強學(xué)習(xí)的泛化方法與近似動態(tài)規(guī)劃
1.2.4 增強學(xué)習(xí)相關(guān)理論研究與多Agent增強學(xué)習(xí)
1.2.5 增強學(xué)習(xí)應(yīng)用的研究進展
1.3 移動機器人導(dǎo)航控制方法的研究現(xiàn)狀和發(fā)展趨勢
1.3.1 移動機器人體系結(jié)構(gòu)的研究進展
1.3.2 移動機器人反應(yīng)式導(dǎo)航方法的研究概況
1.3.3 移動機器人路徑跟蹤控制的研究概況
1.4 全書的組織結(jié)構(gòu)
參考文獻
第2章 線性時域差值學(xué)習(xí)理論與算法
2.1 Markov鏈與多步學(xué)習(xí)預(yù)測問題
2.1.1 Markov鏈的基礎(chǔ)理論
2.1.2 基于Markov鏈的多步學(xué)習(xí)預(yù)測問題
2.2 TD(λ)學(xué)習(xí)算法
2.2.1 表格型TD(λ)學(xué)習(xí)算法
2.2.2 基于值函數(shù)逼近的TD(λ)學(xué)習(xí)算法
2.3 多步遞推最小二乘TD學(xué)習(xí)算法及其收斂性理論
2.3.1 多步遞推最小二乘TD(RLS-TD(λ)學(xué)習(xí)算法
2.3.2 RLS-TD(λ)學(xué)習(xí)算法的一致收斂性分析
2.4 多步學(xué)習(xí)預(yù)測的仿真研究
2.4.1 HlopWorld問題學(xué)習(xí)預(yù)測仿真
2.4.2 連續(xù)狀態(tài)隨機行走問題的學(xué)習(xí)預(yù)測仿真
2.5 小結(jié)
參考文獻
第3章 基于核的時域差值學(xué)習(xí)算法
3.1 核方法與基于核的學(xué)習(xí)機器
3.1.1 核函數(shù)的概念與性質(zhì)
3.1.2 再生核Hilbert空間與核函數(shù)方法
3.2 核最小二乘時域差值學(xué)習(xí)算法
3.2.1 線性TD(λ)學(xué)習(xí)算法
3.2.2 KLS-TD(λ)學(xué)習(xí)算法
3.2.3 學(xué)習(xí)預(yù)測實驗與比較
3.3 小結(jié)
參考文獻
第4章 求解Markov決策問題的梯度增強學(xué)習(xí)算法
4.1 Markov決策過程與表格型增強學(xué)習(xí)算法
4.1.1 Markov決策過程及其最優(yōu)值函數(shù)
4.1.2 表格型增強學(xué)習(xí)算法及其收斂性理論
4.2 基于改進CMAC的直接梯度增強學(xué)習(xí)算法
4.2.1 CMAC的結(jié)構(gòu)
4.2.2 基于C2MAC的直接梯度增強學(xué)習(xí)算法
4.2.3 兩種改進的C2MAC編碼結(jié)構(gòu)及其應(yīng)用實例
4.3 基于值函數(shù)逼近的殘差梯度增強學(xué)習(xí)算法
4.3.1 多層前饋神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器與已有的梯度增強學(xué)習(xí)算法
4.3.2 非平穩(wěn)策略殘差梯度(RGNP)增強學(xué)習(xí)算法
4.3.3 RGNP學(xué)習(xí)算法的收斂性和近似最優(yōu)策略性能的理論分析
4.3.4 Mountain-Car問題的仿真研究
4.3.5 Acrobot學(xué)習(xí)控制的仿真研究
4.4 求解連續(xù)行為空間Markov決策問題的快速AHC學(xué)習(xí)算法
4.4.1 AHC學(xué)習(xí)算法與Actor-Critic學(xué)習(xí)控制結(jié)構(gòu)
4.4.2 Fast-AHC學(xué)習(xí)算法
4.4.3 連續(xù)控制量條件下的倒立擺學(xué)習(xí)控制仿真研究
4.4.4 連續(xù)控制量條件下Acrobot系統(tǒng)的學(xué)習(xí)控制
4.5 小結(jié)
參考文獻
第5章 求解Markov決策問題的進化-梯度混合增強學(xué)習(xí)算法
5.1 進化計算的基本原理和方法
5.1.1 進化計算的基本原理和算法框架
5.1.2 進化算法的基本要素
5.1.3 進化算法的控制參數(shù)和性能評估
5.2 求解離散行為空間MDP的進化-梯度混合算法
5.2.1 HERG算法的設(shè)計要點
5.2.2 HERG算法的流程
5.2.3 HtERG算法的應(yīng)用實例:Mountain-Car學(xué)習(xí)控制問題
5.2.4 Acrobot系統(tǒng)的進化增強學(xué)習(xí)仿真
5.3 求解連續(xù)行為空間MDP的進化-梯度混合增強學(xué)習(xí)算法
5.3.1 進化AHC算法
5.3.2 連續(xù)控制量條件下Acrobot系統(tǒng)的進化增強學(xué)習(xí)仿真
5.4 小結(jié)
參考文獻
第6章 基于核的近似動態(tài)規(guī)劃算法與理論
6.1 增強學(xué)習(xí)與近似動態(tài)規(guī)劃的若干核心問題
6.2 基于核的近似策略迭代算法與收斂性理論
6.2.1 策略迭代與TD學(xué)習(xí)算法
6.2.2 核策略迭代算法KLSPI的基本框架
6.2.3 采用核稀疏化技術(shù)的KLSTD-Q時域差值算法
6.2.4 KLSPI算法的收斂性分析
6.3 核策略迭代算法的性能測試實驗研究
6.3.1 具有20個狀態(tài)的隨機Markov鏈問題
6.3.2 具有50個狀態(tài)的隨機Markov決策問題
6.3.3 隨機倒立擺學(xué)習(xí)控制問題
6.4 小結(jié)
參考文獻
第7章 基于增強學(xué)習(xí)的移動機器人反應(yīng)式導(dǎo)航方法
7.1 基于分層學(xué)習(xí)的移動機器人混合式體系結(jié)構(gòu)
7.2 基于增強學(xué)習(xí)的移動機器人反應(yīng)式導(dǎo)航體系結(jié)構(gòu)與算法
7.2.1 未知環(huán)境中移動機器人導(dǎo)航混合式體系結(jié)構(gòu)的具體設(shè)計
7.2.2 基于神經(jīng)網(wǎng)絡(luò)增強學(xué)習(xí)的反應(yīng)式導(dǎo)航算法
7.3 移動機器人增強學(xué)習(xí)導(dǎo)航的仿真和實驗研究
7.3.1 CIT-AVT-VI移動機器人平臺的傳感器系統(tǒng)與仿真實驗環(huán)境
7.3.2 增強學(xué)習(xí)導(dǎo)航的仿真研究
7.3.3 CIT-AVT-VI移動機器人的實時學(xué)習(xí)導(dǎo)航控制實驗
7.4 小結(jié)
參考文獻
第8章 RL與ADP在移動機器人運動控制中的應(yīng)用
8.1 基于增強學(xué)習(xí)的自適應(yīng)PID控制器
8.2 自動駕駛汽車的側(cè)向增強學(xué)習(xí)控制
8.2.1 自動駕駛汽車的動力學(xué)模型
8.2.2 用于自動駕駛汽車側(cè)向控制的增強學(xué)習(xí)PID控制器設(shè)計
8.2.3 自動駕駛汽車直線路徑跟蹤仿真
8.3 基于在線增強學(xué)習(xí)的室內(nèi)移動機器人路徑跟蹤控制
8.3.1 一類室內(nèi)移動機器人系統(tǒng)的運動學(xué)和動力學(xué)模型
8.3.2 增強學(xué)習(xí)路徑跟蹤控制器設(shè)計
8.3.3 參考路徑為直線時的仿真研究
8.3.4 參考路徑為圓弧時的仿真研究
8.3.5 CIT-AVT-VI移動機器人實時在線學(xué)習(xí)路徑跟蹤實驗
8.4 采用近似策略迭代的移動機器人學(xué)習(xí)控制方法研究
8.4.1 基于近似策略迭代的學(xué)習(xí)控制方法與仿真研究
8.4.2 基于P3-AT平臺的學(xué)習(xí)控制器設(shè)計
8.4.3 直線跟隨實驗
8.4.4 曲線跟隨實驗
8.5 小結(jié)
參考文獻
第9章 總結(jié)與展望

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號