123,123

內(nèi)容簡介

　　馬爾可夫決策過程是研究隨機環(huán)境下多階段決策過程優(yōu)化問題的理論工具，在過去的幾十年中，隨著生態(tài)科學、經(jīng)濟理論、通訊工程以及眾多學科中需要考慮不確定因素和序列決策問題的大量新模型的涌現(xiàn)，進一步刺激了馬爾可夫決策過程在理論上和應(yīng)用領(lǐng)域中長足發(fā)展。本書從簡單的例子開始，介紹了馬爾可夫決策過程的基本概念、決策過程以及一些常用的基本理論。還介紹了多種最優(yōu)準則，包括有限階段準則、折扣準則、平均準則、權(quán)重報酬準則、概率準則等。從模型角度考慮了有限狀態(tài)空間、可數(shù)狀態(tài)空間和一般Borel狀態(tài)空間；從決策時間上來說，考慮了離散時間、連續(xù)時間和半馬氏決策時刻問題。本文還介紹了大量的應(yīng)用實例以及建模方法。本書可作為高年級大學和研究生教材，也可作為運籌學、管理科學、信息科學、系統(tǒng)科學以及計算機科學和工程領(lǐng)域的學者和技術(shù)人員的參考書。

作者簡介

暫缺《馬爾可夫決策過程引論》作者簡介

圖書目錄

第1章引論(1)
1.1離散時間馬爾可夫決策過程模型(1)
1.2報酬過程與準則函數(shù)(2)
1.3歷史(6)
參考文獻(7)
第2章有限階段(10)
2.1有限階段最優(yōu)方程(10)
2.2應(yīng)用(13)
2.2.1序貫投資問題(13)
2.2.2秘書選擇問題(15)
2.3模函數(shù)與單調(diào)策略(16)
文獻注釋(22)
參考文獻(22)
第3章折扣準則(23)
3.1折扣最優(yōu)方程(23)
3.1.1無界報酬條件及目標函數(shù)的存在性(23)
3.1.2最優(yōu)方程(26)
3.2(ε)最優(yōu)策略的性質(zhì)和結(jié)構(gòu)(30)
3.2.1最優(yōu)策略的性質(zhì)和結(jié)構(gòu)(30)
3.2.2ε最優(yōu)策略的性質(zhì)和結(jié)構(gòu)(33)
3.3逐次逼近法與策略迭代法(35)
3.3.1逐次逼近法(35)
3.3.2策略迭代法(40)
3.3.3策略迭代-逐次逼近法(41)
3.4線性規(guī)劃法(45)
3.5狀態(tài)逼近法(47)
3.6Blackwell最優(yōu)準則(52)
3.6.1羅朗級數(shù)展開(52)
3.6.2求Blackwell最優(yōu)策略的策略迭代法(54)
3.7非可數(shù)決策集(56)
文獻注釋(58)
參考文獻(59)
第4章總報酬準則(62)
4.1模型縮減(62)
4.2報酬函數(shù)和準則函數(shù)的有限性(63)
4.2.1報酬函數(shù)的有限性(64)
4.2.2最優(yōu)值函數(shù)的有限性及最優(yōu)方程(66)
4.3充分條件(69)
4.4最優(yōu)方程與(ε)最優(yōu)策略(72)
4.5逐次逼近法(76)
文獻注釋(77)
參考文獻(77)
第5章平均準則(78)
5.1引言和反例(78)
5.2平均準則最優(yōu)方程(82)
5.2.1平均準則最優(yōu)方程與(ε)最優(yōu)策略(82)
5.2.2常返性條件(86)
5.2.3轉(zhuǎn)換為折扣準則(88)
5.3多鏈馬爾可夫決策過程(89)
5.3.1最優(yōu)方程系(89)
5.3.2典型三重組(90)
5.4策略迭代法(97)
5.5逐次逼近法(101)
5.5.1基于最優(yōu)方程的逐次逼近法(101)
5.5.2基于最優(yōu)方程系的逐次逼近法(104)
5.6線性規(guī)劃法(108)
5.7最優(yōu)不等式(112)
文獻注釋(120)
參考文獻(122)
第6章半馬爾可夫決策過程(125)
6.1半馬爾可夫決策過程模型(125)
6.1.1模型(125)
6.1.2正則性條件(126)
6.1.3準則函數(shù)(129)
6.2轉(zhuǎn)換為離散時間馬爾可夫決策過程(132)
6.2.1期望折扣總報酬準則(132)
6.2.2平均準則(132)
6.2.3馬爾可夫型半馬爾可夫決策過程(138)
文獻注釋(139)
參考文獻(140)
第七章連續(xù)時間馬爾可夫決策過程(141)
7.1連續(xù)時間馬爾可夫決策過程模型(141)
7.2期望折扣總報酬準則(144)
7.3平均準則(149)
7.4非平穩(wěn)期望總報酬準則(151)
文獻注釋(158)
參考文獻(158)
第8章一般化馬爾可夫決策過程(160)
8.1狀態(tài)部分可觀察的馬爾可夫決策過程(160)
8.1.1模型(160)
8.1.2折扣準則(161)
8.1.3有限階段(166)
8.2約束馬爾可夫決策過程(169)
8.2.1單約束(169)
8.2.2多約束(173)
8.2.3哈密爾頓圈(177)
8.3多目標馬爾可夫決策過程(180)
8.3.1折扣準則(181)
8.3.2折扣與平均的加權(quán)準則(186)
8.4攝動馬爾可夫決策過程(190)
8.4.1攝動的非平穩(wěn)平均準則馬爾可夫決策過程(191)
8.4.2攝動的連續(xù)時間折扣準則馬爾可夫決策過程(197)
文獻注釋(199)
參考文獻(201)
第9章隨機環(huán)境馬爾可夫決策過程(206)
9.1半氏環(huán)境連續(xù)時間馬爾可夫決策過程(206)
9.1.1模型(206)
9.1.2最優(yōu)方程(210)
9.1.3弱收斂逼近(216)
9.1.4馬爾可夫環(huán)境和位相型環(huán)境(218)
9.2半馬爾可夫環(huán)境半馬爾可夫決策過程(223)
9.2.1模型(223)
9.2.2最優(yōu)方程(226)
9.2.3馬爾可夫環(huán)境(229)
9.3半馬爾可夫環(huán)境混合馬爾可夫決策過程(230)
9.3.1模型(230)
9.3.2最優(yōu)方程(232)
9.3.3馬爾可夫環(huán)境(237)
文獻注釋(238)
參考文獻(239)
第10章在排隊/通信系統(tǒng)中的應(yīng)用(240)
10.1排隊系統(tǒng)的到達控制(240)
10.1.1靜態(tài)到達控制(241)
10.1.2M/M/c系統(tǒng)的動態(tài)到達控制(242)
10.1.3一般動態(tài)到達控制(243)
10.2排隊系統(tǒng)服務(wù)控制(246)
10.3排隊網(wǎng)絡(luò)控制(250)
10.3.1到達控制(250)
10.3.2服務(wù)控制(250)
10.3.3路徑控制(252)
10.4通信網(wǎng)絡(luò)控制(253)
文獻注釋(255)
參考文獻(255)
第11章在其他方面的應(yīng)用(257)
11.1生產(chǎn)/存貯系統(tǒng)最優(yōu)控制(257)
11.2系統(tǒng)最優(yōu)更換/維修(259)
11.2.1模型(259)
11.2.2折扣準則(262)
11.2.3平均目標(264)
11.2.4無沖擊(265)
11.3質(zhì)量控制(266)
11.4目標的最優(yōu)搜索(268)
11.4.1固定目標的最優(yōu)搜索(268)
11.4.2活動目標的最優(yōu)搜索(269)
11.5柔性制造系統(tǒng)最優(yōu)路徑控制(270)
11.5.1一類流水線的最優(yōu)動態(tài)負荷分配(270)
11.5.2動態(tài)路徑調(diào)度(271)
文獻注釋(272)
參考文獻(272)

作　者：	胡奇英，劉建庸著
出版社：	西安電子科技大學出版社
叢編項：
標　簽：	暫缺

ISBN：	9787560608303	出版時間：	2000-07-01	包裝：	平裝
開本：	26cm	頁數(shù)：	273	字數(shù)：

馬爾可夫決策過程引論

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

矩陣特征值定位理論

2023浙江科技統(tǒng)計年鑒

2024年版中國英文科技期刊引證報…

前沿科學與先進技術(shù)2023

李約瑟鏡頭下的戰(zhàn)時中國科學

移動式工業(yè)機器人制造系統(tǒng)

基于運動智能的機器人開發(fā)與控制…

國家自然科學基金醫(yī)學科學十四五…

黃浦江志

2024浙江科技統(tǒng)計年鑒