注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術自然科學自然科學總論馬爾可夫決策過程引論

馬爾可夫決策過程引論

馬爾可夫決策過程引論

定 價:¥28.00

作 者: 胡奇英,劉建庸著
出版社: 西安電子科技大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787560608303 出版時間: 2000-07-01 包裝: 平裝
開本: 26cm 頁數(shù): 273 字數(shù):  

內容簡介

  馬爾可夫決策過程是研究隨機環(huán)境下多階段決策過程優(yōu)化問題的理論工具,在過去的幾十年中,隨著生態(tài)科學、經(jīng)濟理論、通訊工程以及眾多學科中需要考慮不確定因素和序列決策問題的大量新模型的涌現(xiàn),進一步刺激了馬爾可夫決策過程在理論上和應用領域中長足發(fā)展。本書從簡單的例子開始,介紹了馬爾可夫決策過程的基本概念、決策過程以及一些常用的基本理論。還介紹了多種最優(yōu)準則,包括有限階段準則、折扣準則、平均準則、權重報酬準則、概率準則等。從模型角度考慮了有限狀態(tài)空間、可數(shù)狀態(tài)空間和一般Borel狀態(tài)空間;從決策時間上來說,考慮了離散時間、連續(xù)時間和半馬氏決策時刻問題。本文還介紹了大量的應用實例以及建模方法。本書可作為高年級大學和研究生教材,也可作為運籌學、管理科學、信息科學、系統(tǒng)科學以及計算機科學和工程領域的學者和技術人員的參考書。

作者簡介

暫缺《馬爾可夫決策過程引論》作者簡介

圖書目錄

第1章引論(1)
1.1離散時間馬爾可夫決策過程模型(1)
1.2報酬過程與準則函數(shù)(2)
1.3歷史(6)
參考文獻(7)
第2章有限階段(10)
2.1有限階段最優(yōu)方程(10)
2.2應用(13)
2.2.1序貫投資問題(13)
2.2.2秘書選擇問題(15)
2.3模函數(shù)與單調策略(16)
文獻注釋(22)
參考文獻(22)
第3章折扣準則(23)
3.1折扣最優(yōu)方程(23)
3.1.1無界報酬條件及目標函數(shù)的存在性(23)
3.1.2最優(yōu)方程(26)
3.2(ε)最優(yōu)策略的性質和結構(30)
3.2.1最優(yōu)策略的性質和結構(30)
3.2.2ε最優(yōu)策略的性質和結構(33)
3.3逐次逼近法與策略迭代法(35)
3.3.1逐次逼近法(35)
3.3.2策略迭代法(40)
3.3.3策略迭代-逐次逼近法(41)
3.4線性規(guī)劃法(45)
3.5狀態(tài)逼近法(47)
3.6Blackwell最優(yōu)準則(52)
3.6.1羅朗級數(shù)展開(52)
3.6.2求Blackwell最優(yōu)策略的策略迭代法(54)
3.7非可數(shù)決策集(56)
文獻注釋(58)
參考文獻(59)
第4章總報酬準則(62)
4.1模型縮減(62)
4.2報酬函數(shù)和準則函數(shù)的有限性(63)
4.2.1報酬函數(shù)的有限性(64)
4.2.2最優(yōu)值函數(shù)的有限性及最優(yōu)方程(66)
4.3充分條件(69)
4.4最優(yōu)方程與(ε)最優(yōu)策略(72)
4.5逐次逼近法(76)
文獻注釋(77)
參考文獻(77)
第5章平均準則(78)
5.1引言和反例(78)
5.2平均準則最優(yōu)方程(82)
5.2.1平均準則最優(yōu)方程與(ε)最優(yōu)策略(82)
5.2.2常返性條件(86)
5.2.3轉換為折扣準則(88)
5.3多鏈馬爾可夫決策過程(89)
5.3.1最優(yōu)方程系(89)
5.3.2典型三重組(90)
5.4策略迭代法(97)
5.5逐次逼近法(101)
5.5.1基于最優(yōu)方程的逐次逼近法(101)
5.5.2基于最優(yōu)方程系的逐次逼近法(104)
5.6線性規(guī)劃法(108)
5.7最優(yōu)不等式(112)
文獻注釋(120)
參考文獻(122)
第6章半馬爾可夫決策過程(125)
6.1半馬爾可夫決策過程模型(125)
6.1.1模型(125)
6.1.2正則性條件(126)
6.1.3準則函數(shù)(129)
6.2轉換為離散時間馬爾可夫決策過程(132)
6.2.1期望折扣總報酬準則(132)
6.2.2平均準則(132)
6.2.3馬爾可夫型半馬爾可夫決策過程(138)
文獻注釋(139)
參考文獻(140)
第七章連續(xù)時間馬爾可夫決策過程(141)
7.1連續(xù)時間馬爾可夫決策過程模型(141)
7.2期望折扣總報酬準則(144)
7.3平均準則(149)
7.4非平穩(wěn)期望總報酬準則(151)
文獻注釋(158)
參考文獻(158)
第8章一般化馬爾可夫決策過程(160)
8.1狀態(tài)部分可觀察的馬爾可夫決策過程(160)
8.1.1模型(160)
8.1.2折扣準則(161)
8.1.3有限階段(166)
8.2約束馬爾可夫決策過程(169)
8.2.1單約束(169)
8.2.2多約束(173)
8.2.3哈密爾頓圈(177)
8.3多目標馬爾可夫決策過程(180)
8.3.1折扣準則(181)
8.3.2折扣與平均的加權準則(186)
8.4攝動馬爾可夫決策過程(190)
8.4.1攝動的非平穩(wěn)平均準則馬爾可夫決策過程(191)
8.4.2攝動的連續(xù)時間折扣準則馬爾可夫決策過程(197)
文獻注釋(199)
參考文獻(201)
第9章隨機環(huán)境馬爾可夫決策過程(206)
9.1半氏環(huán)境連續(xù)時間馬爾可夫決策過程(206)
9.1.1模型(206)
9.1.2最優(yōu)方程(210)
9.1.3弱收斂逼近(216)
9.1.4馬爾可夫環(huán)境和位相型環(huán)境(218)
9.2半馬爾可夫環(huán)境半馬爾可夫決策過程(223)
9.2.1模型(223)
9.2.2最優(yōu)方程(226)
9.2.3馬爾可夫環(huán)境(229)
9.3半馬爾可夫環(huán)境混合馬爾可夫決策過程(230)
9.3.1模型(230)
9.3.2最優(yōu)方程(232)
9.3.3馬爾可夫環(huán)境(237)
文獻注釋(238)
參考文獻(239)
第10章在排隊/通信系統(tǒng)中的應用(240)
10.1排隊系統(tǒng)的到達控制(240)
10.1.1靜態(tài)到達控制(241)
10.1.2M/M/c系統(tǒng)的動態(tài)到達控制(242)
10.1.3一般動態(tài)到達控制(243)
10.2排隊系統(tǒng)服務控制(246)
10.3排隊網(wǎng)絡控制(250)
10.3.1到達控制(250)
10.3.2服務控制(250)
10.3.3路徑控制(252)
10.4通信網(wǎng)絡控制(253)
文獻注釋(255)
參考文獻(255)
第11章在其他方面的應用(257)
11.1生產(chǎn)/存貯系統(tǒng)最優(yōu)控制(257)
11.2系統(tǒng)最優(yōu)更換/維修(259)
11.2.1模型(259)
11.2.2折扣準則(262)
11.2.3平均目標(264)
11.2.4無沖擊(265)
11.3質量控制(266)
11.4目標的最優(yōu)搜索(268)
11.4.1固定目標的最優(yōu)搜索(268)
11.4.2活動目標的最優(yōu)搜索(269)
11.5柔性制造系統(tǒng)最優(yōu)路徑控制(270)
11.5.1一類流水線的最優(yōu)動態(tài)負荷分配(270)
11.5.2動態(tài)路徑調度(271)
文獻注釋(272)
參考文獻(272)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號