強(qiáng)化學(xué)習(xí)與隨機(jī)優(yōu)化
定 價(jià):158 元
叢書名:大數(shù)據(jù)與數(shù)據(jù)科學(xué)專著系列
- 作者:陳志平,劉嘉,徐宗本
- 出版時(shí)間:2025/10/1
- ISBN:9787508867519
- 出 版 社:科學(xué)出版社
- 中圖法分類:TP181
- 頁碼:410
- 紙張:
- 版次:1
- 開本:B5
本書旨在介紹近年來作者在強(qiáng)化學(xué)習(xí)和隨機(jī)優(yōu)化交叉領(lǐng)域的研究成果,主要內(nèi)容包括隨機(jī)優(yōu)化的定量穩(wěn)定性分析,求解多階段隨機(jī)優(yōu)化的新型情景樹生成、約減方法,機(jī)會(huì)約束規(guī)劃問題的模型轉(zhuǎn)換、凸逼近與求解,非平穩(wěn)強(qiáng)化學(xué)習(xí)的樣本復(fù)雜度與泛化能力分析,隨機(jī)優(yōu)化和強(qiáng)化學(xué)習(xí)的統(tǒng)一模型及其基本性質(zhì),風(fēng)險(xiǎn)厭惡馬氏決策過程與強(qiáng)化學(xué)習(xí),分布魯棒機(jī)會(huì)約束馬氏決策過程及其轉(zhuǎn)換與求解算法設(shè)計(jì),連續(xù)狀態(tài)集合、連續(xù)動(dòng)作集合下無限智能體的連續(xù)時(shí)間平均場強(qiáng)化學(xué)習(xí)問題的性質(zhì)與Actor-Critic型求解算法,以及強(qiáng)化學(xué)習(xí)在多期投資組合選擇中的應(yīng)用。本書的目的是幫助讀者掌握如何應(yīng)用強(qiáng)化學(xué)習(xí)或隨機(jī)優(yōu)化來處理不確定環(huán)境下的復(fù)雜動(dòng)態(tài)決策問題、如何開展強(qiáng)化學(xué)習(xí)和隨機(jī)優(yōu)化的交叉研究,以便他們能夠盡快進(jìn)入相應(yīng)研究領(lǐng)域的前沿。
更多科學(xué)出版社服務(wù),請掃碼獲取。
1982年9月—1986年7月,西安交大數(shù)學(xué)系,本科生,獲理學(xué)學(xué)士學(xué)位
1986年9月—1989年6月,西安交大數(shù)學(xué)系,碩士研究生,獲理學(xué)碩士學(xué)位
1989年9月—1992年6月,西安交大數(shù)學(xué)系,博士研究生,獲理學(xué)博士學(xué)位1992.07 — 1994.10 西安交大數(shù)學(xué)系任講師
1994.11 — 1995.06 荷蘭 Eindhoven 工業(yè)大學(xué)作訪問研究員
1995.07 — 1996.04 西安交大理學(xué)院科學(xué)計(jì)算與應(yīng)用軟件系任講師
1996.05 — 1997.12 英國 Cambridge 大學(xué)作博士后研究員
1998.03 — 1998.06 香港中文大學(xué)作博士后研究員
1998.07 至今 西安交大理學(xué)院科學(xué)計(jì)算與應(yīng)用軟件系任副教授、教授數(shù)學(xué)、運(yùn)籌學(xué)、人工智能長期從事隨機(jī)規(guī)劃理論及其應(yīng)用、分布式魯棒優(yōu)化、強(qiáng)化學(xué)習(xí)、金融風(fēng)險(xiǎn)度量與投資分析等領(lǐng)域的研究,取得了一系列較好的成果!禣R Spectrum》編委,《Big Data and Information Analytics》編委、《工程數(shù)學(xué)學(xué)報(bào)》編委、編輯部主任;現(xiàn)任中國運(yùn)籌學(xué)會(huì)常務(wù)理事,中國運(yùn)籌學(xué)會(huì)金融工程與金融風(fēng)險(xiǎn)管理分會(huì)副理事長,中國管理科學(xué)與工程學(xué)會(huì)金融計(jì)量與風(fēng)險(xiǎn)管理研究會(huì)常務(wù)理事,F(xiàn)任西安交通大學(xué)西安數(shù)學(xué)與數(shù)學(xué)技術(shù)研究院常務(wù)副院長、國家天元數(shù)學(xué)西北中心副主任。
目錄:
《大數(shù)據(jù)與數(shù)據(jù)科學(xué)專著系列》序
前言
主要符號表
第1章 隨機(jī)優(yōu)化與強(qiáng)化學(xué)習(xí)簡介 1
1.1 隨機(jī)優(yōu)化 1
1.1.1 兩階段有補(bǔ)償優(yōu)化問題 1
1.1.2 兩階段混合整數(shù)隨機(jī)優(yōu)化 5
1.1.3 多階段隨機(jī)優(yōu)化 7
1.1.4 機(jī)會(huì)約束規(guī)劃 10
1.1.5 分布魯棒隨機(jī)優(yōu)化 13
1.2 馬氏決策過程 16
1.2.1 馬氏決策過程的基本概念 17
1.2.2 決策規(guī)則與策略分類 18
1.2.3 性能準(zhǔn)則與最優(yōu)策略 19
1.2.4 最優(yōu)性方程與算法 22
1.3 強(qiáng)化學(xué)習(xí) 28
1.3.1 強(qiáng)化學(xué)習(xí)的基本要素 28
1.3.2 TD類方法 32
1.3.3 策略梯度方法 36
1.3.4 Dyna-Q方法 38
1.4 小結(jié) 40
第2章 隨機(jī)優(yōu)化的定量穩(wěn)定性 41
2.1 預(yù)備知識 41
2.2 全隨機(jī)兩階段隨機(jī)優(yōu)化問題的定量穩(wěn)定性 46
2.2.1 模型基本性質(zhì) 46
2.2.2 定量穩(wěn)定性結(jié)果 50
2.3 風(fēng)險(xiǎn)厭惡全隨機(jī)兩階段隨機(jī)優(yōu)化問題的定量穩(wěn)定性 53
2.3.1 模型基本性質(zhì) 54
2.3.2 定量穩(wěn)定性結(jié)果 57
2.4 兩階段混合整數(shù)隨機(jī)優(yōu)化問題的定量穩(wěn)定性 61
2.4.1 固定補(bǔ)償情形 62
2.4.2 隨機(jī)補(bǔ)償情形 67
2.5 連續(xù)二次全隨機(jī)補(bǔ)償?shù)膬呻A段隨機(jī)優(yōu)化問題的定量穩(wěn)定性 69
2.5.1 模型基本性質(zhì) 70
2.5.2 定量穩(wěn)定性結(jié)果 72
2.6 混合整數(shù)二次補(bǔ)償?shù)膬呻A段隨機(jī)優(yōu)化問題的定量穩(wěn)定性 79
2.6.1 模型基本性質(zhì) 80
2.6.2 定量穩(wěn)定性結(jié)果 82
2.7 多階段隨機(jī)優(yōu)化問題的定量穩(wěn)定性 86
2.7.1 多階段隨機(jī)線性優(yōu)化模型的基本性質(zhì) 86
2.7.2 多階段隨機(jī)線性優(yōu)化問題的定量穩(wěn)定性 88
2.7.3 風(fēng)險(xiǎn)厭惡多階段隨機(jī)優(yōu)化問題的基本性質(zhì) 91
2.7.4 風(fēng)險(xiǎn)厭惡多階段隨機(jī)優(yōu)化問題的定量穩(wěn)定性 93
2.8 小結(jié) 96
第3章 求解多階段隨機(jī)優(yōu)化的情景樹方法 97
3.1 隨機(jī)優(yōu)化求解算法概述 97
3.1.1 分解類方法 97
3.1.2 抽樣型方法 99
3.1.3 情景樹方法 101
3.2 情景樹方法發(fā)展概述 102
3.2.1 情景樹的基本概念 102
3.2.2 情景樹方法研究現(xiàn)狀 103
3.3 情景樹生成方法 107
3.3.1 基于VAR-MGARCH模型和矩匹配的情景樹生成方法 107
3.3.2 基于動(dòng)態(tài)混合Copula函數(shù)的情景樹生成方法 113
3.4 情景樹約減方法 118
3.4.1 基于合并節(jié)點(diǎn)的情景樹約減方法 118
3.4.2 基于隨機(jī)優(yōu)化定量穩(wěn)定性的情景樹約減方法 130
3.5 數(shù)值實(shí)驗(yàn) 137
3.5.1 情景樹生成方法的數(shù)值分析 138
3.5.2 情景樹約減方法的數(shù)值分析 141
3.6 小結(jié) 144
第4章 機(jī)會(huì)約束規(guī)劃 145
4.1 機(jī)會(huì)約束幾何規(guī)劃問題 145
4.2 正態(tài)分布下的機(jī)會(huì)約束 149
4.2.1 凸幾何逼近 150
4.2.2 序列凸逼近 152
4.3 基于矩信息的分布魯棒機(jī)會(huì)約束 154
4.3.1 基于前兩階矩的IRGP 154
4.3.2 基于前兩階矩的JRGP 160
4.4 基于K-L散度的分布魯棒機(jī)會(huì)約束 165
4.4.1 基于K-L散度的IRGP 165
4.4.2 基于K-L散度的JRGP 168
4.5 基于Wasserstein距離的分布魯棒機(jī)會(huì)約束 171
4.5.1 基于Wasserstein距離的IRGP 171
4.5.2 基于Wasserstein距離的JRGP 179
4.6 數(shù)值實(shí)驗(yàn) 183
4.6.1 分片線性逼近 185
4.6.2 獨(dú)立和聯(lián)合機(jī)會(huì)約束的比較 186
4.6.3 正負(fù)相關(guān)的影響 187
4.6.4 機(jī)會(huì)約束的滿足情況 187
4.6.5 數(shù)據(jù)驅(qū)動(dòng)問題 190
4.7 小結(jié) 191
第5章 非平穩(wěn)強(qiáng)化學(xué)習(xí)的樣本復(fù)雜度與泛化能力 192
5.1 樣本復(fù)雜度與泛化能力 192
5.2 強(qiáng)化學(xué)習(xí)的蒙特卡羅抽樣方法 194
5.2.1 有限期強(qiáng)化學(xué)習(xí) 194
5.2.2 無限期強(qiáng)化學(xué)習(xí) 202
5.3 主動(dòng)強(qiáng)化學(xué)習(xí)的樣本平均近似方法 204
5.3.1 有限期強(qiáng)化學(xué)習(xí) 205
5.3.2 無限期強(qiáng)化學(xué)習(xí) 210
5.4 小結(jié) 211
第6章 隨機(jī)優(yōu)化和強(qiáng)化學(xué)習(xí)的統(tǒng)一模型 212
6.1 引言 212
6.2 統(tǒng)一模型導(dǎo)出 214
6.2.1 內(nèi)生隨機(jī)性及外生隨機(jī)性 215
6.2.2 統(tǒng)一模型 217
6.2.3 統(tǒng)一模型與現(xiàn)有模型的關(guān)系 218
6.3 統(tǒng)一模型的基本性質(zhì) 220
6.4 定量穩(wěn)定性分析 235
6.4.1 關(guān)于內(nèi)生隨機(jī)性的定量穩(wěn)定性 236
6.4.2 關(guān)于外生隨機(jī)性的定量穩(wěn)定性 244
6.5 小結(jié) 267
第7章 風(fēng)險(xiǎn)厭惡馬氏決策過程與強(qiáng)化學(xué)習(xí) 268
7.1 預(yù)備知識 268
7.1.1 幾類新近提出的MDP模型 268
7.1.2 貝葉斯復(fù)合風(fēng)險(xiǎn)度量 269
7.2 貝葉斯復(fù)合風(fēng)險(xiǎn)MDP 271
7.3 有限期BCR-MDP問題 275
7.4 無限期BCR-MDP問題 279
7.4.1 貝爾曼方程與最優(yōu)性條件 279
7.4.2 收斂性分析 283
7.5 基于BCR-MDP的價(jià)值迭代算法和策略迭代算法 292
7.5.1 價(jià)值迭代 292
7.5.2 策略迭代 295
7.6 針對BCR-MDP的樣本平均近似算法 297
7.7 數(shù)值實(shí)驗(yàn) 301
7.7.1 有限期賭博問題 301
7.7.2 無限庫存控制問題 305
7.8 小結(jié) 305
第8章 機(jī)會(huì)約束馬氏決策過程與強(qiáng)化學(xué)習(xí) 306
8.1 機(jī)會(huì)約束馬氏決策過程 306
8.1.1 通常機(jī)會(huì)約束馬氏決策過程 309
8.1.2 分布魯棒機(jī)會(huì)約束馬氏決策過程 309
8.2 基于矩信息的分布魯棒機(jī)會(huì)約束馬氏決策過程 310
8.2.1 J-DRCCMDP問題的等價(jià)轉(zhuǎn)化形式 310
8.2.2 J-DRCCMDP問題的求解算法 312
8.3 基于K-L散度的分布魯棒機(jī)會(huì)約束馬氏決策過程 314
8.3.1 獨(dú)立K-L DRCCMDP 317
8.3.2 聯(lián)合K-L DRCCMDP 320
8.4 分布魯棒機(jī)會(huì)約束優(yōu)化的強(qiáng)化學(xué)習(xí)方法 323
8.4.1 數(shù)值實(shí)驗(yàn) 328
8.5 小結(jié) 328
第9章 平均場強(qiáng)化學(xué)習(xí) 329
9.1 多智能體系統(tǒng) 329
9.2 有限智能體系統(tǒng)的離散平均場強(qiáng)化學(xué)習(xí) 330
9.2.1 有限多智能體的隨機(jī)博弈 330
9.2.2 納什Q學(xué)習(xí) 332
9.2.3 平均場強(qiáng)化學(xué)習(xí) 332
9.2.4 平均場近似 334
9.2.5 算法實(shí)現(xiàn) 334
9.2.6 數(shù)值實(shí)驗(yàn) 336
9.3 無限智能體系統(tǒng)的連續(xù)平均場強(qiáng)化學(xué)習(xí) 339
9.3.1 無限智能體平均場博弈的策略梯度 339
9.3.2 連續(xù)平均場博弈的策略評估 350
9.3.3 連續(xù)平均場博弈的Actor-Critic算法 350
9.3.4 數(shù)值實(shí)驗(yàn) 359
9.4 小結(jié) 362
第10章 強(qiáng)化學(xué)習(xí)在多期投資組合選擇中的應(yīng)用 364
10.1 多期投資組合投資概述 364
10.2 強(qiáng)化學(xué)習(xí)魯棒投資組合選擇模型 366
10.3 強(qiáng)化學(xué)習(xí)魯棒投資組合選擇模型的求解 368
10.3.1 基于漸近相對效率的雙層分解算法 368
10.3.2 增廣拉格朗日乘子法 369
10.3.3 參考分布更新 370
10.4 實(shí)證研究 371
10.5 小結(jié) 376
參考文獻(xiàn) 377
《大數(shù)據(jù)與數(shù)據(jù)科學(xué)專著系列》已出版書目 411