本書將從強化學(xué)習(xí)最基本的概念開始介紹,將介紹基礎(chǔ)的分析工具包括貝爾曼公式和貝爾曼最優(yōu)公式,之后會推廣到基于模型的和無模型的強化學(xué)習(xí)算法,最后會推廣到基于函數(shù)逼近的強化學(xué)習(xí)方法。本書強調(diào)從數(shù)學(xué)的角度接引入概念、分析問題、分析算法。并不強調(diào)算法的編程實現(xiàn),因為目前已經(jīng)有很多這方面的書籍,本書將不再重復(fù)造輪子。
本書面向?qū)娀瘜W(xué)習(xí)感興趣的本科生、研究生、研究人員和企業(yè)研究所從業(yè)者。
它不需要讀者有任何關(guān)于強化學(xué)習(xí)的背景,因為它會從最基本的概念開始介紹。如果讀者已經(jīng)有一些 強化學(xué)習(xí)的背景,這本書也可以幫助他們更深入地理解一些問題或者帶來新的視角。
本書要求讀者具備一定的概率論和線性代數(shù)知識。本書的附錄中包含了一些必需的數(shù)學(xué)基礎(chǔ)知識。
本書旨在成為一本數(shù)學(xué)但是友好的教材,能幫助讀者從零開始實現(xiàn)對強化學(xué)習(xí)原理的透徹理解。本書的特點如下所述。
. 第一,從數(shù)學(xué)的角度講故事,讓讀者不僅了解算法的流程,更能理解為什么一個算法最初設(shè)計成這個樣子、為什么它能有效地工作等基本問題。
. 第二,數(shù)學(xué)的深度被控制在恰當?shù)乃,?shù)學(xué)內(nèi)容也以精心設(shè)計的方式呈現(xiàn),從而確保本書的易讀性。讀者可以根據(jù)自己的興趣選擇性地閱讀灰色方框中的數(shù)學(xué)材料。
. 第三,提供了大量例子,能夠幫助讀者更好地理解概念和算法。特別是本書廣泛使用了網(wǎng)格世界的例子,這個例子非常直觀,對理解概念和算法非常有幫助。
. 第四,在介紹算法時盡可能將其核心思想與一些不太重要但是可能讓算法看起來很復(fù)雜的東西分離開來。通過這種方式,讀者可以更好地把握算法的核心思想。
. 第五,本書采用了新的內(nèi)容組織架構(gòu),脈絡(luò)清晰,易于建立宏觀理解,內(nèi)容層層遞進,每一章都依賴于前一章且為后續(xù)章節(jié)奠定基礎(chǔ)。
本書適合對強化學(xué)習(xí)感興趣的高年級本科生、研究生、科研人員和工程技術(shù)人員閱讀。由于本書會從最基本的概念開始介紹,因此不要求讀者有任何強化學(xué)習(xí)的背景。當然,如果讀者已經(jīng)有一些強化學(xué)習(xí)的背景,我相信本書可以幫助大家更深入地理解一些問題或者提供不同的視角。此外,本書要求讀者具備一些概率論和線性代數(shù)的知識,這些知識在本書附錄中已經(jīng)給出。
自 2019年以來,我一直在教授研究生的強化學(xué)習(xí)課程,我要感謝課程中的學(xué)生對我的教學(xué)提出的反饋建議。自 2022年 8月把這本書的草稿在線發(fā)布在 GitHub,到目前為止我收到了許多讀者的寶貴反饋,在此對這些讀者表示衷心感謝。此外,我還要感謝我的團隊成員呂嘉玲在編輯書稿和課程視頻方面所做的大量瑣碎但是重要的工作;感謝助教李佳楠和米軼澤在我的教學(xué)中的勤懇工作;感謝我的博士生鄭燦倫在設(shè)計書
中圖片方面的幫助,以及我的家人的大力支持。
最后,我要感謝清華大學(xué)出版社的郭賽編輯和施普林格自然出版社的常蘭蘭博士,他們對于書稿的順利出版給予了大力支持。我真誠地希望這本書能夠幫助讀者順利進入強化學(xué)習(xí)這一激動人心的領(lǐng)域。
趙世鈺
趙世鈺目前是西湖大學(xué)工學(xué)院特聘研究員、博士生導(dǎo)師、智能無人系統(tǒng)實驗室主任、國家海外高層次人才引進計劃(青年項目)獲得者。他本碩畢業(yè)于北京航空航天大學(xué),博士畢業(yè)于新加坡國立大學(xué)。他2019年回國加入西湖大學(xué)工學(xué)院,回國之前在英國謝菲爾德大學(xué)自動控制與系統(tǒng)工程系擔任講師和博士生導(dǎo)師,該系是英國唯一一個專注于自動控制領(lǐng)域的院系。
趙世鈺在系統(tǒng)與控制領(lǐng)域具有豐富的理論和實踐研究經(jīng)驗,他已在控制與機器人領(lǐng)域的國際期刊和會議發(fā)表研究論文50余篇。主要代表性研究成果為多機器人協(xié)同控制與估計,特別是方位剛性理論及其在網(wǎng)絡(luò)系統(tǒng)中的應(yīng)用,相關(guān)成果以綜述論文的形式發(fā)表在IEEE控制系統(tǒng)學(xué)會權(quán)威官方雜志IEEE Control Systems Magazine。他是絕大多數(shù)控制和機器人領(lǐng)域的國際頂級期刊和會議的審稿人。他是多個國際重要會議的編委(包括IEEE IROS, CDC, ACC, ICCA, ICARCV, ICUAS),IEEE控制系統(tǒng)協(xié)會編委會委員,并擔任ICCA2018的英國區(qū)域主席和ICCA2019的程序委員會主席。此外,他是國際期刊Unmanned Systems的編委。趙世鈺曾獲得領(lǐng)跑者5000中國精品科技期刊頂尖論文、2014年第33屆中國控制會議關(guān)肇直獎。
第 1章基本概念 1
1.1網(wǎng)格世界例子 2
1.2狀態(tài)和動作 2
1.3狀態(tài)轉(zhuǎn)移 3
1.4策略 5
1.5獎勵 7
1.6軌跡、回報、回合 9
1.7馬爾可夫決策過程 11
1.8總結(jié) 13
1.9問答 13
第 2章狀態(tài)值與貝爾曼方程 15
2.1啟發(fā)示例 1:為什么回報很重要? 16
2.2啟發(fā)示例 2:如何計算回報?. 17
2.3狀態(tài)值 19
2.4貝爾曼方程 20
2.5示例 22
2.6矩陣向量形式 25
2.7求解狀態(tài)值 27
2.7.1方法 1:解析解 27
2.7.2方法 2:數(shù)值解 27
2.7.3示例 28
2.8動作值 30
2.8.1示例 31
2.8.2基于動作值的貝爾曼方程 32
2.9總結(jié)
. 32
2.10問答
33
第 3章最優(yōu)狀態(tài)值與貝爾曼最優(yōu)方程 35
3.
1啟發(fā)示例:如何改進策略?. 36
3.
2最優(yōu)狀態(tài)值和最優(yōu)策略 37
3.
3貝爾曼最優(yōu)方程 38
3.
3.1方程右側(cè)的優(yōu)化問題 39
3.3.2矩陣
-向量形式 40
3.
3.3壓縮映射定理 41
3.
3.4方程右側(cè)函數(shù)的壓縮性質(zhì) 44
3.
4從貝爾曼最優(yōu)方程得到最優(yōu)策略 46
3.
5影響最優(yōu)策略的因素 49
3.6總結(jié)
. 54
3.7問答
. 54
第 4章值迭代與策略迭代 57
4.1值迭代算法
. 58
4.
1.1展開形式和實現(xiàn)細節(jié) 59
4.1.2示例
. 59
4.2策略迭代算法
62
4.2.1算法概述
62
4.
2.2算法的展開形式 65
4.2.3示例
. 66
4.
3截斷策略迭代算法 68
4.
3.1對比值迭代與策略迭代 68
4.
3.2截斷策略迭代算法 71
4.4總結(jié)
. 73
4.5問答
. 73
5.
1啟發(fā)示例:期望值估計 78
5.2
MC Basic:最簡單的基于蒙特卡羅的算法 80
5.
2.1將策略迭代算法轉(zhuǎn)換為無需模型 80
5.2.2
MC Basic算法 81
5.2.3示例
. 82
5.3
MC Exploring Starts算法 86
5.
3.1更高效地利用樣本 86
5.
3.2更高效地更新策略 87
5.3.3算法描述
87
5.4
MC -Greedy算法 88
5.4.1
.-Greedy策略 89
5.4.2算法描述
89
5.4.3示例
. 91
5.
5探索與利用:以 -Greedy策略為例 91
5.6總結(jié)
. 96
5.7問答
. 96
第 5章蒙特卡羅方法 77
第 6章隨機近似算法 99
6.
1啟發(fā)示例:期望值估計 100
6.2羅賓斯
-門羅算法 101
6.2.1收斂性質(zhì)
. 103
6.
2.2在期望值估計問題中的應(yīng)用 106
6.3
Dvoretzky定理 107
6.3.1
Dvoretzky定理的證明 108
6.
3.2應(yīng)用于分析期望值估計算法 109
6.
3.3應(yīng)用于證明羅賓斯-門羅定理 110
6.3.4
Dvoretzky定理的推廣 111
6.4隨機梯度下降
. 112
6.
4.1應(yīng)用于期望值估計 113
6.
4.2隨機梯度下降的收斂模式 114
6.
4.3隨機梯度下降的另一種描述 116
6.
4.4小批量梯度下降 117
6.
4.5隨機梯度下降的收斂性 118
6.5總結(jié)
120
6.6問答
120
第 7章時序差分方法 123
7.
1狀態(tài)值估計:最基礎(chǔ)的時序差分算法 124
7.1.1算法描述
. 124
7.1.2性質(zhì)分析
. 126
7.
1.3收斂性證明 127
7.2動作值估計:
Sarsa 130
7.2.1算法描述
. 131
7.
2.2學(xué)習(xí)最優(yōu)策略 132
7.3動作值估計:
n-Step Sarsa. 135
7.
4最優(yōu)動作值估計:Q-learning 137
7.4.1算法描述
. 137
7.4.2
Off-policy和 On-policy 138
7.4.3算法實現(xiàn)
. 140
7.4.4示例
141
7.
5時序差分算法的統(tǒng)一框架 142
7.6總結(jié)
145
7.7問答
145
第 8章值函數(shù)方法 149
8.
1價值表示:從表格到函數(shù) 150
8.
2基于值函數(shù)的時序差分算法:狀態(tài)值估計 153
8.2.1目標函數(shù)
. 154
8.2.2優(yōu)化算法
. 159
8.
2.3選擇值函數(shù) 160
8.2.4示例
161
8.2.5理論分析
. 165
8.
3基于值函數(shù)的時序差分:動作值估計 175
8.
3.1基于值函數(shù)的 Sarsa 176
8.
3.2基于值函數(shù)的 Q-learning 177
8.4深度
Q-learning. 178
8.4.1算法描述 179
8.4.2示例
180
8.5總結(jié)
183
8.6問答
183
第 9章策略梯度方法 187
9.
1策略表示:從表格到函數(shù) 188
9.
2目標函數(shù):定義最優(yōu)策略 189
9.
3目標函數(shù)的梯度 194
9.
3.1推導(dǎo)策略梯度:有折扣的情況 195
9.
3.2推導(dǎo)策略梯度:無折扣的情況 200
9.
4蒙特卡羅策略梯度(REINFORCE). 206
9.5總結(jié)
208
9.6問答
209
第 10章演員-評論家方法 211
10.
1最簡單的演員-評論家算法:QAC 212
10.2優(yōu)勢演員
-評論家 213
10.
2.1基準不變性 213
10.
2.2算法描述 215
10.3異策略演員
-評論家 217
10.
3.1重要性采樣 217
10.3.2
Off-policy策略梯度定理 220
10.
3.3算法描述 221
10.4確定性演員
-評論家 223
10.
4.1確定性策略梯度定理 223
10.
4.2算法描述 229
10.5總結(jié)
. 230
10.6問答
. 231
附錄 A概率論基礎(chǔ) 233
附錄 B測度概率論 239
附錄 C序列的收斂性 247
C.1確定性序列的收斂性 248
C.2隨機序列的收斂性 250
附錄 D梯度下降方法 255
符號 261
索引 262
參考文獻 265