強化學習入門——基于Python(基于Python的數(shù)據(jù)分析叢書)
定 價:49 元
叢書名:基于Python的數(shù)據(jù)分析叢書
強化學習是機器學習的重要組成部分。本書采用理論與實踐相結(jié)合的寫法,從強化學習的基本概念開始,詳細介紹了強化學習的算法理論和實踐操作,配有Python代碼實現(xiàn),完整呈現(xiàn)強化學習算法的實踐細節(jié)。通過這本書你將會:(1)理解強化學習最關(guān)鍵方面的問題。(2)探索馬爾可夫決策過程及動態(tài)規(guī)劃的過程。(3)深入理解強化學習的各種方法,包括MC方法,TD方法,深度學習Q方法,SARSA方法等。(4)通過大量的現(xiàn)實例子及Python實現(xiàn)程序,不斷地實踐,成為強化學習的高手。
第一部分 強化學習基礎(chǔ)與實踐第1章引 言1.1 從迷宮問題談起1.1.1 人類和動物所面對的迷宮問題1.1.2 迷宮的說明性例子1.1.3 例1.1: 獎勵矩陣1.1.4 例1.1: 訓練以得到關(guān)于狀態(tài)和行動的獎勵: Q矩陣1.1.5 例1.1: 使用Q矩陣來得到最優(yōu)行動(路徑)1.1.6 例1.1: 把代碼組合成 class1.2 熱身: 井字游戲*1.2.1 兩個真人的簡單井字游戲1.2.2 人和機器的井字游戲的強化學習實踐1.2.3 井字游戲的強化學習代碼解釋1.2.4 整個訓練過程1.2.5 使用訓練后的模型做人機游戲1.2.6 1.2.1節(jié)代碼1.2.7 附錄: 1.2.3節(jié)人和機器的井字游戲代碼1.3 強化學習的基本概念1.4 馬爾可夫決策過程的要素1.5 作為目標的獎勵1.6 探索與開發(fā)的權(quán)衡1.6.1 探索與開發(fā)1.6.2 強化學習中的優(yōu)化和其他學科的區(qū)別1.7 本書將會討論和運算的一些例子1.7.1 例1.3格子路徑問題1.7.2 例1.4出租車問題1.7.3 例1.5推車桿問題1.7.4 例1.6倒立擺問題1.7.5 例1.7多臂老虎機問題1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區(qū)別第2章馬爾可夫決策過程和動態(tài)規(guī)劃2.1 馬爾可夫決策過程簡介2.1.1 馬爾可夫性2.1.2 策略2.1.3 作為回報期望的價值函數(shù)2.1.4 通過例 1.3 格子路徑問題理解本節(jié)概念2.2 動態(tài)規(guī)劃2.2.1 動態(tài)規(guī)劃簡介2.2.2 Bellman方程2.2.3 最優(yōu)策略和最優(yōu)價值函數(shù)2.3 強化學習基本方法概述2.3.1 代理與環(huán)境的互動2.3.2 策略迭代: 策略評估和策略改進2.3.3 價值迭代2.3.4 策略迭代與價值迭代比較2.3.5 異步動態(tài)規(guī)劃2.3.6 廣義策略迭代2.3.7 策略梯度2.3.8 off-policy, on-policy和offline RL2.4 蒙特卡羅抽樣2.4.1 MC策略評估2.4.2 MC狀態(tài)-行動值的估計2.4.3 on-policy: Q價值的MC估計2.4.4 off-policy: MC預(yù)測2.4.5 MC的策略梯度2.5 和本章概念相關(guān)的例子2.5.1 例1.3格子路徑問題使用Bellman方程做價值迭代2.5.2 例1.3格子路徑問題的TD函數(shù)第3章各種機器學習算法及實例3.1 暫時差(TD)簡介3.1.1 TD、DP和MC算法的比較3.1.2 TD方法的特點3.1.3 TD(0)方法的延伸3.2 TD評估及策略改進3.2.1 SARSA (on-policy)3.2.2 Q學習 (off-policy)3.2.3 加倍Q學習 (off-policy)3.3 函數(shù)逼近及深度學習算法3.3.1 基于價值和策略的函數(shù)逼近3.3.2 深度Q學習3.3.3 TD: 演員-批評者(AC)架構(gòu)3.3.4 A2C算法步驟3.3.5 A3C 算法3.3.6 DDPG 算法3.3.7 ES 算法3.3.8 PPO 算法3.3.9 SAC 算法3.4 用第1章的例子理解本章算法3.4.1 例1.3格子路徑問題: SARSA3.4.2 例1.4出租車問題: SARSA3.4.3 例1.3格子路徑問題: 加倍Q學3.4.4 例1.5推車桿問題: 深度Q學習3.4.5 例1.5推車桿問題: A3C3.4.6 例1.6倒立擺問題: DDPG3.4.7 例1.5推車桿問題: ES3.4.8 例1.5推車桿問題: PP