动手学强化学习 初探强化学习 动手学强化学习– 张伟楠,沈键,俞勇 北京 Beijing, 2022 – 人民邮电出版社.pdf 王树森_强化学习 强化学习简介 书本部分 第 1 章 初探强化学习 第 2 章 多臂老虎机 第 3 章 马尔可夫决策过程 第 4 章 动态规划算法 第 5 章 时序差分算法 第 6 章 Dyna-Q 算法 第 7 章 DQN 算法 第 8 章 DQN 改进算法 第 9 章 策略梯度算法 第 10 章 Actor-Critic 算法 第 11 章 TRPO 算法 Previous Matplotlib Next 王树森_强化学习 CATALOG -->