遠山江浸月のBlog

「It must be exhausting always rooting for the anti-hero」

【PPO、GRPO的理论基础】【策略梯度】value-based强化学习算法 策略梯度定理的完整数学推导 reinforce算法

PPO、GRPO 与策略梯度数学推导

【PPO、GRPO的理论基础】【策略梯度】value-based强化学习算法 策略梯度定理的完整数学推导 reinforce算法 Value-Based的缺点 通过评估状态-动作的价值($Q$值),来间接决定策略 问题的本质 1.Q值与感知态的强绑定 核心逻辑: 在 Value-based 算法中,核心任务是学习一个价值函数 $Q(s, a)$ 意味着算法必须能够精准地评估每一...

强化学习从零到RLHF

从基础概念到 RLHF 的学习笔记

强化学习从零到RLHF https://www.zhihu.com/column/c_1638958028161433600 什么是强化学习 agent (智能体)通过与环境交互(通过反复试验)并从环境中学习,并获得奖励作为执行动作的反馈。 强化学习是一种从行动中学习的计算方法。 强化学习是一个用于解决控制任务(也称为决策问题)的框架,通过构建智能体,通过反复试验与环境交互并从环境...

强化学习基础与主流算法综述(以PPO为核心)

强化学习理论与 PPO 应用综述

强化学习基础与主流算法综述(以PPO为核心) 理论 找到一个策略去最大化 奖励 马尔科夫决策过程 小写为已发生,大写为未来 Return 随机性与期望 Top-Down框架 时序差分Temporal Difference (TD) SARSA & Q-learning 行为策略和目标策略相同为同策略,不同为异策略 Policy Gra...

王树森_强化学习

强化学习术语、算法与 AlphaGo 笔记

王树森_强化学习 王树森_DRL.pdf 专业术语 马尔可夫决策过程(Markov decision process,MDP) 化学习的主体被称为智能体 (agent) 环境(environment)是与智能体交互的对象 每个时刻,环境有一个状态 (state),可以理解为对当前时刻环境的概括 棋盘上所有棋子的位置就是状态 一个玩家屏幕上的画面只是对环境的部分观测,画...

动手学强化学习

课程与资料导航

动手学强化学习 初探强化学习 动手学强化学习– 张伟楠,沈键,俞勇 北京 Beijing, 2022 – 人民邮电出版社.pdf 王树森_强化学习 强化学习简介 书本部分 第 1 章 初探强化学习 第 2 章 多臂老虎机 第 3 章 马尔可夫决策过程 第 4 章 动态规划算法 第 5 章 时序差分算法 第 6 章 Dyna-Q 算法 第 7 章 DQN 算法 第...

Matplotlib

绘图基础与常见图表示例

Matplotlib 导入库 import matplotlib.pyplot as plt 基础绘制 绘制直线 1 2 3 4 5 #从(0,0)到(6,250)的线段 xpoints = np.array([0, 6]) ypoints = np.array([0, 250]) plt.plot(xpoints, ypoints) plt.show() 无线绘图 1 ...

Pandas

DataFrame 基础操作笔记

Pandas 用Numpy创建数组,用Panda构建DataFrame,有两个参数data和columns 1 2 3 4 5 6 7 8 9 10 11 # Create and populate a 5x2 NumPy array. 创建并填充一个 5x2 的 NumPy 数组 my_data = np.array([[0, 3], [10, 7], [20, 9], [30, 14...

NumPy

数组基础与常用操作笔记

NumPy 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 6...

HuggingFace_深度强化学习

Hugging Face Deep RL Course 学习索引

HuggingFace_深度强化学习 Welcome to the 🤗 Deep Reinforcement Learning Course - Hugging Face Deep RL Course https://github.com/huggingface/deep-rl-class 第 1 单元—深度强化学习简介 奖励—单元1.HUGGY 深度强化学习简介 第2单元—对Q-...

深度强化学习10篇经典文章

顶级会议和期刊的10篇最具影响力论文

📅 2015-2018年(奠基时代) 🏆 总引用量超过10万次 🎯 学术与研究参考 📄 执行摘要 研究概述 本文献综述分析了10篇最具影响力的深度强化学习论文,这些论文奠定了现代深度强化学习研究的基础。这些开创性工作主要发表于2015-2018年期间,引入了革命性的算法,彻底改变了人工智能和机器学习领域。 ...