唐山市网站建设_网站建设公司_API接口_seo优化-鹰潭市网站建设公司

本文从第一性原理出发，详细推导了PPO(近端策略优化)损失函数在大语言模型对齐训练中的应用。文章系统介绍了强化学习基础概念、奖励模型构建、策略梯度优化、优势函数设计，以及如何通过裁剪机制和KL惩罚实现稳定的模型微调。最终呈现的完整PPO目标函数包含策略目标、值函数损失、熵奖励和KL惩罚四项，每项都有特定目的，共同确保大模型生成符合人类偏好的高质量响应。

引言

近期关于 DPO、GRPO 和 RLVR 等强化学习方法在大语言模型(LLM)后训练中的研究成果令人瞩目。对于刚接触强化学习的研究者来说,从 Proximal Policy Optimization(PPO)入手是个不错的选择。这正是 OpenAI 在 InstructGPT 论文中展示的用于改进 LLM 对齐的算法。理解 PPO 能帮助建立策略梯度方面的正确心智模型,为后续学习基于类似思想构建的新型 LLM 专用强化学习方法打下基础。

强化学习涉及大量数学推导。本文将通过详细的数学推导从第一性原理构建 PPO 目标函数,推导过程参考了 PPO 和 InstructGPT 原始论文以及 Umar Jamil 的视频教程。

“
Umar Jamil 关于 RLHF 和 PPO 的视频对于建立直觉和理解 PPO 损失背后的数学原理非常有帮助。

一、强化学习核心概念

概念	通用强化学习定义	LLM 场景(RLHF)
强化学习	智能体在环境中学习行动以最大化期望累积奖励的学习框架	使用基于奖励的反馈微调语言模型,使其生成更符合人类偏好的响应
环境	智能体交互的外部系统,产生观察和奖励	提示词分布、交互循环以及来自奖励模型评估生成响应的奖励信号
智能体	观察状态、执行动作并接收奖励的学习者/决策者	逐词生成文本的语言模型
动作 (a)	智能体做出的选择,通常基于状态 s	在生成的每一步选择下一个词元
状态 (s)	给定时间步智能体可获得的信息	提示词加上目前为止生成的响应(当前词元上下文)
奖励 ®	告诉智能体结果好坏的标量信号	奖励模型(基于偏好数据训练)对响应质量的评分
策略 (π)	从状态到动作分布的随机映射	模型基于上下文对下一个词元的概率分布
目标	找到最优策略 π* 使期望累积奖励最大化	更新(对齐)模型,使其倾向于生成更高奖励分数的响应

二、RLHF 中的奖励模型

奖励模型(RM)是一个神经网络,输入提示词 x 和响应 y,输出标量奖励 r_φ(x,y) ∈ ℝ,表示该响应在人类偏好下的"好坏"程度。

策略梯度方法(包括 PPO)需要标量目标来更新策略参数。在标准强化学习中,环境提供这个信号。但对于文本生成,没有天然环境为"好"的响应给出奖励。让人类评估每个输出既不现实,而且基于梯度的优化需要可微的标量信号来反向传播。因此强化学习训练期间需要一个廉价、可微的人类偏好代理。学习到的奖励模型正好提供了这个功能。

奖励模型的训练方法

奖励模型的标准训练流程:

采样提示词 (x)
从基线策略(通常是 SFT 模型)生成多个候选补全 (y₁, y₂, …, yₖ)
让人类比较候选项(成对比较比绝对评分更容易)
训练奖励模型 (r_φ) 预测这些偏好

架构上,奖励模型通常是:

从预训练语言模型(通常是 SFT 模型本身)初始化
移除最后的非嵌入层(投影到词汇表的层)
替换为将最后一个词元的隐藏状态投影到单个标量输出的线性层

奖励模型损失函数

奖励模型使用Bradley-Terry 模型进行成对比较训练。对于任意提示词 x,响应 y_w(更优)相比 y_l(较差)被偏好的概率建模为:

其中 σ 是 sigmoid 函数: σ(z) = 1/(1 + e^(-z))

负对数似然损失为:

这个损失强制奖励模型为更优响应分配更高奖励(详见 InstructGPT 论文或 Umar Jamil 视频)。

这里有两个关键洞察:

不需要绝对分数,只需要奖励模型能正确排序响应
损失只依赖于差值(r_φ(x,y_w) - r_φ(x,y_l)),因此对所有奖励加常数不变。这在后续讨论 PPO 损失时很有用。

奖励模型作为人类偏好的学习代理,将从每次生成获取人类反馈这个难以处理的问题转换为可处理的监督学习问题。训练完成后,它提供标量信号 r_φ(x,y) 用于使用 PPO 等强化学习算法优化策略(LLM)。

三、轨迹与回报

轨迹

轨迹(也称推出或回合)是智能体与环境交互生成的状态(s)、动作(a)和奖励®序列:

在 LLM 场景中,轨迹对应整个词元生成序列,即提示词后跟所有生成的词元直到序列结束词元。

注意状态总是随机建模的,s_{t+1} 可表示为 s_{t+1} ~ P(s_{t+1} | s_t, a_t)。给定随机策略 π_θ(a_t | s_t),轨迹 τ 的概率是以下三者的乘积:

初始状态分布 ρ_0(s_0)
随机策略 π_θ(a_t | s_t)
环境转移动态 P(s_{t+1} | s_t, a_t)

回报

回报是完整轨迹 τ 收集的累积奖励。最简单的形式是无折扣回报:

更一般地,使用折扣回报:

其中 γ ∈ [0,1] 是折扣因子。折扣因子 γ 有几个作用:

确保无限时域任务(T→∞)的回报有限
优先考虑即时奖励而非远期奖励

四、策略梯度优化与 REINFORCE 算法

强化学习的目标是找到策略 π_θ 使所有可能轨迹的期望回报最大化:

这是目标函数,需要找到参数 θ* 使得:

要使用基于梯度的方法最大化 J(θ),需要计算 ∇_θ J(θ) 并执行梯度上升:

这个策略梯度看起来简单,但实际上难以计算。期望是对从 π_θ 采样的轨迹求的,而 π_θ 本身依赖于 θ。无法简单枚举所有可能的轨迹,对于任何合理大小的状态-动作空间(当然也不适用于 LLM)这在计算上是不可行的。

因此下一步需要推导 ∇_θ J(θ) 的某种合理且可处理的近似。使用对数导数技巧来实现:

这个期望可以写成积分:

将梯度移到积分内:

应用对数导数技巧:

重新排列: ∇_θ P(τ|θ) = P(τ|θ) ∇_θ log P(τ|θ) 并代回,得到:

也可以写成期望形式:

注意这里的梯度现在是轨迹对数概率梯度的期望。使用轨迹概率表达式(III.I)可以进一步简化:

取对数:

求 ∇_θ 时,只有策略项依赖于 θ:

初始状态分布和转移动态独立于 θ,其梯度为零。代回得到策略梯度定理:

这是个了不起的结果。可以计算目标的梯度而无需对环境动态求导,只需要策略对数概率的梯度。

由于无法精确计算期望,通过采样 N 条轨迹用样本均值近似:

这给出了REINFORCE 算法:

初始化: 从预训练或监督微调(SFT)语言模型 π_θ 开始
采样提示词: 从数据集抽取 N 个提示词批次 {x₁, x₂, …, x_N}
生成轨迹: 对每个提示词 x_i,通过从策略 π_θ 采样词元生成响应 y_i = (a₀, a₁, …, a_T)。每条轨迹是状态(提示词+目前生成的词元)和动作(选中的词元)的序列。
计算对数概率: 对每条轨迹,计算每个生成词元在其上下文下的对数概率:
计算奖励: 使用奖励模型对每个完整(提示词,响应)对评分: R(τ_i) = r_φ(x_i, y_i)
估计策略梯度: 使用(IV.V)计算梯度估计:
更新策略: 执行梯度上升步骤: θ ← θ + α ĝ
重复: 返回步骤 2 并迭代直到收敛

虽然 REINFORCE 提供无偏梯度估计,但存在两个使其在 LLM 训练中不实用的关键问题:

高方差: 梯度估计 ĝ 因采样的轨迹而有高方差。这种方差可能很大,导致梯度噪声和训练不稳定。

“
再看(IV.V),每个动作的梯度估计都由整条轨迹的回报 R(τ) 加权。这意味着即使某个动作很好,它也可能因为轨迹中其他动作导致差结果而收到负梯度更新(反之亦然)。在多个样本中,这种耦合引入的噪声可能很大,导致高方差。

在线策略约束(样本效率低): REINFORCE 需要从当前策略 π_θ 采样的轨迹。因此每次梯度更新后,之前收集的轨迹必须丢弃,需要从更新后的策略采样新轨迹。对于 LLM,每条轨迹需要对数十亿参数模型完整前向传播,这代价极高,尤其是需要许多小梯度步骤才能有效训练时。

五、降低方差与优势函数

REINFORCE 算法提供无偏梯度估计(IV.V)。但虽然无偏,该估计器存在高方差问题。

用 Reward-to-Go 替换完整轨迹回报(利用因果性)

第一个方差降低来自注意到时刻 t 采取的动作 a_t无法影响 t 之前接收的奖励。这是因果性的基本结果。这些过去的奖励项只贡献噪声给梯度估计,增加方差而不贡献任何信号。因此可以移除它们,只考虑rewards-to-go:

这给出更低方差的估计器:

其中 Ř_{i,t} = Σ_{t’=t}^T r_{i,t’} 是从时刻 t 开始的轨迹 i 的 rewards-to-go。

减去基线

第二个互补的方差降低技术是从奖励中减去基线b(s_t)。关键洞察是可以从奖励信号中减去任何不依赖动作的函数而不改变梯度的期望值。

因此可以从 rewards-to-go 中减去状态相关的基线 b(s_t) 得到无偏梯度估计器:

值函数: V^π(s) 和 Q^π(s,a)

基线仍是任意函数。为了使其更系统和具体,强化学习理论中有两个基本函数。

状态值函数:状态值函数V^π(s) 是智能体在状态 s 并按策略 π 行动时的期望回报:

直观上,V^π(s) 表示**“这个状态平均有多好?”**,用作基线 b(s) = V^π(s)。

动作值函数(Q 函数):动作值函数Q^π(s,a) 是从状态 s 开始采取动作 a 然后按策略 π 行动的期望回报:

直观上,Q^π(s,a) 表示**“这个特定动作在这个状态有多好?”**,在强化学习中,rewards-to-go 估计为 Q^π(s,a)。

在 LLM 场景:

V^π(s) 估计给定提示词+部分响应的期望奖励,假设模型继续按当前策略生成
Q^π(s,a) 估计从当前提示词+部分响应开始,如果模型生成特定下一个词元 a 然后继续按策略生成的期望奖励

优势函数

优势函数A^π(s,a) 衡量特定动作 a 相比策略下的平均动作好(或差)多少:

优势函数直接告诉:“这个特定动作相比在这个状态通常做的好多少?”这正是策略改进需要的信号。需要增加正优势动作的概率,减少负优势动作的概率。

“
来自 Umar Jamil 视频:
在 LLM 场景中考虑提示词是"上海在哪里?"且模型已生成"上海是"的状态。从这个状态:
如果模型采样词元"在"(导向"上海是在中国"),这个动作可能有正优势,因为它比模型可能产生的平均词元更好
如果模型采样词元"美味"(导向不连贯的响应),这个动作可能有负优势,因为它比模型可能产生的平均词元更差

优势加权策略梯度

代入 rewards-to-go 和值函数作为基线,得到策略梯度的如下形式:

可以写成:

基于样本的近似为:

其中 Â_{i,t} 是轨迹 i 时刻 t 的优势函数估计。这是常用的策略梯度形式。

实践中,A^π(s_t,a_t) 可如下估计:

学习值函数: 训练神经网络 V_φ(s)(常称"评论家"或"值头")逼近 V^π(s)。在 LLM 微调中,这通常是策略使用的同一 Transformer 骨干上的线性层。
从样本估计 Q^π: 给定轨迹,rewards-to-go Ř_t = Σ_{t’=t}^T γ^{t’} r_{t’} 提供 Q^π(s_t,a_t) 的无偏(但高方差)估计。
计算优势估计: Â_t = Ř_t - V_φ(s_t)

更复杂的方法如广义优势估计(GAE)通过使用多步回报的加权组合在高方差低偏差估计和低方差高偏差估计之间插值。详见 GAE 论文。

六、重要性采样与离线策略梯度

“
注意: 在强化学习文献中,“离线策略"通常指行为策略(生成数据)与目标策略(被优化)差异很大的方法,比如重用数千次更新前策略的转移。本节称为"离线策略"的更准确应称为"局部离线策略”。

优势加权策略梯度(V.IV)需要从当前策略 π_θ 采样的轨迹。这造成基本的低效率,即每次梯度更新 θ → θ’ 后,所有之前收集的轨迹都变"陈旧",必须丢弃这些轨迹并从更新后的策略采样新轨迹。

对于 LLM,每条轨迹需要对数十亿参数模型完整前向传播,这代价极高,尤其是需要许多小梯度步骤才能有效训练时。

需要一种方法为多次梯度更新重用相同轨迹。重要性采样提供了实现这一目标的数学机制!

重要性采样

重要性采样是使用从不同分布抽取的样本估计一个概率分布下期望的技术。考虑分布 p(x) 的期望:

可以通过乘除另一个分布 q(x)(其中 p(x)>0 处 q(x)>0)重写:

比率 p(x)/q(x) 称为重要性权重。这个恒等式告诉:

现在可以使用 q 的样本估计 p 下的期望,只要按概率比重新加权每个样本。

将重要性采样应用于策略梯度

可以将此技术应用于策略梯度设置。在线策略优势加权梯度(V.IV)是:

为应用重要性采样,在时间步层面而非轨迹层面工作(完整轨迹重要性权重有极高方差)。对单个时间步:

使用 π_{θ_old} 样本的重要性采样:

应用对数导数恒等式 ∇_θ log π_θ = (∇_θ π_θ)/π_θ,得到代理目标 L(θ),其梯度等于这个重要性加权策略梯度:

其中重要性加权代理目标也称**保守策略迭代(CPI)**目标:

还定义概率比为:

注意按构造 r_t(θ_old) = 1。因此 CPI 目标可写为:

其中 Â_t 是时间步 t 的估计优势,𝔼_t[·] 表示在 π_{θ_old} 下收集的样本批次上的经验平均。

这个目标有清晰的解释:

如果 Â_t > 0(动作优于平均),希望增加r_t(θ),即使新策略更可能采取这个动作
如果 Â_t < 0(动作劣于平均),希望减少r_t(θ),即使新策略更不可能采取这个动作

对应的基于样本的近似为:

离线策略学习:重用轨迹

CPI 目标使离线策略学习成为可能:可以从 π_{θ_old} 采样轨迹,存储它们,然后使用相同数据批次对 θ 执行多次梯度更新。典型工作流程变为:

收集: 从当前策略 π_{θ_old} 采样轨迹 {τ_i}
计算: 计算优势 Â_i,t} 和对数概率 log π_{θ_old}(a_{i,t}s_{i,t)
存储: 保存轨迹及其优势和旧对数概率
优化: 使用存储数据的小批次对 L^CPI(θ) 执行多次梯度上升步骤
重复: 设置 θ_old ← θ 并返回步骤 1

这极大提高了样本效率。不用在单次梯度步骤后丢弃轨迹,可以从每批昂贵的 LLM 推出中提取多次更新。

不稳定性问题

虽然 CPI 目标提高样本效率,无约束优化 L^CPI(θ) 是不稳定的。核心问题是当 π_θ 偏离 π_{θ_old} 太远时重要性采样变得不可靠:

极端概率比: 比率 r_t(θ) 可能变得任意大或小,破坏梯度估计的稳定性
陈旧优势: 估计 Â_t 是在 π_{θ_old} 下计算的,随着 π_θ 发散变得不准确。优化器可能利用这些陈旧估计,做出看似有益但实际有害的更新

实践中,无约束最大化 L^CPI(θ) 常导致过大的策略更新,造成灾难性性能崩溃。

“
LLM 场景(来自 Umar Jamil): 假设有一条模型生成"上海是在中国"的高优势轨迹。无约束优化可能大幅增加"中国"作为"上海是在"后下一个词元的权重——但这可能同时在其他地方造成意外的概率偏移,也许使模型在完全无关的上下文中过度倾向于说"中国",或以不可预测的方式破坏整个词汇表的概率质量分布。

需要一种机制约束 π_θ 不要偏离 π_{θ_old} 太远,保持比率 r_t(θ) 接近 1,同时仍允许有意义的策略改进。

七、信赖域策略优化(TRPO)

CPI 目标很有吸引力,因为它允许通过重要性比重用数据,但无约束优化是不稳定的。当 π_θ 偏离 π_{θ_old} 太远时,概率比 r_t(θ) 变得极端,优势估计 Â_t 变陈旧且可能被优化器利用。

信赖域策略优化(TRPO)的关键洞察是代理目标 L^CPI(θ) 只在 θ_old 的局部邻域内是真实目标的有效近似。TRPO 论文通过证明只要连续策略间的 KL 散度保持有界,策略性能就保证改进,形式化了这一点。这个理论结果促使将策略更新约束在代理目标保持可靠的"信赖域"内。详见 TRPO 论文的形式化证明。

TRPO 将这个洞察转换为约束优化问题,确保策略更新停留在代理目标保持可靠的"信赖域"内。

超参数 δ 定义信赖域大小,即连续策略间允许的最大散度。这个约束确保 r_t(θ) 保持接近 1,保持重要性加权估计的可靠性。

求解(VII.I)需要二阶优化。TRPO 线性近似目标,二次近似 KL 约束(使用 Fisher 信息矩阵),然后通过共轭梯度算法求解得到的问题,随后进行线搜索确保满足约束。

对于大规模 LLM 训练,这种方法不实用:

计算开销: 每次策略更新需要多次共轭梯度迭代和线搜索步骤,比标准梯度下降昂贵得多
内存需求: 计算 Fisher-向量积为数十亿参数模型增加大量内存开销

TRPO 背后的理论还建议使用KL 惩罚而非硬约束。这更易实现且计算效率更高。

然而,选择在不同问题甚至不同训练阶段都有效的惩罚系数 β 是出了名的困难。这促使了近端策略优化(PPO)的出现:一种一阶方法,通过裁剪代理目标而非显式约束实现 TRPO 的稳定性。

八、近端策略优化(PPO)

近端策略优化(PPO)仅使用一阶优化实现 TRPO 的稳定性保证。PPO 不是显式约束 KL 散度,而是修改目标函数本身,通过裁剪机制阻止大的策略更新。它使用标准梯度下降隐式限制策略移动的距离,提供"软"信赖域。

裁剪代理目标

第六节的 CPI 目标和概率比:

L^CPI 的问题是没有阻止 r_t(θ) 变得任意大或小。PPO 通过裁剪概率比使其保持在 [1-ε, 1+ε] 内解决这个问题:

其中 ε 是超参数(PPO 论文中 ε=0.2),裁剪函数定义为:

(VIII.I)中的 min 运算符很重要。它确保取裁剪和未裁剪目标之间更悲观(更低)的估计。这根据优势的符号创建不同行为:

情况 1:正优势 (Â_t > 0)

当动作优于平均时,希望增加其概率,意味着增加 r_t(θ)。目标变为:

如果 r_t(θ) ≤ 1+ε:目标是 r_t(θ)Â_t,所以梯度上升增加 r_t(θ)
如果 r_t(θ) > 1+ε:目标变为 (1+ε)Â_t

裁剪移除了将 r_t(θ) 增加到超过 1+ε 的动机。

情况 2:负优势 (Â_t < 0)

当动作劣于平均时,希望减少其概率,意味着减少 r_t(θ)。由于 Â_t < 0,乘以更小的 r_t 使乘积更不负(更大)。目标变为:

(负值的 min 在选择哪个 r_t 方面变成 max。)

如果 r_t(θ) ≥ 1-ε:目标是 r_t(θ)Â_t,所以梯度上升减少 r_t(θ)
如果 r_t(θ) < 1-ε:目标变为 (1-ε)Â_t

裁剪移除了将 r_t(θ) 减少到低于 1-ε 的动机。

这里的要点是 PPO 提供 L^CPI 的悲观下界。当更新会使事情"好得难以置信"时忽略它们。

“
LLM 场景(来自 Umar Jamil 视频): 在语言模型微调中,策略 π_θ(a_t|s_t) 是模型给定上下文 s_t(提示词+之前生成的词元)对词元 a_t 分配的概率。概率比 r_t(θ) 衡量微调模型相比参考策略生成特定词元的可能性增减程度。裁剪确保单次更新迭代中没有单个词元的概率能改变超过 (1±ε) 倍,防止模型对高优势词元"反应过度"。

PPO 目标

实践中,PPO 将裁剪策略目标与两个额外项结合:

1. 值函数损失 (L^VF): 回顾第五节,需要值函数 V_φ(s) 计算优势估计。值函数训练以最小化其预测与实际回报的平方误差:

其中 V_t^target 通常是折扣 return-to-go。当策略和值函数共享参数时(LLM 微调中常见,两者使用相同 Transformer 骨干),这个损失从目标中减去(因此是负号,因为最大化 L^PPO 但最小化 L^VF)。

2. 熵奖励 (S[π_θ]): 为鼓励探索并防止过早收敛到确定性策略,PPO 添加熵损失:

这里系数 c₁, c₂ > 0 控制正则化强度。

九、带 KL 惩罚的完整 PPO 目标

用"原版"PPO 微调 LLM 时,策略学习最大化奖励模型的奖励。但奖励模型是人类偏好的不完美代理,是在有限数据上训练的神经网络,可能被利用。没有约束,策略可能发现达到高奖励分数的对抗性输出,同时产生的文本:

退化为愚弄奖励模型的重复或无意义模式
偏离自然语言太远,失去流畅性和连贯性
利用奖励模型学到的虚假相关性

这种现象称为奖励黑客。策略找到"欺骗"奖励模型的方法,而非真正改进响应质量。

为防止奖励黑客,InstructGPT 论文添加KL 散度惩罚,正则化策略使其接近参考模型π_ref(通常是强化学习微调前的 SFT 模型)。

从第八节,PPO 目标(通过梯度上升最大化)包含三项:

裁剪策略目标值函数损失熵奖励

现在不直接使用原始奖励模型分数,而是定义KL 惩罚奖励,正则化策略使其接近参考模型 π_ref:

其中:

r_RM(s_t, a_t) 是时间步 t 的奖励信号
β 是 KL 惩罚系数
π_ref 是冻结的参考模型

在每个词元位置,KL 散度简化为:

实践中用采样的词元 a_t 估计这个期望,得到:

注意奖励模型 r_φ(x,y) 为完整响应 (x,y) 产生单个标量。这个分数只在最终词元T 分配,而 KL 惩罚应用于每个词元。

KL 惩罚有两个目的:

防止奖励黑客: 策略不能任意偏离自然语言
保持流畅性: 输出在分布上与训练良好的 SFT 模型保持相似

它通过修改的每词元奖励修改 PPO 中使用的优势估计 Â_t。但在数学上等价(且实现上更高效)的是直接将 KL 项添加到目标。带 KL 惩罚的 PPO 目标是:

原版目标惩罚项

第一项正是原版 PPO 使用裁剪代理优化的内容。KL 惩罚项作为单独的加性组件出现,惩罚与参考模型的偏离。将第一项替换为 PPO 裁剪代理:

综合所有组件,带 KL 惩罚的完整 PPO 目标(要最大化)是:

策略目标值损失熵奖励惩罚

这里每一项都有明确目的:

项	作用
策略目标L^CLIP	改进策略,同时通过裁剪防止破坏性更新
值损失c₁L^VF	训练评论家进行准确优势估计(减去以最小化)
熵奖励c₂S[π_θ]	鼓励探索,防止过早收敛
KL 惩罚βD_KL	防止奖励黑客,保持语言质量

重要的是区分完整损失中两个 KL 相关机制。PPO 裁剪机制作为短期锚点,约束单次更新中策略能改变多少;而 KL 惩罚是长期锚点,约束整个训练过程中策略能从起点偏离多远。

唐山市网站建设_网站建设公司_API接口_seo优化

引言

一、强化学习核心概念

二、RLHF 中的奖励模型

奖励模型的训练方法

奖励模型损失函数

三、轨迹与回报

轨迹

回报

四、策略梯度优化与 REINFORCE 算法

五、降低方差与优势函数

用 Reward-to-Go 替换完整轨迹回报(利用因果性)

减去基线

值函数: V^π(s) 和 Q^π(s,a)

优势函数

优势加权策略梯度

六、重要性采样与离线策略梯度

重要性采样

将重要性采样应用于策略梯度

离线策略学习:重用轨迹

不稳定性问题

七、信赖域策略优化(TRPO)

八、近端策略优化(PPO)

裁剪代理目标

PPO 目标

九、带 KL 惩罚的完整 PPO 目标

如何系统的学习大模型 AI ？

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

02.大模型 AI 学习和面试资料

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

热门文章

文章分类

标签云

需要专业的网站建设服务？

唐山市网站建设_网站建设公司_API接口_seo优化

引言

一、强化学习核心概念

二、RLHF 中的奖励模型

奖励模型的训练方法

奖励模型损失函数

三、轨迹与回报

轨迹

回报

四、策略梯度优化与 REINFORCE 算法

五、降低方差与优势函数

用 Reward-to-Go 替换完整轨迹回报(利用因果性)

减去基线

值函数: V^π(s) 和 Q^π(s,a)

优势函数

优势加权策略梯度

六、重要性采样与离线策略梯度

重要性采样

将重要性采样应用于策略梯度

离线策略学习:重用轨迹

不稳定性问题

七、信赖域策略优化(TRPO)

八、近端策略优化(PPO)

裁剪代理目标

PPO 目标

九、带 KL 惩罚的完整 PPO 目标

热门文章

文章分类

标签云

相关文章

AI赋能工作全攻略：从小白到高手的实用指南（建议收藏）

30岁转行逆袭：从建筑到AI，斩获北美大厂offer的蜕变之路

文读懂RAG技术：检索增强生成如何提升大模型性能（附完整实现流程）

需要专业的网站建设服务？