BuPO方法通过将大语言模型策略分解为内部层次策略,采用自下而上的优化方式,先强化底层基础推理能力,再优化整体决策。实验证明该方法在数学推理等复杂任务中表现优异,揭示了不同模型的独特推理模式,为LLM优化提供了透明化、可解释的新范式,已开源实现。
AIGC 深一度
用「公司决策层」类比揭开ChatGPT、DeepSeek等大模型内部推理的黑箱机制,新方法让AI推理能力飙升
你是否曾好奇,当向ChatGPT提出一个复杂数学题时,它是如何一步步推理出答案的?就像一家公司做重大决策需要经过基层调研、中层分析、高层拍板一样,最新研究发现 大语言模型的内部推理也遵循着严格的分层协作机制 ——而理解这一机制,能让我们更有效地优化AI模型!
今天要深入解读的论文《Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies》提出了一种革命性视角: 将LLM的整体策略分解为内部层次策略 ,并基于此设计了自下而上的优化方法BuPO,在多项复杂推理任务中取得显著突破。
PART 01
传统LLM优化的困境:整体优化就像“一刀切”
在深入新技术之前,我们先了解传统方法为何效率低下。
现有的强化学习方法是把整个语言模型当作一个“黑箱”来优化 。这就好比公司CEO要对全体员工进行“一刀切”的管理,无法针对不同部门的特点进行精细化指导。
论文作者发现,这种 粗放式的整体优化完全忽略了模型内部丰富的信息流动机制 。实际上,Transformer架构的LLM内部存在着清晰的“分工协作”:
如图1所示,信息在Transformer内部通过残差连接流动,每一层都在前一层的基础上添加新的“思考内容”。这种结构天然支持我们对每一层的“思考过程”进行单独观察和优化。
PART 02
内部策略分解:发现LLM的“部门职能分工”
论文的核心创新点在于提出了 内部策略分解 的概念,将LLM的整体推理策略分解为两个维度:
层次策略:不同楼层,不同职能
想象一栋36层的办公大楼,每个楼层负责不同的工作:
低楼层(1-6层):接待处,广泛收集信息
中间楼层(7-26层):分析部门,整合处理信息
高楼层(27-36层):决策层,做出最终判断
论文通过数学公式定义了第l层的内部策略:
πᵢᵃʸᵉʳˡ = softmax(HˡEᵤᵀ)
其中Hˡ是第l层的隐藏状态,Eᵤ是解嵌入矩阵。这意味着 每一层的输出都可以被单独“采样”和优化 。
模块策略:部门内的小组分工
每个楼层内还有更精细的分工:
自注意力模块:像会议讨论,整合上下文信息
前馈网络(FFN):像档案室,存储和提取知识
论文分别定义了这两个模块的策略:
πᴬᵀᵀᴺ和πᶠᶠᴺ ,让我们能够观察每个模块的独立贡献。
PART 03
熵分析:用“不确定性”度量LLM的思考过程
为了量化分析LLM的推理过程,论文引入了 内部策略熵 的概念。熵值越高,代表模型的不确定性越大,探索空间越广。
通过系统性的熵分析,研究人员发现了LLM推理的普遍规律和个体差异:
通用模式:所有模型共有的推理节奏
早期层保持高熵值 ,像头脑风暴阶段,广泛探索各种可能性:“这个问题可以用哪些方法解决?”
高层逐渐收敛到接近零的熵值 ,像决策拍板阶段:“基于以上分析,最终答案应该是X。”
模型差异:不同“公司文化”导致不同决策风格
有趣的是,不同模型系列展现出截然不同的推理“个性”:
Llama模型 :像 快速决断的创业公司
在最后三层突然收敛
中间层较少整合信息
推理过程较为“跳跃”
Qwen系列(特别是Qwen3) :像 稳健决策的成熟企业
展现渐进式推理,更接近人类思考
FFN模块呈现清晰的“探索-整合-收敛”三阶段
图3生动展示了Qwen3独特的推理模式:下层探索、中层整合、上层收敛,这种 渐进式推理结构可能是其强大推理能力的关键 。
PART 04
BuPO方法:自下而上的优化新范式
基于这些发现,论文提出了 Bottom-up Policy Optimization(BuPO)方法 ,其核心思想是:既然推理是自下而上产生的,那么优化也应该自下而上进行!
传统方法 vs BuPO方法
传统方法 :直接优化最终输出策略
相当于只培训CEO,期望改进整个公司
难以针对性地加强基础能力
BuPO方法 :先优化底层策略,再优化整体策略
先培训基层员工,打好基础
再培训中层管理者,最后优化高层决策
实现分层渐进式的精准优化
BuPO的具体训练过程
BuPO的训练分为两个清晰阶段:
# 选择特定层l进行内部策略优化internal_policy = softmax(layer_hidden_states * unembedding_matrix)# 只更新该层及以下层的参数- 阶段1:内部策略优化(前sᵢₙₜₑᵣ步)
这一阶段针对选定的内部层策略进行专门优化, 强化基础推理能力 。
- 阶段2:整体策略优化
转为标准的语言模型策略优化,但此时底层已经具备了更强的推理基础。
图4显示,BuPO训练初期能够 保持更高的探索熵值 ,为模型提供更丰富的探索空间。
PART 05
实验结果:复杂推理任务表现显著提升
在MATH500、AMC23、AIME24、AIME25等复杂数学推理基准测试中,BuPO consistently超越传统强化学习方法:
Qwen3系列表现突出
Qwen3-4B模型 :
AIME24:36.88分 → 比GRPO提升4.69分
AIME25:31.15分 → 提升2.30分
整体平均性能显著提升
Qwen3-8B模型 :
AIME24:54.06分 → 提升4.58分
在所有测试集上一致优于基线方法
Llama系列同样受益
Llama-OctoThinker-8B-Base :
MATH500:62.05分 → 提升5.16分
AIME25:6.77分 → 提升4.58分
综合评估显示强大稳定性
为了全面评估方法效果,研究人员还测试了 Pass@K指标 (生成K个答案中至少有一个正确的概率):
图5显示,BuPO在 广泛的K值范围内都保持优势 ,说明其生成高质量答案的稳定性显著提升。
PART 06
深度分析:为什么BuPO有效?
特征精炼现象
研究发现,BuPO优化过程中出现了 内部状态的特征精炼 :
如图6所示,在优化底层内部策略时, 底层隐藏状态与高层表示的相似度逐渐增加 。这意味着底层网络被迫提前学习高级推理特征,为后续推理打下更好基础。
适度优化原则
研究还发现了一个重要规律: 不是优化得越多越好 。
当内部策略优化步数(sᵢₙₜₑᵣ)过长时,模型性能反而下降:
sᵢₙₜₑᵣ=30步:性能最佳
sᵢₙₜₑᵣ=70步:性能崩溃
这体现了 适度优化的原则 :底层优化需要把握恰当的“度”,既要强化基础能力,又要避免与整体目标偏离过大。
PART 07
技术启示与未来展望
这项研究为LLM优化提供了多重启示:
方法论转变
从“黑箱优化”到“透明优化”
传统方法:整体优化,效果难以解释
BuPO方法:分层优化,过程可解释、可控制
从“结果导向”到“过程导向”
不仅关注最终答案是否正确
更重视推理过程的合理性和稳定性
架构设计指导
不同模型的推理模式差异为未来架构设计提供重要洞见:
Qwen3的渐进式推理可能代表更优的架构选择
FFN模块的三阶段工作模式值得在架构设计中保留和强化
应用前景广阔
BuPO方法可应用于:
数学推理:已验证有效
科学推理:物理、化学问题求解
逻辑推理:法律、哲学论证
编程代码:复杂算法生成
PART 08
实践建议:如何应用BuPO思想
对于AI实践者,这项研究提供了一些实用建议:
模型选择倾向
对于需要强推理能力的应用场景, 优先选择显示渐进式推理模式的模型 (如Qwen3系列)。
优化策略调整
在微调LLM时,可以 采用分层学习率策略 :底层使用较小学习率强化基础能力,高层使用正常学习率。
评估指标丰富化
除了传统的准确率指标, 增加过程性指标的监控 ,如不同层的熵值变化、推理路径稳定性等。
PART 09
结语:LLM优化进入“精准医疗”时代
这项研究标志着LLM优化从“粗放式管理”进入“精准医疗”时代。就像好医生不仅要治标还要治本,好的AI优化方法需要深入理解模型的“身体结构”和“思考方式”。
BuPO的开源实现已在GitHub发布,为研究者和实践者提供了探索LLM内部机制的有力工具。随着越来越多研究者加入内部机制探索的行列,我们正迎来大语言模型 透明化、可控性、可解释性的新时代 !
如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
01.大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。