北大彭一杰教授课题组提出RiskPO，风险度量优化重塑大模型后训练

苦卓尚 • 2025年10月16日 08:02 • 综合 • 阅读 86

该项目由北京大学彭一杰教授课题组完成，第一作者为任韬，其他作者包括江金阳、杨晖等。研究背景与挑战：大模型后训练陷入「均值陷阱」，推理能力难破界当强化学习（RL）成为大模型后训练...

该项目由北京大学彭一杰教授课题组完成，第一作者为任韬，其他作者包括江金阳、杨晖等。

研究背景与挑战：大模型后训练陷入「均值陷阱」，推理能力难破界

当强化学习（RL）成为大模型后训练的核心工具，「带可验证奖励的强化学习（RLVR）」凭借客观的二元反馈（如解题对错），迅速成为提升推理能力的主流范式。从数学解题到代码生成，RLVR 本应推动模型突破「已知答案采样」的局限，真正掌握深度推理逻辑 —— 但现实是，以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

这些基于均值的优化策略，过度聚焦高概率输出序列，却忽略了「低概率但高信息密度」的推理路径：模型训练早期就会出现熵坍缩，过早丧失探索能力；面对全错的难题时，优势函数直接归零，模型在薄弱环节完全无法学习。最终结果是，大模型看似在 Pass@1 等短视指标上有提升，实则推理边界从未拓宽，更无法应对 AIME 竞赛题、复杂代码生成这类高难度任务。如何让模型主动「啃硬骨头」，成为大模型后训练的关键瓶颈。

AIME2024 上的学习表现

技术方案概述：用「风险度量」破局，MVaR + 捆绑策略双管齐下

为解决传统均值优化的缺陷，北大团队提出 RiskPO，核心突破在于将风险规避（risk-averse）理念融入优化目标，用「关注奖励分布左尾（难任务）」替代「追求整体均值」，从根本上引导模型突破推理短板。

论文链接：https://arxiv.org/abs/2510.00911v1
代码链接：https://github.com/RTkenny/RiskPO

为配合 MVaR 目标，团队提出「多问题捆绑」策略，将多个问题打包成 bundle 计算奖励，把稀疏的二进制反馈转化为更丰富的分布信号，彻底解决「难题零梯度」问题 —— 比如将 5 个数学题打包后，模型能从整体得分中捕捉到「部分正确」的学习信号，而非单个题目非对即错的极端反馈。

算法架构图

实验：三大任务全面碾压，难问题上优势更显著

好的技术方案，终要靠硬指标说话。北大团队在数学推理、代码生成、多模态推理三大领域的 10 余个数据集上，用数据证明了 RiskPO 的突破性 —— 尤其在最能体现推理能力的「硬任务」上，优势远超 GRPO 及其变体。

在数学推理领域，RiskPO 在 AIME24（美国数学邀请赛）任务上表现惊艳：Pass@32 得分比 GRPO 高出近 7 个百分点，比最强基线 DAPO 提升 6.7 个百分点；即便是相对简单的 MATH500 数据集，其 Pass@1 也达到 81.8%，超出 GRPO 2.6 个百分点。

更关键的是，随着评估指标从 Pass@1 转向 Pass@8、Pass@16 ，RiskPO 的优势持续扩大 —— 这意味着模型不仅能给出更优的单条答案，还能探索更多有效推理路径，真正突破了「采样效率优化」的局限。

数学推理任务

Pass@k 学习曲线

在跨领域任务中，RiskPO 同样稳定领先：代码生成任务 LiveCodeBench 上，Pass@1 比 GRPO 提升 1 个百分点；多模态几何推理任务 Geo3K 上，准确率达到 54.5%，优于 DAPO 的 54.3%。这种「全场景增益」，证明了风险度量优化的泛化能力。

其他任务

理论 + 消融：熵坍缩缓解有依据，参数设计有章法

RiskPO 的性能突破，并非依赖工程调参，而是有扎实的理论支撑和严谨的消融实验验证。

高熵更新定理

从理论层面，团队证明了「风险规避更新」能有效缓解熵坍缩：通过分析策略熵的变化机制，发现 RiskPO 的 MVaR 目标函数能降低「优势 - 对数概率」的相关性 —— 相比 GRPO，模型不会过度强化已掌握的易任务，从而保持更高的熵值和探索能力。

实验中也能清晰看到：训练 500 步后，GRPO 的熵值已趋近于 0 ，而 RiskPO 仍能维持 0.2 以上的熵水平，确保对难任务的持续探索。

训练集 DAPOMATH-17k 上的各项指标

值得注意的是，在训练过程中，若仅观察以均值为核心的指标曲线（如平均奖励），GRPO 与 RiskPO 的表现几乎难分伯仲，甚至 RiskPO 因更高的探索性还伴随轻微波动；但切换到风险敏感指标（如下尾 RVaR 、MVaR 奖励）时，两者差距立刻凸显 ——RiskPO 的曲线始终保持显著领先，且随训练推进持续攀升。

这种「均值相近、风险指标悬殊」的现象，再结合最终测试集上 RiskPO 在 Pass@k（尤其是高 k 值）、难任务（如 AIME 竞赛题）上的优势，进一步印证了：均值目标只能让模型在「已知能力范围内优化采样效率」，而风险度量目标才是推动模型突破推理边界、真正提升核心能力的理想方向。

不同风险偏好对比实验

结果显示，风险寻求模型的熵值在训练早期就剧烈坍缩 —— 训练 150 步后熵值已降至 0.1 以下，远低于 RiskPO 的 0.2；性能上，风险寻求模型在训练 50 步后便进入平台期，MATH 数据集 Pass@1 仅从 52% 提升至 54%，而 RiskPO 则持续优化至 56% ，实现 1.5 倍的提升幅度。

这一对比清晰证明，聚焦易任务的风险寻求策略会加速模型「固步自封」，只有风险规避才能驱动模型突破推理边界

本文来自作者[苦卓尚]投稿，不代表视听号立场，如若转载，请注明出处：https://stddy.com/zheh/202510-52409.html

86 4

本文作者

苦卓尚签约作者

486 文章

6394078 评论

1 粉丝

我是视听号的签约作者[苦卓尚],本篇文章《北大彭一杰教授课题组提出RiskPO，风险度量优化重塑大模型后训练》主要讲述了:该项目由北京大学彭一杰教授课题组完成，第一作者为任韬，其他作者包括江金阳、杨晖等。研究背景与挑战：大模型后训练陷入「均值陷阱」，推理能力难破界当强化学习（RL）成为大模型后训练...

常识科普

实测教程“手机拼三张辅助挂下载（助赢神器通用版）

这软件超神啦!欢乐卡五星可以开挂的(为啥总是输)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”欢乐卡五星可以开挂的是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以

笑南
2025年09月06日
101
综合

今日实测“钱塘十三水如何拿到好牌”（详细透视教程）-今日头条

软件神器超棒!打哈儿麻将辅牌器购买(自建房怎么赢)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”打哈儿麻将辅牌器购买是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可

惜凡
2025年09月18日
84
百科栏目

玩家实测“手机金花透牌器”（详细透视教程）-今日头条

神器真的超好用!财神十三张辅助器(万能开挂器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”财神十三张辅助器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加微下

令狐子骞
2025年09月29日
90
作者专栏

教程辅助“闲来十三水怎么拿好牌（助赢神器通用版）

软件神器优选!微乐捉鸡麻将控牌器(小程序控牌器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐捉鸡麻将控牌器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加

恽志远
2025年10月10日
83
新闻资讯

从确诊到去世仅15天，“央视最帅主持人”的遭遇为人们敲响警钟

顾国宁在学生时期参与学校文艺演出和演讲比赛。1997年，他通过专业统考进入中国传媒大学播音与主持专业，当时黑龙江省仅有两个招生名额。他在校期间担任班长，并在湖边练习发声，在图书馆研读播音理论。大三时，他获得央视电影频道实习机会，负责现场协助、稿件修改和设备管理。2003年毕业后，他进入央视工作，最初

孤风
2025年11月04日
71
新闻资讯

钱再多也无用！64岁身价千万的蔡明如今现状，给中年女人提了个醒

说起蔡明，谁不知道她是春晚舞台上的常青树？28次登上春晚，身价千万，在娱乐圈的地位那是相当稳固。可就是这样一个事业成功的女人，64岁了却天天为儿子的婚事发愁。如今，39岁的儿子铁了心不结婚，这让当妈的追悔莫及。而蔡明的现状，也给所有中年女人提了个醒！有再多钱也没用靠着数十年的演艺生涯，蔡明早就赚得盆

欧沐阳
2025年12月23日
40
游戏攻略

在这个见不得光的行业：有人被骗数万，有人怕被警方找上门

自1995年首款游戏外挂程序Zmud问世，这场跨越30年的“作弊狂欢”从未停歇。如今，外挂早已挣脱“简单作弊工具”的桎梏，长成了一个覆盖技术研发、多级分销、舆论操控的“地下黑金帝国”，其规模与嚣张程度，正达到历史峰值。《2025上半年游戏安全洞察报告》的数据触目惊心：2025

安白
2025年12月25日
40
生活经验

尼日利亚证实美国对ISIS总部发动空袭，特朗普：这是“完美行动”

尼日利亚外交部于当地时间12月29日证实，美国已通过空袭对尼日利亚境内恐怖分子目标发动了“精确打击”。此次军事行动发生在美国总统特朗普宣布对尼日利亚西北部地区伊斯兰国（ISIS）武装组织发动大规模攻击之后。尼日利亚政府在声明中指出，此次打击是与国际伙伴开展“有组织的安全合作”的一部分，旨在应对该国持

摩志信
2025年12月26日
41
游戏攻略

全民如意麻将确实有挂吗(其实确实有挂)(全民麻将合集)

春节有什么民风民俗〖壹〗、春节是中国最重要的传统节日之一，有着丰富多彩的民风民俗，主要包括以下习俗：新春扫尘：这是春节期间的传统习俗之一，意味着送旧迎新。扫尘是年终的大扫除，每个家庭成员在过年之前都会参与，代表着对旧年的告别和对新一年的期盼。同时，大扫除也具有辟邪除灾、迎祥纳福的美好寓意。〖贰〗、

厍子儒
2025年07月21日
137
作者专栏

实测结果“上门安装麻将程序要多少钱（助赢神器通用版）

超绝软件神器!欢乐陕西麻将神器通用版(怎么能让牌好一点)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”欢乐陕西麻将神器通用版是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

海白
2025年10月09日
83

发表回复

本站作者后才能评论

评论列表（4条）

苦卓尚 2025年10月16日

我是视听号的签约作者“苦卓尚”！

回复
苦卓尚 2025年10月16日

希望本篇文章《北大彭一杰教授课题组提出RiskPO，风险度量优化重塑大模型后训练》能对你有所帮助！

回复
苦卓尚 2025年10月16日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
苦卓尚 2025年10月16日

本文概览：该项目由北京大学彭一杰教授课题组完成，第一作者为任韬，其他作者包括江金阳、杨晖等。研究背景与挑战：大模型后训练陷入「均值陷阱」，推理能力难破界当强化学习（RL）成为大模型后训练...

回复

北大彭一杰教授课题组提出RiskPO，风险度量优化重塑大模型后训练

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们