北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界当强化学习(RL)成为大模型后训练...

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

该项目由北京大学彭一杰教授课题组完成 ,第一作者为任韬,其他作者包括江金阳、杨晖等。

研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界

当强化学习(RL)成为大模型后训练的核心工具 ,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式 。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限 ,真正掌握深度推理逻辑 —— 但现实是,以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

这些基于均值的优化策略,过度聚焦高概率输出序列 ,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对全错的难题时,优势函数直接归零 ,模型在薄弱环节完全无法学习。最终结果是 ,大模型看似在 Pass@1 等短视指标上有提升,实则推理边界从未拓宽,更无法应对 AIME 竞赛题、复杂代码生成这类高难度任务 。如何让模型主动「啃硬骨头」 ,成为大模型后训练的关键瓶颈。

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

AIME2024 上的学习表现

技术方案概述:用「风险度量」破局,MVaR + 捆绑策略双管齐下

为解决传统均值优化的缺陷 ,北大团队提出 RiskPO,核心突破在于将风险规避(risk-averse)理念融入优化目标,用「关注奖励分布左尾(难任务)」替代「追求整体均值」 ,从根本上引导模型突破推理短板。

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

  • 论文链接:https://arxiv.org/abs/2510.00911v1
  • 代码链接:https://github.com/RTkenny/RiskPO
北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

北大彭一杰教授课题组提出RiskPO	,风险度量优化重塑大模型后训练

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

为配合 MVaR 目标 ,团队提出「多问题捆绑」策略 ,将多个问题打包成 bundle 计算奖励,把稀疏的二进制反馈转化为更丰富的分布信号,彻底解决「难题零梯度」问题 —— 比如将 5 个数学题打包后 ,模型能从整体得分中捕捉到「部分正确」的学习信号,而非单个题目非对即错的极端反馈 。

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

算法架构图

实验:三大任务全面碾压 ,难问题上优势更显著

好的技术方案,终要靠硬指标说话。北大团队在数学推理 、代码生成、多模态推理三大领域的 10 余个数据集上,用数据证明了 RiskPO 的突破性 —— 尤其在最能体现推理能力的「硬任务」上 ,优势远超 GRPO 及其变体。

在数学推理领域,RiskPO 在 AIME24(美国数学邀请赛)任务上表现惊艳:Pass@32 得分比 GRPO 高出近 7 个百分点,比最强基线 DAPO 提升 6.7 个百分点;即便是相对简单的 MATH500 数据集 ,其 Pass@1 也达到 81.8%,超出 GRPO 2.6 个百分点 。

更关键的是,随着评估指标从 Pass@1 转向 Pass@8、Pass@16 ,RiskPO 的优势持续扩大 —— 这意味着模型不仅能给出更优的单条答案 ,还能探索更多有效推理路径,真正突破了「采样效率优化」的局限。

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

数学推理任务

北大彭一杰教授课题组提出RiskPO	,风险度量优化重塑大模型后训练

Pass@k 学习曲线

在跨领域任务中,RiskPO 同样稳定领先:代码生成任务 LiveCodeBench 上,Pass@1 比 GRPO 提升 1 个百分点;多模态几何推理任务 Geo3K 上 ,准确率达到 54.5%,优于 DAPO 的 54.3%。这种「全场景增益」,证明了风险度量优化的泛化能力 。

北大彭一杰教授课题组提出RiskPO	,风险度量优化重塑大模型后训练

其他任务

理论 + 消融:熵坍缩缓解有依据,参数设计有章法

RiskPO 的性能突破,并非依赖工程调参 ,而是有扎实的理论支撑和严谨的消融实验验证 。

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

高熵更新定理

从理论层面,团队证明了「风险规避更新」能有效缓解熵坍缩:通过分析策略熵的变化机制 ,发现 RiskPO 的 MVaR 目标函数能降低「优势 - 对数概率」的相关性 —— 相比 GRPO ,模型不会过度强化已掌握的易任务,从而保持更高的熵值和探索能力。

实验中也能清晰看到:训练 500 步后,GRPO 的熵值已趋近于 0 ,而 RiskPO 仍能维持 0.2 以上的熵水平,确保对难任务的持续探索。

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

训练集 DAPOMATH-17k 上的各项指标

值得注意的是 ,在训练过程中,若仅观察以均值为核心的指标曲线(如平均奖励),GRPO 与 RiskPO 的表现几乎难分伯仲 ,甚至 RiskPO 因更高的探索性还伴随轻微波动;但切换到风险敏感指标(如下尾 RVaR 、MVaR 奖励)时,两者差距立刻凸显 ——RiskPO 的曲线始终保持显著领先,且随训练推进持续攀升 。

这种「均值相近、风险指标悬殊」的现象 ,再结合最终测试集上 RiskPO 在 Pass@k(尤其是高 k 值)、难任务(如 AIME 竞赛题)上的优势,进一步印证了:均值目标只能让模型在「已知能力范围内优化采样效率」,而风险度量目标才是推动模型突破推理边界 、真正提升核心能力的理想方向。

北大彭一杰教授课题组提出RiskPO	,风险度量优化重塑大模型后训练

不同风险偏好对比实验

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

结果显示,风险寻求模型的熵值在训练早期就剧烈坍缩 —— 训练 150 步后熵值已降至 0.1 以下,远低于 RiskPO 的 0.2;性能上 ,风险寻求模型在训练 50 步后便进入平台期,MATH 数据集 Pass@1 仅从 52% 提升至 54%,而 RiskPO 则持续优化至 56% ,实现 1.5 倍的提升幅度。

这一对比清晰证明,聚焦易任务的风险寻求策略会加速模型「固步自封」,只有风险规避才能驱动模型突破推理边界

本文来自作者[苦卓尚]投稿,不代表视听号立场,如若转载,请注明出处:https://stddy.com/zheh/202510-52409.html

(2)

文章推荐

  • 沈阳5地升为中风险/沈阳部分地区调整为中风险

    沈阳两地升为中风险,我们该如何做好个人防护?出去外面一定要戴口罩,回到家里手要用消毒清洁剂清洗。通过去年的疫情,我们很多人都知道这一点是很重要的,因为出去外面难免会接触到别人接触过得东西,回来不消毒洗手的话,不经意间就会用手揉眼睛和拿东西吃。从中风险地区(如沈阳的中风险区域)返穗的人员,原则上自抵

    2025年07月07日
    84
  • 【微信小程序麻将赢的诀窍(揭秘小程序输赢技巧),小程序麻将有什么规律】

    打麻将老输怎么办〖壹〗、如果你发现自己连续在麻将桌上输牌,这可能是某种不吉之兆。为了扭转这种不利局面,你需要及时采取行动。以下是一些建议,可以帮助你改变运气。尽量不要在靠近书架的地方打麻将,因为书架通常与不利的寓意相关。如果实在无法避免,确保书架不要正对你。如果可能,寻找其他地点进行游戏,这可能

    2025年07月26日
    75
  • 胜率设置方法“星悦云南麻将有挂吗(专用辅牌神器免安装)

    这软件超神无敌!微乐河北斗地主系统怎么控牌(是否能开挂)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐河北斗地主系统怎么控牌是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

    2025年08月31日
    49
  • 终于发现“手机打麻将软挂神器(助赢神器通用版)

    这软件超好用!海迅手机麻将的规律与技巧(小程序必赢神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”海迅手机麻将的规律与技巧是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年09月01日
    41
  • 教程辅助“普通自动麻将机可以受电子产品干扰吗?(助赢神器通用版)

    软件神器超酷!微信小程序雀神麻将插件(插件开挂免费AI)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序雀神麻将插件是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月07日
    35
  • 实测结果“如何安装微信红包埋雷挂”(详细透视教程)-今日头条

    软件神器超闪!欢喜广西麻将竟然有挂神器(助攻神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”欢喜广西麻将竟然有挂神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用

    2025年09月13日
    27
  • 玩家必备教程“小程序广东雀神辅助器(助赢神器通用版)

    软件神器登场!友友邳州麻将胡牌器(有哪些猫腻)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”友友邳州麻将胡牌器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微

    2025年09月19日
    25
  • 3分钟学会“微信红包扫雷作弊器开挂”(详细透视教程)-今日头条

    软件神器超棒!微信小程序微乐麻将如何让系统发好牌(辅牌器插件购买)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序微乐麻将如何让系统发好牌是一款可以让一直输的玩家,快速成为一个“必胜”

    2025年09月24日
    24
  • 实测教程“手机拼三张怎么才会赢(助赢神器通用版)

    软件神器超亮眼!微信程序微乐麻将攻略怎么拿好牌(神器通用版)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信程序微乐麻将攻略怎么拿好牌是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助

    2025年09月24日
    27
  • 疫情北京/疫情北京死亡多少例

    北京疫情防控中心电话24小时?北京疫情防控中心电话是12320,全天候24小时在线。北京疫情防控中心电话是一个重要的服务热线,负责处理与疫情防控相关的问题和询问。以下是关于该电话的电话功能与服务范围:北京疫情防控中心电话12320是北京市政府设立的官方热线,主要用于提供疫情防控相关的询问、报告、

    2025年07月01日
    77

发表回复

本站作者后才能评论

评论列表(4条)

  • 苦卓尚
    苦卓尚 2025年10月16日

    我是视听号的签约作者“苦卓尚”!

  • 苦卓尚
    苦卓尚 2025年10月16日

    希望本篇文章《北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练》能对你有所帮助!

  • 苦卓尚
    苦卓尚 2025年10月16日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 苦卓尚
    苦卓尚 2025年10月16日

    本文概览:该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界当强化学习(RL)成为大模型后训练...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们