斯坦福新论文：微调已死，自主上下文当立

山蝶 • 2025年10月11日 16:02 • 知识分享 • 阅读 50

时令发自凹非寺量子位 | 公众号 QbitAI是时候为传统微调献上挽歌了。一项全新研究，刚刚又给微调致命一击。来自斯坦福大学、SambaNova Systems公司和加州大...

时令发自凹非寺

量子位 | 公众号 QbitAI

是时候为传统微调献上挽歌了。

一项全新研究，刚刚又给微调致命一击。

来自斯坦福大学、SambaNova Systems公司和加州大学伯克利分校的研究人员，在新论文中证明：

依靠上下文工程，无需调整任何权重，模型也能不断变聪明。

他们提出的方法名为智能体上下文工程ACE。

ACE不依赖模型重新训练，而是让上下文自主进化，通过反复生成、反思并编辑自己的提示，直至成为一个自我完善的系统。

在智能体和特定领域的基准测试中，ACE能同时优化离线上下文（如system prompt）和在线上下文（如agent memory），并稳定优于强力基线模型。

下面具体来看。

ACE框架

现在很多AI应用（比如自动处理财务数据的工具、能调用APP的智能助手）都靠 “上下文适配” 来提升能力。

简单来说，就是不给模型改底层参数，而是在输入里加指令、策略或证据，但老方法有两个大问题：

简洁偏置

为了让输入简短，把关键细节丢了。比如只说 “处理财务数据”，却没说 “要按XBRL格式核对数值 ”，导致模型犯错。

上下文崩溃

反复修改输入时，模型会把之前积累的有用信息越改越短、越改越没用。比如原本有1.8万个token的实用策略，准确率为66.7，改一次就剩122个token ，效果却下降到57.1。

ACE就是为了解决这两个问题来的，与将知识压缩为简短摘要或静态指令的方法不同，它将上下文视为不断演化的操作手册，能够随时间不断累积、优化并组织策略。

基于Dynamic Cheatsheet的智能体设计，ACE把模型的 “上下文优化” 拆成分工明确的三个角色。

生成器（Generator）：负责生成推理轨迹；
反思器（Reflector）：负责从成功和错误中提炼具体见解；
整理器（Curator）：负责将这些见解整合到结构化的上下文更新中。

如上图所示，工作流程首先由生成器针对新查询生成推理轨迹，这些轨迹既能呈现有效策略，也会暴露常见错误。

随后，反思器对这些轨迹进行评析，从中提炼出经验教训，并可选择通过多轮迭代加以优化。

接着，整理器将这些经验合成为简洁的增量条目，再经由轻量级的非LLM逻辑，以确定性的方式将其合并至现有上下文中。

由于更新内容被逐项分解并局部化，多个增量得以并行合并，从而实现大规模的批量适应。

此外，ACE还支持多轮次适应机制，即对同一组查询进行反复学习，逐步强化上下文质量。

ACE在两大场景中全面超越基线

实验结果表明，在智能体和财务分析两大场景中，ACE稳定优于Base LLM（无适配）、ICL（少样本演示）、GEPA（主流prompt优化）、Dynamic Cheatsheet（动态备忘单）等方法。

在智能体测试中，研究团队采用的是AppWorld，它是一套自主智能体任务集合，涵盖API理解、代码生成和环境交互。

结果显示，ReAct+ACE相比ReAct+ICL和ReAct+GEPA分别领先12.3%和11.9%，优势显著。这表明，与固定的演示示例或单一优化指令提示相比，结构化、可演进且精细化的上下文能够更有效地促进智能体学习。

这一优势在在线场景中同样得以延续：ACE平均以7.6%的性能提升领先于Dynamic Cheatsheet等现有自适应方法。

在财务分析中，研究者选用FiNER和Formula来测评模型的金融推理能力，其任务依赖可扩展商业报告语言（XBRL）。

FiNER要求对XBRL财务文档中的token进行标注，将其归类为139种细粒度实体类型之一，这是在受监管领域进行金融信息抽取的关键步骤。
Formula则侧重于从结构化XBRL报告中提取数值，并通过计算回答金融查询，即进行数值推理任务。

在离线环境下，当模型获得训练集中的真实答案作为输入时，ACE以平均10.9%的优势明显超越了ICL 、MIPROv2和GEPA。

此外，ACE在降低自适应成本（如尝试次数和token输入/生成的费用）与延迟方面展现出显著优势。

具体而言，在AppWorld的离线自适应任务中，与GEPA相比，ACE将自适应延迟降低了82.3%，并将尝试次数减少了75.1%。

在FiNER的在线自适应场景中，与DC相比，ACE实现了91.5%的自适应延迟降低，并在token输入与生成的相关费用上节省了83.6%。

华人出品

这项研究的两位一作都是华人。

Qizheng Zhang，斯坦福大学计算机科学系四年级博士生。此前在芝加哥大学获得了数学、计算机科学和统计学三个专业的学士学位。

本科期间，他就与Junchen Jiang和Ravi Netravali两位教授合作开展计算机网络研究，专注于面向视频流与分析的网络系统设计。

此外，他还在美国阿贡国家实验室数学与计算机科学部（MCS）和微软研究院实习过。

Changran Hu，本科毕业于清华大学，硕士毕业于加州大学伯克利分校。

20岁时，他就成为了一家AI音乐生成公司DeepMusic的联合创始人，成功获得来自中国顶级企业的1000万美元投资，并与多位中国流行歌手（如周杰伦、李健）建立合作。

随后，他以应用科学家实习生的身份加入微软，并于2021年成为Sambanova Systems研究工程师，随后晋升为技术主管兼经理，主要负责模型后训练与智能体AI相关研发工作。

参考链接：
[1]https://x.com/rryssf_/status/1976269613072843063
[2]http://arxiv.org/abs/2510.04618
[3]https://openreview.net/profile?id=~Qizheng_Zhang1
[4]https://www.linkedin.com/in/changran-hu/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

本文来自作者[山蝶]投稿，不代表视听号立场，如若转载，请注明出处：https://stddy.com/zsfx/202510-51638.html

50 4

本文作者

山蝶签约作者

320 文章

3939540 评论

1 粉丝

我是视听号的签约作者[山蝶],本篇文章《斯坦福新论文：微调已死，自主上下文当立》主要讲述了:时令发自凹非寺量子位 | 公众号 QbitAI是时候为传统微调献上挽歌了。一项全新研究，刚刚又给微调致命一击。来自斯坦福大学、SambaNova Systems公司和加州大...

生活经验

中国哪里疫情少（中国那个地方疫情少）

中国没有疫情的省份有哪些?中国目前没有省份完全没有报告疫情。所有省份都可能出现疫情报告，从东部沿海的江苏、浙江到西部地区的甘肃、辽宁、黑龙江、安徽、福建、山东、广东、吉林、河北、湖北、山西、江西、海南、河南、四川、贵州、云南、湖南、陕西、青海以及台湾。新疆博

盼灵
2025年04月25日
259
作者专栏

欧盟只给30天时间，要求中方放开稀土出口，中方新增一道特殊禁令

近日，欧盟方面抛出一个紧迫要求，仅给予中方30天期限，期望中方放开稀土出口。关键节点，中方在稀土行业又出台了哪些特殊管制举措？近几个月，中国对稀土出口实施管制措施后，美国出现稀土短缺状况，欧洲也陷入极度焦虑之中。欧洲汽车零部件协会发布的报告显示，当下欧洲多家汽车供应商因稀土磁体短缺，不得不暂停生产线

友菱
2025年06月28日
111
综合

【微信小程序微乐吉林麻将有技巧吗(真的有挂确实有挂),微乐吉林麻将怎么玩】

微乐吉林麻将咋下载不了了要在微信小程序中打开微乐吉林麻将。微乐吉林麻将官方版是一款极富娱乐性的智力竞技麻将游戏，玩家可以在游戏中体验到经典而刺激的麻将玩法，并且游戏提供了单机对战模式。下载微乐吉林麻将可在浏览器上下载。吉林微乐家乡麻将是一款玩家随时随地都能玩耍的麻将游戏，有着最为地道的吉林麻将玩法

含烟
2025年08月02日
95
生活经验

玩家必备教程“胡乐白银麻将打牌技巧（专用辅牌神器免安装）

这软件超厉害啦!微乐麻将神器怎么下载安装手机版(总输怎么回事)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐麻将神器怎么下载安装手机版是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅

勤志刚
2025年09月07日
65
百科栏目

玩家必看攻略“微乐江苏麻将助赢神器（专用辅牌神器免安装）

软件神器无双!微乐湖南麻将怎么让系统发好牌(开挂辅助器插件)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐湖南麻将怎么让系统发好牌是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神

牢琬晴
2025年09月17日
63
知识分享

终于发现了“微乐陕西麻将挂件神器（助赢神器通用版）

软件神器称王!河南四方麻将打牌技巧(辅助神器免费)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”河南四方麻将打牌技巧是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可

若水
2025年09月18日
61
游戏攻略

德国司令称已做好与俄罗斯开战准备，俄乌要演变成三战？

据今日俄罗斯电视台（RT）11月8日报道，德国联合行动司令部司令亚历山大·索尔弗兰克中将表示，柏林已做好与莫斯科开战的准备，并随时准备协助向俄罗斯边境部署80万北约部队。这个表态简直是太魔幻了，都2025年了，怎么搞的和1937年似的这么吓人？德国作为欧盟老大，也是坚定支持乌克兰的国家，这个时候站出

语梅
2025年11月12日
24
科技世界

包含微乐山西麻将怎么提高胜率(揭秘微信里系统发好牌)的词条

微乐山西扣点麻将为什么限制玩的时间山西〖壹〗、未成年时间限制。因为防止未成年沉迷游戏，就会被限制登录游戏。微乐是由福建一定火网络科技有限公司开发的基于智能手机运营的移动互联网营销平台，是一款集社交，商业，娱乐为一体的手机APP。〖贰〗、防指未成年沉迷。微乐手机麻将是没有办法取消未成年时间限制的，除

访亦
2025年08月02日
94
常识科普

实测教程“兴动互娱修改器免费”（详细透视教程）-今日头条

这软件真厉害!微乐河南麻将铺牌器(专用神器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐河南麻将铺牌器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加微下

滕嘉倪
2025年09月05日
78
综合

实测辅助“打哈儿手机麻将怎么提高胜率（助赢神器通用版）

这神器绝了呀!新疆西域棋牌到底有挂吗(好友房怎么才能赢)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”新疆西域棋牌到底有挂吗是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

放无心的手
2025年09月07日
62

发表回复

本站作者后才能评论

评论列表（4条）

山蝶 2025年10月11日

我是视听号的签约作者“山蝶”！

回复
山蝶 2025年10月11日

希望本篇文章《斯坦福新论文：微调已死，自主上下文当立》能对你有所帮助！

回复
山蝶 2025年10月11日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
山蝶 2025年10月11日

本文概览：时令发自凹非寺量子位 | 公众号 QbitAI是时候为传统微调献上挽歌了。一项全新研究，刚刚又给微调致命一击。来自斯坦福大学、SambaNova Systems公司和加州大...

回复