从模仿到自我进化，谷歌发布下一代机器人基础模型训练新范式

奈窅恒 • 2025年09月23日 01:59 • 游戏攻略 • 阅读 1

在机器人领域，科研与应用的边界持续扩展。近期，谷歌DeepMind及其合作团队在这方面取得了显著进展，提出了一种革命性的方法，将‘具身基础模型’（Embodied Founda...

在机器人领域，科研与应用的边界持续扩展。近期，谷歌DeepMind及其合作团队在这方面取得了显著进展，提出了一种革命性的方法，将‘具身基础模型’（Embodied Foundation Models, EFM）从简单模仿提升至自我优化的高度。该技术不仅能使机器人在真实世界中自主学习，还能极大地提升其适应性和性能，标志着机器人技术进入一个全新阶段。

传统方法的局限性

早期的机器人学习主要依赖于单任务模仿学习，机器人重复人类演示的动作。然而，这种方法在面对新环境或改变任务时往往表现不佳，必须重新训练。尽管随着多模态感知与大规模数据集的发展，机器人技术得到了进步，但EFMs在自动化和灵活性方面仍面临挑战。当前，大多数机器人仍基于监督微调（SFT）进行训练，缺乏动态更新和强化学习的后训练机制。

传统机器人学习的一个核心障碍在于奖励函数设计的复杂性，现实任务的目标多变且难以量化，这导致人工设计的奖励函数往往费时且容易出现偏差。此外，在物理环境中评估任务完成度需要大量资源，限制了机器人学习的效率。

自我改进：新的突破

图1：技术团队提出的两阶段微调方法概述。

面对这些挑战，谷歌DeepMind的团队提出了一种新的自我改进机制，借鉴了大型语言模型（LLM）在后训练阶段的成功经验。该机制设立了两个阶段：首先是监督微调；其次是自我改进。

在第一阶段，机器人通过模仿人类的演示进行基础训练，不仅要输出相应的动作，同时还需要预测完成目标所需的步骤（Steps-to-Go）。这一额外的预测为后续优化提供了重要信号。

进入第二阶段，机器人则依靠自我改进进行在线强化学习，而不再依赖人工设计的奖励函数。通过对Steps-to-Go预测的变化，机器人能够自我评估每个动作的效果，使得自我不断优化成为可能。当机器人执行动作后，若预测的剩余步骤减少，便会获得正奖励；若增加，则获得负奖励。这种设计让机器人在无人干预的情况下，根据实时数据不断完善行为。

实验与结果

图2:Aloha单次插入任务的示例轨迹和表示模型预测（即d（o，g））下E[要走的步数]的图。关键时刻：1）模型认为事件即将成功完成，2）政策意外地放弃了挂钩，d（o，g）增加，3）政策从不适合插入的坏角度重新调整挂钩，因此d（o、g）保持高位，4）政策放弃挂钩，提供了正确重新调整挂钩的机会，从而减少了d（o，g），5）政策将挂钩向内推，d（o 、g）标志着政策即将成功，6）右手将插座从左手的握把中敲出，这增加了d（0、g）。

为了验证这一机制的有效性，研究团队在多个任务和平台上进行了系统评估，包括单臂推块任务和双臂插销任务。结果显示，该自我改进机制的表现卓越，尤其在样本效率方面，极少的在线强化学习数据便能带来显著性能提升。在LanguageTable任务中，仅额外采集不到2%的在线数据，成功率便从45%提升至75%。

图3：上图展示了模型在第一阶段从逐步预测目标中学习到的复杂细节水平。每个图都捕捉到了Aloha Single Insertion任务推出中的一个有趣时刻。每个都由5个连续的帧组成，在每个帧的下方，我们可视化了模型对成功前步骤的预测概率分布。x轴表示要执行的步骤数，y轴表示概率质量。在第一帧中，策略即将成功插入挂钩并完成任务，因此模型预测策略很可能很快就会成功。

研究团队还注意到，通过自我改进，机器人逐渐展现出更强的状态敏感性，能够在抓取过程中主动调整动作，提升了自身的适应能力。通过在Real2Sim的迁移实验中，机器人通过极少的额外数据，成功率提升至59% ，展现出跨域适应能力的巨大潜力。

可扩展性与未来前景

图4：点群导航域。来自模仿学习数据集的样本轨迹，以及BC（第一阶段）和自我改进（第二阶段）策略。

这种自我改进机制不仅对单台机器人有益，更具备可扩展性，允许多台机器人并行操作，各自收集数据，独立更新策略，为未来大规模应用提供了可能路径。研究团队在实验中表明，单个操作者能够高效监控多台机器人，形成一个自我驱动的学习闭环。

图5：第二阶段自我提升结果。

这一创新不仅为机器人研发提供了强有力的支持，也为机器人在复杂任务中提升适应能力开辟了新思路。在未来，这一方法有望被广泛应用于机器人辅助、自动化生产等多个领域，实现更高效的智能化发展。

谷歌DeepMind此次提出的自我改进机制无疑为机器人学习领域带来了新的视野，打破了传统学习方法的局限。通过将EFMs升华，使得机器人不再是单纯的模仿者，而是具备自我反思和持续优化能力的自主体。这一进展不仅为科学界提供了新的研究方向，更为未来全面智能化的真实世界铺平了道路。随着这项技术应用的深入，我们期待其在解决复杂问题、优化人机协作等方面发挥出更大的潜能。

本文来自作者[奈窅恒]投稿，不代表视听号立场，如若转载，请注明出处：https://stddy.com/youxi/202509-41584.html

1 4

本文作者

奈窅恒签约作者

197 文章

1676036 评论

1 粉丝

我是视听号的签约作者[奈窅恒],本篇文章《从模仿到自我进化，谷歌发布下一代机器人基础模型训练新范式》主要讲述了:在机器人领域，科研与应用的边界持续扩展。近期，谷歌DeepMind及其合作团队在这方面取得了显著进展，提出了一种革命性的方法，将‘具身基础模型’（Embodied Founda...

综合

她与丈夫长征路上走散，无奈改嫁，晚年北京重逢，丈夫已是副主席

我们听过很多分离又相遇的故事，有情人们开始被迫分离后，冲破阻碍后再次相遇，继续情缘，最终得到了成双成对的美满。但是很多故事的开局相似，结局却全然不同。尤其是在那不知道何时有光明的革命时代，人们的生活凄惨，爱人们经常因为战火被迫分离，其中心酸用言语与笔触根本无法言明，分离后的双方的结局往往也并不美满。

衅建伟
2025年06月20日
71
科技世界

男子为骗拆迁补助与男友的姐姐假结婚？车祸死后其母起诉婚姻无效

北京48岁男子徐田（化名）与同性伴侣薛冲（化名）一起生活十年左右。2024年，徐田母亲所在的村子开始腾退安置。2024年12月，徐田与薛冲的姐姐薛丽（化名）登记结婚。2025年2月，徐田遭遇交通事故死亡。此后，薛丽以“法定继承纠纷”为由，起诉徐田母亲。徐田母亲也起诉薛丽、第三人薛冲，请求法院认定徐田

孤蝶
2025年07月04日
78
综合

中至赣牌圈小程序怎么拿好牌(揭秘小程序输赢技巧)/中至赣州麻将app

小程序怎么推广呢?小程序导流方式有哪些?〖壹〗、结合线下场景建立信任：对于小微商家而言，信任是交易的关键。通过线下的方式，如门店服务、面对面交流等，与消费者建立起信任关系。引导消费：利用线下门店引导消费者在小程序中购买商品，可以设置优惠券、礼品等吸引顾客，进而形成裂变效应。〖贰〗、小程序推广引流

北柠陌寒
2025年08月23日
38
知识分享

玩家必备教程“麻将机程序控牌器真的有用吗”（详细透视教程）-今日头条

这神器绝了呀!打哈儿麻将辅牌器(万能开挂器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”打哈儿麻将辅牌器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加微下载

向柏
2025年09月05日
29
科技世界

胜率设置方法“微乐河南麻将怎么提高胜率（助赢神器通用版）

软件神器超神!微乐福建麻将助赢神器购买(透明器教程)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐福建麻将助赢神器购买是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的

谷玉
2025年09月12日
18
综合

玩家必看攻略“闲逸斗地主挂在哪买（助赢神器通用版）

软件神器超绝!友玩广西棋牌确实真的有挂(怎么可以赢)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”友玩广西棋牌确实真的有挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的

若云
2025年09月16日
11
科技世界

我来教大家“边锋跑得快好牌规律（专用辅牌神器免安装）

软件神器超绝!兴动互娱开挂辅助软件(辅助器下载)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”兴动互娱开挂辅助软件是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以

锺俊荣
2025年09月16日
12
知识分享

大涨到0.55元/升创记录大涨的油价，涨幅大降，7月1日油价调整

根据油价10个工作日一调整的规则，在上周6月的油价继续大涨之后，在下周就要进行新一轮的油价调整，油价继续上涨模式，在上周油价已经大涨超600元/吨，好在今早收盘的国际油价重新大跌，让涨幅减少一些，不过油价依然还在大涨之中。国际油价大跌超7%，大涨到0.55元/升油价涨幅下降有关注油价调整的车友应该，

欧沐阳
2025年06月24日
74
科技世界

大头十三水怎么拿好牌(揭秘微信里攻略插件).大头十三水游戏最新版？

闲来十三水怎么拿好牌后一副牌牌型需大于或等于前一副牌牌型，否则即为倒水，凡倒水者需通赔其它三家。比牌方式为先比普通牌型，后比特殊牌型，大者为胜；如为同一牌型，则比所持牌张点数大小，先比该墩牌牌中最大的一支，如又相同时再比第二支，依此类推，若全部相同则为和局。闲来玩十三水游戏规则每位玩家需将手上的1

怀儿小公主
2025年07月28日
51
百科栏目

终于发现“小程序麻将控牌（助赢神器通用版）

软件神器登场!微乐海南麻将专用辅助神器(怎么控制输赢)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐海南麻将专用辅助神器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

友菱
2025年09月12日
18

发表回复

本站作者后才能评论

评论列表（4条）

奈窅恒 2025年09月23日

我是视听号的签约作者“奈窅恒”！

回复
奈窅恒 2025年09月23日

希望本篇文章《从模仿到自我进化，谷歌发布下一代机器人基础模型训练新范式》能对你有所帮助！

回复
奈窅恒 2025年09月23日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
奈窅恒 2025年09月23日

本文概览：在机器人领域，科研与应用的边界持续扩展。近期，谷歌DeepMind及其合作团队在这方面取得了显著进展，提出了一种革命性的方法，将‘具身基础模型’（Embodied Founda...

回复

从模仿到自我进化，谷歌发布下一代机器人基础模型训练新范式

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们