从模仿到自我进化,谷歌发布下一代机器人基础模型训练新范式

在机器人领域,科研与应用的边界持续扩展。近期,谷歌DeepMind及其合作团队在这方面取得了显著进展,提出了一种革命性的方法,将‘具身基础模型’(Embodied Founda...

从模仿到自我进化	,谷歌发布下一代机器人基础模型训练新范式

在机器人领域,科研与应用的边界持续扩展。近期,谷歌DeepMind及其合作团队在这方面取得了显著进展 ,提出了一种革命性的方法,将‘具身基础模型’(Embodied Foundation Models, EFM)从简单模仿提升至自我优化的高度 。该技术不仅能使机器人在真实世界中自主学习,还能极大地提升其适应性和性能 ,标志着机器人技术进入一个全新阶段。

传统方法的局限性

从模仿到自我进化,谷歌发布下一代机器人基础模型训练新范式

早期的机器人学习主要依赖于单任务模仿学习,机器人重复人类演示的动作。然而,这种方法在面对新环境或改变任务时往往表现不佳 ,必须重新训练 。尽管随着多模态感知与大规模数据集的发展,机器人技术得到了进步,但EFMs在自动化和灵活性方面仍面临挑战。当前 ,大多数机器人仍基于监督微调(SFT)进行训练,缺乏动态更新和强化学习的后训练机制。

传统机器人学习的一个核心障碍在于奖励函数设计的复杂性,现实任务的目标多变且难以量化 ,这导致人工设计的奖励函数往往费时且容易出现偏差 。此外,在物理环境中评估任务完成度需要大量资源,限制了机器人学习的效率 。

自我改进:新的突破

从模仿到自我进化	,谷歌发布下一代机器人基础模型训练新范式

图1:技术团队提出的两阶段微调方法概述。

面对这些挑战,谷歌DeepMind的团队提出了一种新的自我改进机制,借鉴了大型语言模型(LLM)在后训练阶段的成功经验。该机制设立了两个阶段:首先是监督微调;其次是自我改进 。

在第一阶段 ,机器人通过模仿人类的演示进行基础训练 ,不仅要输出相应的动作,同时还需要预测完成目标所需的步骤(Steps-to-Go)。这一额外的预测为后续优化提供了重要信号。

进入第二阶段,机器人则依靠自我改进进行在线强化学习 ,而不再依赖人工设计的奖励函数 。通过对Steps-to-Go预测的变化,机器人能够自我评估每个动作的效果,使得自我不断优化成为可能。当机器人执行动作后 ,若预测的剩余步骤减少,便会获得正奖励;若增加,则获得负奖励。这种设计让机器人在无人干预的情况下 ,根据实时数据不断完善行为 。

实验与结果

从模仿到自我进化,谷歌发布下一代机器人基础模型训练新范式

图2:Aloha单次插入任务的示例轨迹和表示模型预测(即d(o,g))下E[要走的步数]的图。关键时刻:1)模型认为事件即将成功完成 ,2)政策意外地放弃了挂钩,d(o,g)增加 ,3)政策从不适合插入的坏角度重新调整挂钩 ,因此d(o、g)保持高位,4)政策放弃挂钩,提供了正确重新调整挂钩的机会 ,从而减少了d(o,g),5)政策将挂钩向内推 ,d(o 、g)标志着政策即将成功,6)右手将插座从左手的握把中敲出,这增加了d(0、g)。

为了验证这一机制的有效性 ,研究团队在多个任务和平台上进行了系统评估,包括单臂推块任务和双臂插销任务 。结果显示,该自我改进机制的表现卓越 ,尤其在样本效率方面,极少的在线强化学习数据便能带来显著性能提升。在LanguageTable任务中,仅额外采集不到2%的在线数据 ,成功率便从45%提升至75%。

从模仿到自我进化,谷歌发布下一代机器人基础模型训练新范式

图3:上图展示了模型在第一阶段从逐步预测目标中学习到的复杂细节水平 。每个图都捕捉到了Aloha Single Insertion任务推出中的一个有趣时刻 。每个都由5个连续的帧组成,在每个帧的下方,我们可视化了模型对成功前步骤的预测概率分布。x轴表示要执行的步骤数 ,y轴表示概率质量。在第一帧中,策略即将成功插入挂钩并完成任务,因此模型预测策略很可能很快就会成功 。

研究团队还注意到 ,通过自我改进,机器人逐渐展现出更强的状态敏感性,能够在抓取过程中主动调整动作 ,提升了自身的适应能力。通过在Real2Sim的迁移实验中,机器人通过极少的额外数据,成功率提升至59% ,展现出跨域适应能力的巨大潜力。

可扩展性与未来前景

从模仿到自我进化,谷歌发布下一代机器人基础模型训练新范式

图4:点群导航域 。来自模仿学习数据集的样本轨迹,以及BC(第一阶段)和自我改进(第二阶段)策略。

这种自我改进机制不仅对单台机器人有益 ,更具备可扩展性 ,允许多台机器人并行操作,各自收集数据,独立更新策略 ,为未来大规模应用提供了可能路径。研究团队在实验中表明,单个操作者能够高效监控多台机器人,形成一个自我驱动的学习闭环 。

从模仿到自我进化	,谷歌发布下一代机器人基础模型训练新范式

图5:第二阶段自我提升结果。

这一创新不仅为机器人研发提供了强有力的支持,也为机器人在复杂任务中提升适应能力开辟了新思路。在未来,这一方法有望被广泛应用于机器人辅助、自动化生产等多个领域 ,实现更高效的智能化发展 。

从模仿到自我进化,谷歌发布下一代机器人基础模型训练新范式

谷歌DeepMind此次提出的自我改进机制无疑为机器人学习领域带来了新的视野,打破了传统学习方法的局限。通过将EFMs升华 ,使得机器人不再是单纯的模仿者,而是具备自我反思和持续优化能力的自主体。这一进展不仅为科学界提供了新的研究方向,更为未来全面智能化的真实世界铺平了道路 。随着这项技术应用的深入 ,我们期待其在解决复杂问题 、优化人机协作等方面发挥出更大的潜能 。

本文来自作者[奈窅恒]投稿,不代表视听号立场,如若转载,请注明出处:https://stddy.com/youxi/202509-41584.html

(51)

文章推荐

  • 广东新增本土确诊1例在东莞/广东东莞新增1例是哪里的

    广东省肺炎多少人截止到2020年12月31日,广东省累计报告新冠肺炎确诊病例1580例,累计出院1490例,死亡8例,新增无症状感染者14例,全省现有确诊病例总共只有82人,疫情还没那到封城的境地。新冠肺炎。广东省卫生健康委员会公布,2022年12月12日,广东省新增新冠肺炎确诊病例3例,其中2例

    2025年06月22日
    119
  • 长春疫情最新消息今天.长春疫情最新数据消息?

    今天长春怎么了长春今天的天气情况是晴天,没有下雨。当前气温为3摄氏度,北风2级,湿度为37%,空气质量为19。根据天气预报,未来7天中,阵雨将出现在10月20日夜间,小雨将出现在10月23日白天。最近,长春桃子情感主播通过信息向粉丝传达了“永别了”的消息,引起了广泛关注。面对这样的情况,人们不禁产

    2025年07月02日
    97
  • 北京新增5例确诊含2名学生/北京新增5例确诊含2名学生吗

    密云几例确诊〖壹〗、截止2022年11月04日密云5例确诊。据北京发布官博消息,11月3日0时至15时,密云区新增5例新冠肺炎病毒感染者,均为隔离管控人员,具体情况如下:感染者1,现住密云区首创悦欣汇小区,作为密云区10月31日确诊病例的密接人员集中隔离,11月2日报告核酸检测结果为阳性,11月3

    2025年07月13日
    100
  • 终于发现“决胜麻将如何控制输赢(助赢神器通用版)

    软件神器超顶流!手机十三水小程序怎么拿好牌(为什么有人一直赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”手机十三水小程序怎么拿好牌是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神

    2025年09月12日
    51
  • 捐肾救妻的模范丈夫,12年后住院发现双肾都在,子女表示无法接受

    回应在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。文|婧婧编辑|婧婧这俗话说得好,一日夫妻百日恩。然而有这样一个男人,他因为不舍得花钱断送了妻子的生命。又因为害怕撒了无数个谎言,给自己塑造了个爱妻至深的人设。到底是谁给他的勇气,让他如此的不

    2025年10月04日
    41
  • 一万亿美元薪酬计划,是马斯克疯了还是特斯拉疯了?

    “与其说这1万亿美元是特斯拉股东们对马斯克的挽留,不如说这是股东们赌马斯克这个屡屡创造奇迹的企业家,能带领特斯拉这个电动汽车制造商,在十年间一跃成为AI与机器人的领军者。”文/巴九灵如果能每秒赚2.3万元人民币,你会干什么?买下一个岛?发射一颗卫星?还是像马斯克一样,把未来玩成一场反复挑战“不可

    2025年11月11日
    8
  • 疫情高峰何时来?多地判断峰值时间.疫情高峰期在哪?

    中国各市疫情高峰期时间专家预测广州疫情将在2023年1月上旬达到高峰。此前,浙江、江西、山东、河南等多地预测疫情高峰时间,均集中在明年1月份。据最新版本预测表显示截止到12月16日,河北各城市疫情皆已达到高峰,而北京将于明年1月22日完成首播疫情高峰,郑州将在2023年1月14日完成第1轮疫情高

    2025年06月11日
    113
  • 玩家必看攻略“星悦陕西麻将有挂吗(专用辅牌神器免安装)

    软件神器登场!开运麻将骗局有挂技巧攻略(怎么让系统给你发好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”开运麻将骗局有挂技巧攻略是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器

    2025年09月29日
    34
  • 实测分享“微信金花黑科技(助赢神器通用版)

    这软件超厉害!微乐天津麻将助赢神器购买(提高胜率软件)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐天津麻将助赢神器购买是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月07日
    48
  • 玩家实测“手机跑得快怎么拿好牌”(详细透视教程)-今日头条

    软件神器超酷!家乡大贰小程序辅助器(如何拿到好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”家乡大贰小程序辅助器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月12日
    51

发表回复

本站作者后才能评论

评论列表(4条)

  • 奈窅恒
    奈窅恒 2025年09月23日

    我是视听号的签约作者“奈窅恒”!

  • 奈窅恒
    奈窅恒 2025年09月23日

    希望本篇文章《从模仿到自我进化,谷歌发布下一代机器人基础模型训练新范式》能对你有所帮助!

  • 奈窅恒
    奈窅恒 2025年09月23日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 奈窅恒
    奈窅恒 2025年09月23日

    本文概览:在机器人领域,科研与应用的边界持续扩展。近期,谷歌DeepMind及其合作团队在这方面取得了显著进展,提出了一种革命性的方法,将‘具身基础模型’(Embodied Founda...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们