从模仿到自主,机器人还需跨越三重挑战|专访NTU助理教授王子为

AI、机器人和未来。在新加坡南洋理工大学的一间实验室里,一只机械臂正在尝试完成一个看似简单的任务:抓取一个苹果。这个动作,对于三岁的孩童来说不过是本能,但对于当今最先进的机器人...

AI、机器人和未来。


在新加坡南洋理工大学的一间实验室里,一只机械臂正在尝试完成一个看似简单的任务:抓取一个苹果 。这个动作,对于三岁的孩童来说不过是本能 ,但对于当今最先进的机器人而言,却是一道难以跨越的鸿沟。


在这个人工智能的“GPT 时刻”,我们见证了 AI 以快速迭代的方式掌握了语言 、图像甚至代码。大型语言模型已经能在许多信息处理任务中展现出高效表现 。然而 ,从知到行之间,横亘着一道我们尚未完全理解的鸿沟:一个能在虚拟世界通过美国执业医师资格考试的 AI,却无法在物理世界为我们可靠地端来一杯水。


这不仅是一个工程问题 ,更接近一个哲学命题:如果一个智能体无法与物理世界交互、感知、行动并承受后果,它是否真正理解了这个世界?在中国古典哲学中,“知行合一 ”被视为智慧的最高境界。而在今天的人工智能研究中 ,如何让机器实现从“知”到“行”的跨越,正成为这个领域最前沿 、也最艰难的挑战 。


王子为的研究经历,正是在这一问题背景下展开的。从清华大学的物理系 ,到 AI 研究 ,再到具身智能(Embodied AI)——他的每一次转向,都与技术发展趋势密切相关。



从模仿到自主,机器人还需跨越三重挑战|专访NTU助理教授王子为

(来源:受访者提供)




两次“转向 ”:从物理定律到机器人铁律

2016 年 ,当 AlphaGo 与李世石的围棋对决吸引全球目光时,王子为还是清华大学物理系数理基础科学专业的一名学生 。在当时的学术路径规划中,物理系的学生 ,未来大多走向理论物理、高能物理或是金融工程。但这场人机大战,彻底改变了这个 20 岁年轻人的人生方向。


“当时觉得这个东西非常神奇,有非常大的潜力 。”回忆起那个转折点 ,王子为的语气依然带着当年的激动 。这种激动促使他做出了一个大胆的决定——从物理学转向人工智能研究。“我们当年有很大一部分同学都转向了 AI 相关的工作,不管是计算机、电子还是自动化,多多少少都受了 AlphaGo 的影响。”


但真正让他从 AI 转向机器人研究的 ,是 2020 年另一项发表在Nature的里程碑式工作——“Robot Chemist ” 。来自英国利物浦大学的 Andrew I. Cooper 教授课题组开发了机器人化学家,其可以在实验室“走来走去”并如同人类化学家一样操作实验仪器,完成各种各样的实验任务。


这项研究让他意识到:相比纯粹的算法研究 ,AI 与物理世界的结合可能是一个更具空间的方向。


同年 ,他开始了 AI 与机器人结合的研究,从纯粹的 AI 走向具身 AI 。“我记得非常的清楚,”他回忆起2020年第一次调试机器人 ,“看到我们自己设计的机械臂,能够完成打包工作,把一个物体像人一样打包进盒子里面……那一份成就感 ,哪怕过去这么多年了,也是记忆犹新。 ”




加速的时代,CMU 的“快”与“慢”

在 AI 这个以月为迭代周期的领域 ,快是公认的信条。算法在加速,模型在膨胀,论文在增长 。然而 ,王子为在博士毕业后前往卡内基梅隆大学(CMU)进行博士后研究时,学到的最重要的一课,却是“慢下来 ”。


“让研究慢下来 ,其实不容易。 ”王子为发现 ,当AI 与机器人结合,研究的范式就彻底变了 。在纯AI 领域,一个想法的验证周期可能很短:设计一个新模型 ,在已有的数据集上跑一下,几个小时或几天后,就能迅速验证想法是否有效。但在机器人领域 ,这个周期会被无限拉长。


“要把问题想清楚是需要时间的 。”王子为举例,在机器人上验证一个新算法,首先要采集数据 。这个过程是物理的 、实时的、昂贵的。“机器人采数据是需要时间的 ,是需要成本的。”采集完数据,还要进行漫长的训练和调试 。


更重要的是,物理世界远比数据集要狡猾。“比如 ,我们设计的框架对不同的网络结构、不同的硬件,是不是都有效?增加数据之后,在特定的问题上 ,它是否会产生像物理学里面那种相变? ”就像 GPT 模型在数据量跨越某个阈值后突然涌现出能力一样。在机器人领域 ,这个涌现点在哪里?没有人知道 。


“这都是需要时间的。”他反复强调。


他在 CMU 参与的一个项目,是研究如何通过人类的语言或草图,来生成乐高积木的拼接方案 ,并指挥机器人完成组装 。这听起来像个玩具问题,但其背后的技术复杂度是惊人的。这套系统首先需要理解人类模糊的指令(造一个带两个窗户的红房子),然后生成一个三维的 、符合物理拼接逻辑的模型;接着需要规划机器人的每一步操作(抓取、旋转、放置) ,最后才到让机器人执行高精度的动作的环节,并还要保证全过程的安全。


“这个工作从 2023 年就开始了,一直到今年(2025年)才有一个里程碑式的结果 ,但最后这篇论文也是拿到了 ICCV 的 Best Paper 。”


一个看似简单的搭乐高任务,耗费了团队数年的时间。这种“慢 ”,在如今的加速社会里似乎是不可想象的。但王子为认为 ,正是这种“慢”,让他们能够沉淀下来,去发现一些平常容易忽略的 ,但是真正重要的一些问题 。


与此同时 ,CMU 的合作氛围为研究带来了一种“快” 。不同实验室在硬件 、感知 、移动平台等方面能力互补,使项目推进更为高效。这种“快 ”与“慢”的结合,也影响了他后来在 NTU 开展研究的方式。




苹果掉在地上:具身智能的“阿喀琉斯之踵”

“我们实验室的长期目标 ,是为机器人赋予能够理解世界、并且能够自主决策的大脑 。 ”


在 NTU 的实验室里,王子为正试图回答这个领域最核心的难题:为什么今天的机器人,本质上仍然是模仿者 ,而不是决策者?他用一个极其生动的例子,点出了具身智能的“阿喀琉斯之踵”——泛化性(Generalization)。


“以抓苹果为例。苹果放在桌子上,很多模型表现都能把它抓起来 。这是我们通常在演示视频里看到的。但是 ,如果某一次抓的时候没抓稳,苹果掉在地上了,那么很多的机器人的模型现在就会直接 fail 掉。因为在训练的过程中 ,它可能压根就没有见过这种类似的数据 。”


这就是当前主流的模仿学习(Imitation Learning)范式的弱点。模型只是在复现它在训练数据中见过的轨迹,它并没有真正理解这个任务。“人哪怕看到苹果掉在地上,我理解到苹果、桌子 、地板之间的规律 ,以及这个世界的物理运行规律 ,包括摩擦力、包括重力……它都是能够解决的 。 ”而机器不能。这就是“分布外 ”(Out-of-Distribution, OOD)问题。当机器人遇到一个它训练数据分布之外的、全新的情况时,它就束手无策了 。


背后的挑战可以概括为三类,这也是整个行业共同面临的“三座大山”:


其一 ,数据昂贵 。机器人数据必须在真实物理环境中采集,每条数据往往要数十秒甚至更久,难以像语言模型那样依靠大规模互联网数据训练;其二 ,物理精度要求高。几毫米的误差都可能导致任务失败,小偏差的累积会迅速放大;其三,环境物理规律多变。摩擦 、质地、光照等因素的微调都会影响动作效果 ,模型需要实时建模这些隐性变量 。




走向“自主”:世界模型、推理链与强化学习

为了应对上述难题,王子为团队正在探索三类方法。


第一条路径,是尝试用世界模型(World Model)打破数据诅咒。既然物理世界的数据采集那么昂贵 ,我们能不能让机器人在“脑海中 ”采集数据?这就是世界模型的逻辑 。“它根据当前的观察和即将要采取的一个动作,就会提前预判后续会产生什么样的后果。”王子为解释道,“也就是说 ,我不需要真的去做这个事 ,我只需要在我脑海里面想一下,我就知道会产生什么样一个后果。”


通过世界模型,机器人可以在“想象 ”中源源不断地产生训练数据 ,极大地降低数据成本 。当然,前提是这个“想象”要足够逼真。这是王子为团队的重点方向之一,即如何生成真正跟真实的数据差距比较小的高质量数据。


第二条路径 ,是用推理链解决长程任务 。当前的机器人模型(如 VLA,Vision-Language-Action 模型)普遍“短视”。它们能做好抓取苹果这样的一步动作,但无法完成做一份早餐这样的长程任务。“做早餐 ,它可能需要 20 步,甚至 30 步 。打开冰箱 、拿出食材、洗、切 、煮、端到桌子上 。 ”王子为说,“这是一个需要推理能力的长程任务。”而受大语言模型思维链(Chain-of-Thought)的启发 ,王子为团队的思路是,把长任务拆解成一步一步的短任务,让机器人每次只去解决一小步。


但核心问题是:怎么“拆”才是最优的?人类认为的 20 步 ,不一定是模型认为最高效的 20 步 。他近期的工作(如 ThinkBot 和 VLA-Reasoner)就是为了解决这个拆解问题。他们尝试用蒙特卡洛搜索树和强化学习的方法 ,去搜索一个最优的拆解方案。“机器人需要推理物体与物体之间的关系(空间上),也需要推理动作与动作之间的关系(时间上) 。 ”


第三条路径,用强化学习跳出模仿的范式。这是最激进 ,也可能最具革命性的一步。它试图彻底解决那个“苹果掉在地上”的 OOD 问题 。模仿学习的覆盖面总是有限的,“人是没有办法去穷尽所有的分布外的情况的。“那我们能不能,”王子为设想 ,“不再依赖于人类的数据采集,而是说通过自己主动的去尝试一些东西? ”


这就是强化学习的回归。让机器人自己去探索,甚至主动犯错 。“比如说 ,它自己主动觉得,这个苹果如果将来掉到地上之后,我可能不确定怎么去拿 ,那么他就会自己主动去尝试,把这个苹果弄到地上,然后去把它抓起来 ,在这个过程中进行学习。 ”这是一种根本的范式转变:从“向人类学习”(Learning from Human)转向“自主学习”(Self-learning)。


这标志着机器人从一个被动执行的工具 ,开始向一个主动探索的智能体(Agent)进化 。王子为提到,近期已有很多论文显示,通过这种方式 ,机器人在某些任务上能达到接近 100% 的成功率——这是纯模仿学习无法企及的高度 。




从“知 ”到“行”:热情是最后一公里

迄今,那只机械臂仍在不知疲倦地重复着训练动作,身后的科研工作者们还在夜以继日地调试。它还不够完美 ,偶尔会失误,会在意想不到的情况下“手足无措”。但正是这些失败,构成了通向理解的必经之路 。这也让我们在采访的最后 ,不禁问出了那个问题:在这样一个瞬息万变、充满不确定性的领域,究竟什么样的人才能走到最后?


“我认为是要有热情和快速学习的能力。“因为一个顶级的研究者,他肯定是这个世界上对于这个细分小领域最了解的人 ,至少是之一。所以他每往前迈一小步,其实都是要面临无限的不确定性和挑战 。这种情况下,研究在很多时候就是一份煎熬。只有真正对这个领域充满热情的人 ,期待能够看到自己把这个东西做出来 、并且觉得有成就感的人 ,才能够克服这份煎熬。 ”


在快速演化的具身智能领域,研究者需要面对复杂系统带来的不确定性 。算法在一个场景中表现良好,换一个位置或环境后可能完全失效;不同批次的数据可能带来截然不同的训练结果;许多问题缺乏现成答案 ,需要从头推导和验证。


为了保持学习效率,王子为在实验室推动“论文快讲会”,让团队成员每周快速总结新的研究进展 ,并相互讨论。他认为,在一个知识迭代迅速的领域,团队式学习能更好地保持对前沿的敏感 。


在应用层面 ,他的团队也在与制造行业合作,包括汽车 、飞机维保、物流等场景,希望在真实工业环境中采集到更高质量的数据 ,为未来的机器人模型打下基础。


具身智能仍是一个不断发展的领域,从“知道”到“做到 ”之间仍有距离。研究者在其中要面对工程复杂度、物理系统的不确定性,以及长期投入的要求 。通往可用的通用机器人系统 ,仍需要时间 、耐心和持续不断的跨学科合作 。

本文来自作者[从始至终]投稿,不代表视听号立场,如若转载,请注明出处:https://stddy.com/zsfx/202511-61022.html

(1)

文章推荐

  • 湖北随州,四大古镇

    随州在湖北,挨着河南南阳。南阳有“五圣”,随州是炎帝神农的老家。两边都说自己祖宗厉害。这随州是个地级市,管着一个区,一个县,还有一个不是自己管但又管着的市。下面共有三十七个镇,管得真宽。随州很久以前就有地方了,商朝的时候就叫随国。这地方有很多老镇子,文章里说了四个。第一个叫安居古镇,离随州市区十五公

    2025年07月04日
    109
  • 教程辅助“微乐四川麻将助赢神器(助赢神器通用版)

    这软件超神啦!微乐海南麻将专用辅助神器(输赢有什么规律)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐海南麻将专用辅助神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年08月31日
    84
  • 分享辅助“微乐湖北麻将专用神器(助赢神器通用版)

    这神器太香了!雀神广东麻将好友房怎么才能赢(助赢神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”雀神广东麻将好友房怎么才能赢是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

    2025年09月08日
    60
  • 我来教大家“玩家微信抢红包黑科技”(详细透视教程)-今日头条

    软件神器超绝!微乐陕西麻将小程序赢牌技巧(万能开挂器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐陕西麻将小程序赢牌技巧是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年09月18日
    55
  • 实测结果“蜀山四川麻将铺牌器购买(助赢神器通用版)

    软件神器超猛!大唐山西麻将系统规律(微乐助赢神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”大唐山西麻将系统规律是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月19日
    58
  • 2分钟秒懂!“中至跑得快输赢规律”(详细辅助教程)-今日头条

    绝赞软件神器!微乐云南麻将助赢神器购买(插件可信吗)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐云南麻将助赢神器购买是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的

    2025年09月24日
    49
  • 实测结果“微乐家乡麻将赢的攻略(助赢神器通用版)

    必备软件神器!雀神广东麻将软件出售(怎么让牌变好)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”雀神广东麻将软件出售是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年10月10日
    41
  • 我来教大家“手机三公作弊(助赢神器通用版)

    软件宝藏必备!微信斗地主自建房怎么拿好牌(究竟是不是有挂)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信斗地主自建房怎么拿好牌是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,

    2025年10月10日
    52
  • 女人动情时最控制不住的三个生理反应,每个都很明显!

    作者:雨润情感情感,是女人难以自控的柔软,多数女人从年轻到白发,总有一些时刻会不自觉地动情。尤其是步入中年之后,生活阅历和情感积淀愈加深厚,对身边的人事物也更敏感。或许是儿女的一句贴心话,或许是多年老伴的温柔眼神,又或者是无意间忆起过往青春的点滴。每当这样的情感瞬间来袭,哪怕是在公共场合,那些看似可

    2025年11月24日
    17
  • 华淳开心麻将究竟是否有挂(确实是有挂的)(华淳开心麻将怎么开挂)

    安徽华淳网络科技有限公司现在的经营情况怎么样?安徽华淳网络科技有限公司的统一社会信用代码/注册号是91340111MA2N2P588N,企业法人张军,近来企业处于开业状态。在知识产权方面,苏州华淳精密电子有限公司拥有专利信息达到8项。此外,苏州华淳精密电子有限公司还对外投资了1家企业,直接控制企业

    2025年08月21日
    76

发表回复

本站作者后才能评论

评论列表(4条)

  • 从始至终
    从始至终 2025年11月30日

    我是视听号的签约作者“从始至终”!

  • 从始至终
    从始至终 2025年11月30日

    希望本篇文章《从模仿到自主,机器人还需跨越三重挑战|专访NTU助理教授王子为》能对你有所帮助!

  • 从始至终
    从始至终 2025年11月30日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 从始至终
    从始至终 2025年11月30日

    本文概览:AI、机器人和未来。在新加坡南洋理工大学的一间实验室里,一只机械臂正在尝试完成一个看似简单的任务:抓取一个苹果。这个动作,对于三岁的孩童来说不过是本能,但对于当今最先进的机器人...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们