首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这“两者兼得”一直是巨大挑战。传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛...

人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言 ,这“两者兼得”一直是巨大挑战。

传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化  。而新方法试图将3D模型与特定的视觉语言模型(VLM)“锁死 ” ,这不仅限制了模型的感知能力(例如 ,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 。

现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer)  ,一个创新的端到端大型统一Transformer ,首次将空间重建与实例级上下文理解融为一体。

为解决上述问题,本研究的主要贡献在于:

  • 端到端统一框架:

提出IGGT,一个大型统一Transformer ,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练  。

  • 大规模实例数据集:

构建了一个全新的大规模数据集 InsScene-15K,包含15K个场景  、2亿张图像 ,以及通过新颖数据管线标注的高质量、3D一致的实例级掩码 。

  • 实例解耦与即插即用:

首创“实例接地的场景理解” (Instance-Grounded Scene Understanding) 范式 。iGGT不与任何特定VLM绑定 ,而是生成实例掩码作为“桥梁” ,使其能以“即插即用 ”的方式与任意VLMs(如CLIP, OpenSeg )和LMMs(如Qwen-VL 2.5 )无缝集成  。

多应用支持:该统一表示极大地扩展了下游能力,是首个能同时支持空间跟踪、开放词汇分割和场景问答(QA)的统一模型 。

首个实例理解3D重建模型	,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型	,助理场景理解

InsScene-15K数据集的构建

InsScene-15K 数据集是通过一个新颖的数据管理流程构建的 ,该流程由 SAM2 驱动 ,并整合了三种不同来源的数据 ,每种来源的处理方式不同。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

图2

合成数据 (Synthesis Data - 如 Aria, Infinigen):

这是最直接的。在模拟环境中,RGB图像 、深度图、相机位姿和物体级的分割掩码被同时生成 。 由于这些模拟生成的掩码是“完美准确的” ,因此无需任何后处理,直接使用。

真实世界视频采集 (Video Captured - 如 RE10K):

这个流程如图2(a)所示,是一个定制化的SAM2视频密集预测管线 。 首先 ,在视频的第0帧使用SAM生成密集的初始掩码提议 (Initial Mask Proposals)  。 然后,使用SAM2视频对象分割器将这些掩码在时间上向前传播 (Propagate Masks Forward) 。 为了处理新出现的对象或避免漂移,管线会迭代式地添加新关键帧:如果未被覆盖的区域超过阈值 ,就在新帧上重新运行SAM来发现新物体 。 最后,执行一次双向传播 (Bi-directional Propagation) 来确保整个视频序列的高度时间一致性  。

真实世界RGBD采集 (RGBD Captured - 如 ScanNet++):

这个流程如图2(b)所示,是一个掩码优化流程 (Mask Refinement Pipeline) 。 ScanNet++ 自带的3D标注是粗糙的 。流程首先将这些3D标注投影到2D图像 ,以获得具有一致ID的初始GT掩码  。 同时,使用SAM2为同一张RGB图像生成形状精确但没有ID的细粒度掩码提议 。 关键步骤是匹配与合并:将SAM2生成的精细掩码与投影的粗糙GT掩码进行对齐,为精细掩码分配正确的、多视图一致的ID 。 通过这种方式 ,管线极大地提升了2D掩码的质量 ,使其既保持了3D的ID一致性,又具有了SAM2级别的形状准确性  。

IGGT模型的构建

IGGT架构概览:

输入图像被编码为统一的Token表示,随后由几何头(Geometry Head)和实例头(Instance Head)分别处理 ,以同时生成高质量的几何重建和实例接地的聚类结果 。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

IGGT 的架构由三部分关键组件构成:

统一 Transformer (Large Unified Transformer)

遵循 VGGT ,模型首先使用预训练的 DINOv2 提取图像块级 Token。随后,通过 24 个注意力模块对多视图图像的 Token 进行 intra-view self-attention 和 global-view cross-attention,将其编码为强大的统一 Token 表示 Ti。

双解码头与跨模态融合 (Downstream Heads and Cross-Modal Fusion)

统一 Token 被送入两个并行的解码器:

  • Geometry Head: 继承自 VGGT ,负责预测相机参数 、深度图和点图 。
  • Instance Head: 采用 DPT-like 架构,解码出实例特征。
  • Cross-Modal Fusion Block: 为了让实例头感知精细的几何边界,团队设计了一个跨模态融合块。它通过一个窗口滑动交叉注意力 (sliding window cross attention) ,将几何头的空间结构特征高效地嵌入到实例表示中,显著增强了实例特征的空间感知能力 。

3D 一致性对比监督 (3D-Consistent Contrastive Supervision)

为了让模型仅从 2D 输入中学到 3D 一致的实例特征,团队设计了一个多视角对比损失 Lmvc。 该损失的核心思想是:在特征空间中 ,“拉近”来自不同视角但属于同一 3D 实例的像素特征 ,同时“推开 ”属于不同实例的特征。

其中 m(pi) 和 m(pj) 分别是像素 pi 和 pj 的实例 ID,而 fpi 和 fpj 是其对应的实例特征 。

基于实例Grounded的场景理解

其核心思想是将3D模型的统一表示与下游的特定语言模型(VLMs 或 LMMs)进行“解耦 ” 。

这与以往的方法不同,以往的方法通常将3D模型与特定的语言模型(如LSeg)“紧密耦合”或“强行对齐” ,这限制了模型的感知能力和扩展性 。首先利用无监督聚类(HDBSCAN)将IGGT预测的3D一致性实例特征分组,从而将场景分割为不同的对象实例  。

这些聚类结果随后被重新投影以生成3D一致的2D实例掩码 ,这些掩码充当“桥梁 ”  ,实现了与各种VLMs(如CLIP 、OpenSeg)和LMMs(如Qwen2.5-VL)的“即插即用”式集成 。这种解耦范式极大地扩展了模型的应用范围:

  • 实例空间跟踪 (Instance Spatial Tracking): 利用聚类生成的3D一致性掩码,可以在多个不同视角的图像中密集地跟踪和分割特定对象实例,即使在相机大幅运动的情况下也不易丢失目标 。
  • 开放词汇语义分割 (Open-Vocabulary Semantic Segmentation): 实例掩码可以作为“提示”(prompts) ,被送入任意现成的VLM(如OpenSeg)  。VLM会对每个掩码定义的区域分配一个语义类别,从而实现开放词汇的分割 。
  • QA场景定位 (QA Scene Grounding):这种解耦的实例聚类可以与LMM(如GPT-40或Qwen-VL 2.5)交互 。例如,可以在多个视图中高亮显示同一个实例的掩码 ,然后向LMM提问,以在3D场景中执行以对象为中心的复杂问答任务 。

实证结果

相比于已有的方法,IGGT是唯一一个能够同时做到重建、理解和跟踪三个任务的模型 ,并在理解和跟踪指标上大幅提升 。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

在实例3D跟踪任务上,IGGT的跟踪IOU和成功率高达70%和90% ,是唯一一个能够成功跟踪物体消失又重新出现的模型。

IGGT与SAM2和SpaTracker+SAM进行比较。为了清晰起见,所有实例都使用不同的 ID 和颜色进行可视化 。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型	,助理场景理解

团队同时还针对场景做了充分的可视化实验,可以看出IGGT 能够生成3D一致的基于实例的特征,这些特征在多个视图中保持区分性:同一类别的多个实例在 PCA 空间中呈现相似但可区分的颜色。

将3D一致的PCA 结果与基于实例特征的聚类掩码进行可视化。PCA 中相似的颜色表示实例间的特征相似度更高 。对于聚类掩码 ,同一个对象实例在多个视图中共享相同的颜色。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

在2D / 3D开放词汇分割任务上 ,得益于Instance-grounded paradigm的特性,可以无缝接入最新的Vision-Language Model以提升模型的查询性能。

Scannet 和 Scannet++ 上的 2D 开放词汇分割的定性结果:

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型	,助理场景理解

Scannet 和 Scannet++ 上的 3D 开放词汇分割的定性结果 。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

此外,团队还可以利用实例掩码(instance masks)构建视觉提示(visual prompts) ,并将其接入如 Qwen-VL 等大型多模态模型(LMM),以实现更复杂的针对场景中特定物体的查询与问答任务。相反,即便是当前最先进的 LMM 模型 ,在处理多视图或三维场景理解方面仍存在显著的局限。

与 vanilla Gemini 2.5 Pro 相比,QA 场景理解的应用:

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型	,助理场景理解

论文链接:https://arxiv.org/abs/2510.22706

项目主页:https://lifuguan.github.io/IGGT_officialHuggingface:https://huggingface.co/datasets/lifuguan/InsScene-15K

本文来自微信公众号“量子位 ”,作者:iGGT团队 ,36氪经授权发布 。

本文来自作者[采波]投稿,不代表视听号立场,如若转载,请注明出处:https://stddy.com/zheh/202511-54252.html

(45)

文章推荐

  • 广西友乐麻将究竟到底有挂吗(确实有挂吗).广西友乐麻将官方网站?

    广西友乐麻将游戏里如何切换头像?要在广西友乐麻将游戏中切换头像,首先需要进入游戏的设置界面。在设置界面中,玩家应寻找并点击“头像”或“个人资料”一类的选项。选取“头像”选项后,玩家可以浏览并选取一个新头像,或者上传一张新图片作为头像。在广西友乐麻将游戏中,玩家若想更换头像,首先需进入游戏内的设

    2025年08月01日
    102
  • 实测分享“手机麻将有挂吗(助赢神器通用版)

    这神器太绝了!微乐四川麻将助赢神器(助攻神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐四川麻将助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加

    2025年09月07日
    71
  • 胜率设置方法“闲来十三水怎么拿好牌(助赢神器通用版)

    软件神器超闪!家乡大贰辅助神器下载(挂件神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”家乡大贰辅助神器下载是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加

    2025年09月10日
    76
  • 微乐跑得快充值后胜率能提高吗(揭秘手机上助攻神器)(微乐跑得快怎么刷好牌)

    微乐冲会员赢的概率更大题主是否想询问“微乐冲会员赢的概率更大吗”?不是。微乐是由一定火网络科技有限公司开发的移动互联网营销平台,充值后不能提高游戏的胜率,因为游戏本身是公平的,所以充值会员不能增加赢的概率。充值会员无法改变获牌概率充值会员在微乐四川麻将游戏中主要享受的是一些额外的福利和特权,如可

    2025年09月13日
    73
  • 实测分享“微乐宁夏麻将怎么提高胜率(助赢神器通用版)

    软件神器超神!微乐辽宁麻将助赢神器(辅牌器插件购买)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐辽宁麻将助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户

    2025年09月14日
    71
  • 实测教程“微乐广西麻将铺牌器下载(助赢神器通用版)

    软件神器无双!微乐河南麻将铺牌器(怎么设置能有好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐河南麻将铺牌器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月23日
    72
  • 新版本“微信红包尾数规律分析”(详细透视教程)-今日头条

    软件神器称王!小程序打麻将的猫腻(外辅工具)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”小程序打麻将的猫腻是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下

    2025年09月29日
    61
  • 高市天塌了,李在明提前站队,台湾人入境,必须承认台湾属于中国

    韩国总统李在明终于干了一件大事,他通过实际行动来表明韩国政府在台湾问题上的立场,日本首相高市早苗天塌了!12月3日,台湾“中时新闻网”报道称,韩国电子入境卡申报系统突然更新了,其“出发地”及“下一目的地”字段中,将台湾明确标示为“中国(台湾)”。简单来说,就是今后台湾人前往韩国,在入境时必须承认台湾

    2025年12月08日
    23
  • 全红婵缺席新加坡游泳世锦赛,15岁新人顶替全红婵出战

    2025年7月4日,中国游泳协会公布了参加2025年新加坡游泳世锦赛的中国运动员名单,这一消息瞬间引发体育迷的热议,尤其是跳水队的阵容变动成为焦点话题。这次世锦赛将于7月11日至8月4日在新加坡举行。在这份名单中,最受关注的还是全红婵的缺席。作为跳水队的超级明星,全红婵在东京和巴黎奥运会上表现惊艳,

    2025年07月07日
    117
  • 北京协和医院5+2轻断食,冬季用效果最好,7天减掉10斤。

    如果你曾试过各种减肥方法,最后却发现体重反弹得更快,甚至皮肤变得松弛,那么北京协和医院推出的5+2轻断食方案或许能给你带来新的希望。这套看似简单的减重计划,实际上融合了科学理念和健康考量,特别适合那些对身体健康有一定要求,同时想快速见效的人。很多人都认为“节食就是饿自己”,但其实,这个方案距离传统的

    2025年11月13日
    34

发表回复

本站作者后才能评论

评论列表(4条)

  • 采波
    采波 2025年11月01日

    我是视听号的签约作者“采波”!

  • 采波
    采波 2025年11月01日

    希望本篇文章《首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解》能对你有所帮助!

  • 采波
    采波 2025年11月01日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 采波
    采波 2025年11月01日

    本文概览:人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这“两者兼得”一直是巨大挑战。传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们