Niantic Spatial发布推进语言引导3D物体放置的新方法PlaceIt3D

文章来源：VR陀螺作者：jack 发布时间：2025年10月15日点击数：次字号：小大

试想要求机器人“把椅子放在沙发和窗户之间，面向餐桌”，或让AR系统“将这个角色放置在门口看不见的位置”。对AI来说这些指令难在需要对物体、空间和用户意图进行深度推理。

Niantic Spatial携手沙特阿卜杜拉国王科技大学研究团队KAUST推出PlaceIt3D——这一全新基准测试、数据集及基线方法，旨在推动语言引导的3D物体放置技术发展。PlaceIt3D的核心任务是接收文本指令、3D环境及目标物体，并根据指令精准确定物体的定位与朝向。

大型语言模型（LLMs）正迅速从文本领域拓展至视觉、音频乃至3D等多模态领域。然而尽管它们在2D推理中表现卓越，向3D空间的迁移却困难重重。

PlaceIt3D开创性地建立了首个系统化训练与评估框架，将自然语言处理、3D感知与物理推理融合为统一任务，精准攻克这一前沿领域。

语言与3D放置的融合将开启跨行业的自然协作。随着大型3D场景和丰富模型的普及，PlaceIt3D能在以下应用场景将获得更广泛的应用：

随着机器人、AR眼镜和数字助手融入日常生活，遵循3D空间自然指令的能力将不可或缺。

PlaceIt3D标志着通用型3D大型语言模型（LLM）的初步进展——这类模型能同时理解语言、3D物体与3D空间。其基准方法PlaceWizard展示了当前技术可能性，团队表示，期待研究界在此基础上拓展3D推理的边界。借助全新数据集与基准测试，研究者现可直接针对这项挑战性任务进行模型训练与评估。

下一篇：没有了！