作者:by Patricia DeLacey, University of Michigan College of Engineering
一个名为3D Grand的新的,密集的注释的3D TEXT数据集可以帮助训练体现的AI,例如家用机器人,将语言连接到3D空间。这项由密歇根大学研究人员领导的研究在计算机视觉和图案识别(CVPR)6月15日在田纳西州纳什维尔举行的会议,出版在arxiv预印服务器。
当对先前的3D数据集进行测试时,经过3D格训练的模型达到了38%的接地精度,使以前的最佳模型超过7.7%。3D养蜂也将幻觉大幅降低至6.67%,比以前的48%的最新速度。
数据集有助于下一代家庭机器人,这些机器人将远远超过当前填充房屋的机器人真空。在我们可以命令机器人“在床头柜上拿起书旁边的书并将其带给我之前,必须对机器人进行培训,以了解太空中的语言。
“大型的多模式模型主要在具有2D图像的文本上进行培训,但我们生活在一个3D世界中。如果我们想要一个机器人要与我们互动,它必须了解空间术语和观点,解释太空中的对象取向以及在3D环境中的地面语言。
虽然基于文本或基于图像的AI模型可以从Internet中获取大量信息,但3D数据很少。很难找到具有接地文本数据的3D数据,这意味着“沙发”(例如“沙发”)链接到实际沙发的3D坐标。
像所有LLM一样,经过训练时,3D-LLM的表现最好大数据集。但是,通过用相机对室进行成像室建立大型数据集将是耗时且昂贵的,因为注释者必须手动指定对象及其空间关系,并将单词链接到其相应的对象。
研究团队采用了一种新的方法,利用生成AI创建了由3D结构自动注释的合成房间。由此产生的3D驻留数据集包括40,087个家庭场景,并配对620万个房间的密集描述。
U-M计算机科学和工程专业的博士生,研究的主要作者Jianing Jed Yang说:“合成数据的一个很大的优势是,标签是免费的,因为您已经知道沙发在哪里,这使策划过程变得更加容易。”
生成合成3D数据后,AI管道首先使用视觉模型来描述每个对象的颜色,形状和材料。从这里开始,仅文本模型生成了整个场景的描述,同时使用场景图的结构图彼此相关的结构图,以确保每个名词短语都基于特定的3D对象。
最终的质量控制步骤使用幻觉过滤器来确保文本中生成的每个对象实际上在3D场景中具有关联的对象。
人类评估人员通过评估AI生成的句子或物体是否存在任何不准确性来确保可靠性进行检查,以确保可靠性。合成注释的错误率较低约5%至8%,这与专业人类注释相当。
Yang说:“鉴于数据集的大小,基于LLM的注释与人类注释相比,基于LLM的注释将成本和时间降低了数量级,在短短两天内创造了620万个注释。广泛认识到,按规模收集高质量数据对于构建有效的AI模型至关重要。”
为了将新数据集进行测试,研究小组对3D戒指进行了培训,并将其与三种基线模型(3D-LLM,LEO和3D-VISTA)进行了比较。基准扫描仪评估了接地准确性。预测的边界框与真实对象边界重叠了多少,而新引入的基准测试为3D-Pope评估了对象幻觉。
经过3D戒指训练的模型达到了38%的接地精度,仅幻觉率为6.67%,远远超过了竞争性生成模型。虽然3D养蜂人为3D-LLM建模社区做出了贡献,但对机器人进行测试将是下一步。
Chai说:“看到3D养员如何帮助机器人更好地了解空间并采用不同的空间观点,从而有可能改善他们与人类的交流和合作,这将是令人兴奋的。”
更多信息:Jianing Yang等人,3D grand:3D-LLM的一百万尺度数据集,其接地更好,幻觉较少,arxiv(2024)。doi:10.48550/arxiv.2406.05132
期刊信息: arxiv
引用:AI生成数据来帮助体现的代理商地面语言3D世界(2025年,6月16日)检索2025年6月16日来自https://techxplore.com/news/2025-06-ai-generates-embodied-agents-ground.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。