作者:by Ingrid Fadelli, Phys.org
视觉语言模型(VLM)是高级计算技术,旨在处理图像和书面文本,从而相应地进行预测。除其他外,这些模型可用于提高机器人的功能,帮助他们准确地解释周围环境并更有效地与人类用户互动。
意大利技术学院(IIT)和阿伯丁大学的一组研究人员最近引入了一个新的概念框架和一个包含计算生成数据的数据集,可用于培训VLMS的空间推理任务。他们的框架和数据集在纸张贴到arxiv预印式服务器可能有助于体现的发展人工智能(AI)可以更好地浏览现实环境并与人类通信的系统。
这项研究标志着公平*项目的结果,源于IIT的人类机器人互动(S4HRI)研究线的最新合作,由Agnieszka Wykowska教授指导,由Aberdeen大学的行动预测实验室指导,由阿伯丁大学(University of Aberdeen)负责。
IIT的技术专家,本文的共同作者Davide de Tommaso告诉Tech Xplore:“我们的研究小组调查了人类社会认知机制如何与人工代理人进行互动。”“我们以前的研究表明,在特定条件下,人们将意图归因于机器人,并以与其他社会伙伴的互动非常相似的方式与他们互动。
“因此,了解这些机制,尤其是目光,手势和空间行为等非语言提示的作用,对于开发有效的计算模型至关重要社会认知在机器人中。”
视觉透视图(VPT),从他人的角度了解视觉场景的能力,对于机器人系统来说可能是极大的,因为它可以使他们能够理解给出的指令,与其他代理商合作并成功完成任务。De Tommaso和他的同事最近一直在试图在机器人中重现这一关键能力,同时也确保了机器人可以在各种环境中应用它。
德·托马索说:“我们的主要目标是使机器人能够有效地理解其他代理(人工或人造)在共享环境中可以看出或无法从其有利位置感知什么。”“例如,机器人应准确评估从他人的观点,对象隐藏在障碍物后面,或者是否适当地定向对象以使人掌握或指向该物体是否可以读取文本。
“尽管当前的基础模型通常缺乏复杂的空间推理能力,但我们坚信,利用大型语言模型以及合成场景表示,在体现人造代理中对类似人类的VPT功能进行建模具有重要的希望。”
为了提高VLM的VPT功能,研究人员编制了一个数据集,可以支持他们在空间推理任务上进行培训。他们使用NVIDIA的Omniverse Replicator(一个生成合成数据的平台)创建了一个新的“人造世界”,该新的“人造世界”基本上由一个简单的场景捕获捕获立方体的场景,该场景从不同的角度和距离观看。
然后,他们在这个综合世界中拍摄了捕获的立方体的3D图像,为它们添加了自然语言描述,以及4x4变换矩阵,这是代表立方体的位置和方向的数学结构。数据集是在线发布并且可以被其他团队使用来训练他们的VLM。
“虚拟相机捕获的每个图像都配有包含立方体尺寸的文本提示,以及编码摄像机和对象之间空间关系的精确转换矩阵,那种数据机器人用来计划运动并与世界互动的类型。”阿伯丁大学的学生和意大利理工学院的研究员。
“由于环境是综合的,我们控制各个方面并生成数以万计的图像矩阵对迅速(现实世界中的设置几乎是不可能的)。这是一种教机器人不仅要看到的机器人的方式,而且可以像物理存在一样理解空间。”
到目前为止,研究人员提出的框架仅是理论上的,但它可能很快就可以为培训真正的VLM提供新的可能性。研究人员本身可以通过使用它们编制的数据集或类似合成生成的数据来训练模型来评估其潜力。
柯里说:“我们所做的是从根本上概念上的。”“我们正在为AI学习空间的新方法,不仅是从别人的角度来学习空间。我们将视觉视角视为模型可以使用视觉和语言来学习的东西,而不是硬编码的几何形状。这是迈向体现的认知机器人的一步。
De Tommaso,Currie,Migno及其同事的最新工作可能会激发其他类似的合成数据集的产生,以培训VLMS在空间推理任务上进行培训。这些努力可以集体促进人形机器人和其他体现的AI代理的改善,从而有可能促进其在现实环境中的部署。
Gioele Migno补充说:“我们的下一步将是使虚拟环境尽可能逼真,从模拟空间与现实世界之间的距离之间的距离更加接近。
“这一步骤对于将模型在模拟中获取的知识转移到现实世界中至关重要,并使体现的机器人有可能利用空间推理。一旦实现了这一目标,我们就会有兴趣研究这些功能如何使与人类在对场景的空间了解的情况下如何使与人类的互动更加有效。”
我们作者为您写的Ingrid Fadelli,编辑丽莎锁并对事实进行了检查和审查罗伯特·埃根(Robert Egan)本文是仔细人类工作的结果。我们依靠像您这样的读者来使独立科学新闻业保持活力。如果此报告对您很重要,请考虑捐款(尤其是每月)。你会得到一个无广告表示感谢。
更多信息:乔尔·柯里(Joel Currie)等人,通过空间扎根的合成世界在机器人中体现认知,arxiv(2025)。doi:10.48550/arxiv.2505.14366
期刊信息: arxiv
©2025科学X网络
引用:视觉模型通过人工世界和3D场景描述获得空间推理技能(2025年,6月13日)检索2025年6月13日来自https://techxplore.com/news/2025-06-Vision-language-gain-gain-spatial-skills.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。