利用生成式人工智能使机器人虚拟训练场多样化

2025-10-08 17:45:00 英文原文

作者:Alex Shipps | MIT CSAIL

ChatGPT 和 Claude 等聊天机器人的使用量在过去三年中急剧上升,因为它们可以帮助您完成广泛的任务。无论您是在写莎士比亚十四行诗、调试代码,还是需要回答一个晦涩的琐事问题,人工智能系统似乎都能满足您的需求。这种多功能性的来源是什么?互联网上有数十亿甚至数万亿的文本数据点。

不过,这些数据还不足以教会机器人成为有用的家庭或工厂助手。为了了解如何在不同的环境中处理、堆叠和放置各种物体,机器人需要进行演示。您可以将机器人训练数据视为操作视频的集合,引导系统完成任务的每个动作。在真实机器人上收集这些演示非常耗时,而且不完全可重复,因此工程师通过使用人工智能生成模拟(通常不反映现实世界的物理)来创建训练数据,或者从头开始繁琐地手工制作每个数字环境。

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和丰田研究所的研究人员可能已经找到了一种方法来创建机器人所需的多样化、真实的训练场。他们的——可操纵场景生成- 方法创建厨房、客厅和餐厅等数字场景,工程师可以使用这些场景来模拟大量现实世界的交互和场景。该工具在超过 4400 万个充满桌子和盘子等物体模型的 3D 房间中进行了训练,将现有资产放置在新场景中,然后将每个资产细化为物理准确、逼真的环境。

可操纵场景生成通过“引导”扩散模型(一种从随机噪声生成视觉效果的 AI 系统)来创建这些 3D 世界,使其转向您在日常生活中发现的场景。研究人员使用这个生成系统“内画”一个环境,在整个场景中填充特定元素。您可以想象一块空白的画布突然变成一个散布着 3D 物体的厨房,这些物体逐渐重新排列成模仿现实世界物理的场景。例如,该系统确保叉子不会穿过桌子上的碗,这是 3D 图形中的常见故障,称为“剪切”,即模型重叠或相交的情况。

然而,可操纵场景生成如何准确地引导其创作走向现实主义,取决于您选择的策略。其主要策略是“蒙特卡罗树搜索”(MCTS),其中模型创建一系列替代场景,以不同方式填充它们以实现特定目标(例如使场景更加物理真实,或包含尽可能多的可食用物品)。人工智能程序 AlphaGo 使用它在围棋(一种类似于国际象棋的游戏)中击败人类对手,因为系统在选择最有利的动作之前会考虑潜在的动作序列。

“我们是第一个将 MCTS 应用于场景生成的人,将场景生成任务构建为一个顺序决策过程,”麻省理工学院电气工程与计算机科学系 (EECS) 博士生 Nicholas Pfaff 说道,他是 CSAIL 研究员,也是一项研究的主要作者。 介绍作品。– 随着时间的推移,我们不断在部分场景的基础上构建更好或更理想的场景。因此,MCTS 创建的场景比扩散模型训练的场景更复杂。

在一项特别有说服力的实验中,MCTS 在一个简单的餐厅场景中添加了最大数量的对象。经过在平均只有 17 个物体的场景中进行训练后,它在桌子上展示了多达 34 个物体,其中包括大量的点心菜肴。

可操纵的场景生成还允许您通过强化学习生成不同的训练场景,本质上是通过试错来教授扩散模型以实现目标。在对初始数据进行训练后,您的系统将经历第二个训练阶段,您将在其中概述奖励(基本上是期望的结果,其分数表明您与该目标的接近程度)。该模型会自动学习创建得分较高的场景,通常会产生与其训练时完全不同的场景。

用户还可以通过输入特定的视觉描述(例如“厨房里有四个苹果,桌子上有一个碗”)来直接提示系统。然后,可操控的场景生成可以精确地实现您的要求。例如,该工具在构建食品储藏室货架场景时准确遵循用户提示的准确率达到 98%,在构建凌乱早餐桌的场景时准确率达到 86%。与类似方法(如 –)相比,这两个分数至少提高了 10%米扩散— 和 —漫射场景. –

该系统还可以通过提示或灯光指示来完成特定场景(例如“使用相同的对象提出不同的场景布置”)。例如,你可以要求它把苹果放在厨房桌子上的几个盘子上,或者把棋盘游戏和书籍放在架子上。它本质上是通过在空白处放置物品来“填补空白”,但保留场景的其余部分。

研究人员表示,他们项目的优势在于它能够创建许多机器人专家可以实际使用的场景。“我们的发现的一个重要见解是,我们预先训练的场景与我们实际想要的场景不完全相似是可以接受的,”普法夫说。– 使用我们的引导方法,我们可以超越这种广泛的分布,并从“更好”的分布中进行抽样。换句话说,生成我们真正想要训练机器人的多样化、现实且与任务相关的场景。”

如此巨大的场景成为了他们可以记录虚拟机器人与不同物品交互的试验场。例如,机器会小心地将叉子和刀子放入餐具架中,并在各种 3D 设置中将面包重新排列到盘子上。每个模拟都显得流畅且逼真,类似于现实世界,适应性强的机器人可操纵场景生成有一天可以帮助训练。

虽然该系统可能是为机器人生成大量多样化训练数据的一条令人鼓舞的道路,但研究人员表示,他们的工作更多的是概念验证。未来,他们希望使用生成式人工智能来创建全新的对象和场景,而不是使用固定的资源库。他们还计划加入机器人可以打开或扭转的铰接物体(例如装满食物的柜子或罐子),以使场景更具互动性。

为了使他们的虚拟环境更加真实,Pfaff 和他的同事可以通过使用从互联网上的图像中提取的对象和场景库以及他们之前的工作来合并现实世界的对象 -可扩展的 Real2Sim– 通过扩展人工智能构建的机器人测试场的多样性和逼真性,该团队希望建立一个用户社区,该社区将创建大量数据,然后将这些数据用作庞大的数据集来教授灵巧的机器人不同的技能。

如今,创建逼真的模拟场景可能是一项相当具有挑战性的工作;程序生成可以轻松生成大量场景,但它们可能无法代表机器人在现实世界中遇到的环境。手动创建定制场景既耗时又昂贵,”Amazon Robotics 的应用科学家杰里米·比纳吉亚 (Jeremy Binagia) 说道,他没有参与这篇论文。– 可操纵的场景生成提供了一种更好的方法:在大量预先存在的场景上训练生成模型,并使其(使用强化学习等策略)适应特定的下游应用程序。与之前利用现成视觉语言模型或仅专注于在 2D 网格中排列对象的作品相比,这种方法保证了物理可行性并考虑了完整的 3D 平移和旋转,从而能够生成更有趣的场景。

“具有后期训练和推理时间搜索的可操纵场景生成为大规模自动化场景生成提供了一种新颖且高效的框架,”丰田研究所机器人专家 Rick Cory SM – 08、PhD – 10 说道,他也没有参与该论文。– 此外,它可以生成“前所未见”的场景,这些场景被认为对下游任务很重要。未来,将该框架与大量互联网数据相结合,可以开启一个重要的里程碑,朝着高效训练机器人以在现实世界中部署的方向迈进。

Pfaff 与资深作者 Russ Tedrake 共同撰写了这篇论文,Russ Tedrake 是麻省理工学院电气工程和计算机科学、航空航天和机械工程系丰田教授。丰田研究所大型行为模型高级副总裁;和 CSAIL 首席研究员。其他作者包括丰田研究所机器人研究员 Hongkai Dai SM – 12、PhD – 16;团队负责人兼高级研究科学家 Sergey Zakharov;和卡内基梅隆大学博士生岩濑俊。他们的工作部分得到了亚马逊和丰田研究所的支持。研究人员在 9 月份的机器人学习会议 (CoRL) 上展示了他们的工作。

关于《利用生成式人工智能使机器人虚拟训练场多样化》的评论


暂无评论

发表评论

摘要

麻省理工学院 CSAIL 和丰田研究院的研究人员开发了一种名为“可操纵场景生成”的方法,利用人工智能为机器人创建逼真的训练环境。这种方法涉及通过蒙特卡罗树搜索 (MCTS) 和强化学习等技术将现有资产细化为物理精确的设置,从而生成不同的 3D 场景,例如厨房和客厅。该系统还可以适应用户的特定视觉描述,并确保场景中的对象正确交互。目标是为机器人准确执行任务提供真实的训练数据,并在有效教授机器人实际技能方面具有潜在的应用。