经过培训在工厂执行家务任务的家具机器人可能无法有效擦洗水槽或在用户厨房中部署时将垃圾取出,因为这个新环境与训练空间有所不同。
为了避免这种情况,工程师通常会尝试与将部署代理商的现实世界尽可能地与模拟培训环境相匹配。
但是,来自麻省理工学院和其他地方的研究人员现在发现,尽管有这种传统的智慧,但有时在完全不同的环境中训练会产生表现更好的人工智能代理。
他们的结果表明,在某些情况下,在一个不确定性或噪音较小的世界中训练模拟的AI代理,使其能够比在他们曾经接受过的同一嘈杂世界的竞争的AI代理商中表现更好测试两个代理。
研究人员称这种意外现象为室内训练效果。
<如果我们学会在没有噪音的室内环境中打网球,我们可能会更轻松地掌握不同的镜头。然后,如果我们搬到一个更嘈杂的环境,例如大风网球场,我们可能会比在大风环境中学习网球的可能性更高,”麻省理工学院媒体研究助理Serena Bono解释说实验室兼室内培训效果的论文的作者。
研究人员通过训练AI代理玩Atari游戏来研究了这一现象,他们通过添加一些不可预测性来修改。他们惊讶地发现,室内训练效果始终发生在Atari游戏和游戏变体中。
他们希望这些结果推动了对AI代理商开发更好的培训方法的更多研究。
这是一个要考虑的全新轴。哈佛大学研究生的合着者Spandan Madan补充说,我们也许可以构建AI代理学习得更好的模拟环境,而不是试图匹配培训和测试环境,而是能够构建模拟环境。
麻省理工学院研究生的伊莎·格罗弗(Ishaan Grover)加入了波诺(Bono)和马丹(Madan)。耶鲁大学的研究生毛亚苏达(Mao Yasueda);MIT Media Lab中的媒体艺术与科学教授,个人机器人小组的负责人Cynthia Breazeal;Hanspeter Pfister,哈佛大学的王计算机科学教授;哈佛医学院的教授加布里埃尔·克雷曼(Gabriel Kreiman)。该研究将在人工智能会议的发展协会上进行。
培训问题
研究人员着手探讨为什么在与训练空间不同的环境中进行测试时,强化学习者的表现往往会如此惨淡。
强化学习是一种反复试验的方法,在该方法中,代理商探索培训空间并学会采取最大程度地提高其奖励的行动。
该团队开发了一种技术,可以向称为过渡功能的强化学习问题的一个元素明确添加一定数量的噪声。过渡函数根据其选择的动作定义了代理将从一个状态移动到另一种状态的概率。
如果代理在玩PAC-Man,则过渡功能可能会定义游戏板上的幽灵会向上,向下,向左或向右移动的概率。在标准增强学习中,将使用相同的过渡功能对AI进行训练和测试。
研究人员通过这种常规方法为过渡功能增加了噪音,并且正如预期的那样,它损害了代理商的Pac-Man绩效。
但是,当研究人员用无噪声的Pac-Man游戏训练了代理商时,然后在将噪声注入过渡功能的环境中进行了测试,它的表现要比在嘈杂游戏中训练的代理更好。
``经验法则是,您应该尽力捕获部署条件的过渡功能,并在训练过程中尽可能地获得最大的收益。我们确实测试了这种洞察力,因为我们无法相信自己。”
将不同量的噪声注入过渡功能使研究人员测试许多环境,但并没有创建现实的游戏。他们注入Pac-Man的噪音越多,鬼魂就会随机传送到不同的正方形。
要查看室内训练效果是否发生在普通的Pac-Man游戏中,他们调整了潜在的概率,因此幽灵正常移动,但更有可能上下移动,而不是左右移动。在这些逼真的游戏中,接受过无噪声环境训练的AI代理仍然表现更好。
这不仅是由于我们添加噪声来创建临时环境的方式。这似乎是强化学习问题的属性。Bono说,这更令人惊讶。
勘探解释
当研究人员更深入地寻找解释时,他们看到了AI代理如何探索训练空间的一些相关性。
当两个AI代理商主要探索同一区域时,在非噪声环境中训练的代理商的表现会更好,也许是因为代理商更容易学习游戏规则而不会受到噪音的干扰。
如果他们的探索模式不同,那么在嘈杂环境中训练的代理人往往会表现更好。可能会发生这种情况,因为代理需要了解它可以在无噪声环境中学习的模式。
•如果我只学会在非噪音环境中与我的正手打网球,但是在嘈杂的环境中,我也必须与反手一起玩,我也不会在非噪音环境中玩耍,波诺解释说。
将来,研究人员希望探讨如何在更复杂的强化学习环境中或其他技术(如计算机视觉和自然语言处理)中发生室内训练效应。他们还希望建立旨在利用室内培训效果的培训环境,这可以帮助AI代理在不确定的环境中表现更好。