作者:PYMNTS
耶鲁大学在人工智能(AI)培训领域发现了一个悖论,这可能代表了机器人加速情报方面的突破。他们发现,在安静,受控环境中学习的AI系统有时超出了那些在现实世界中部署在现实世界中的嘈杂,不可预测条件的人的表现,他们的论文说,室内训练效果:
意外的收益从分配变化在过渡功能……这就像说一个训练的网球运动员在
尽管条件大风,但安静的网球场在实际的网球比赛中会更好现实世界状况。但这正是研究人员发现的。``令人惊讶的是,我们发现在某些条件下,在嘈杂的环境中进行测试时,在无噪声环境中进行的培训可以提高性能。”他们在论文中写道。
噪声是指任何人在
他们互动与现实世界。这种室内训练效应挑战了传统的智慧
训练AI。传统的信念是,在与实际部署的实际情况相同的环境中培训将带来更好的表现,因为他们已经知道会发生什么。
研究人员发现相反。这是因为在安静,受控的条件下训练AI可以掌握基础知识,然后它可以更好地应用于现实世界。违反直觉,这比在类似于现实世界的Messier条件下接受过的AI的表现更好。
这一发现可以帮助改善机器人的培训。就像在仓库中部署的机器人一样,通常必须在嘈杂,繁忙的环境中工作。人们认为,要使机器人在实际情况下做得好,需要在类似忙碌而嘈杂的环境中接受培训。但训练这些机器人的挑战是在实验室中复制现实情况的困难。
研究团队的发现可以使机器人的培训更加简单:机器人可以像实验室一样安静,平静的环境中,然后将其放置在凌乱的现实世界中,他们仍然会比受过训练的机器人更好地表现。在嘈杂的环境中。
他们写道机器人可以在简化的,受控的设置中对系统进行培训,以掌握基本技能,而不会受到噪音的干扰,并且训练仍然可以增强机器人在不可预测性和噪音的现实情况下适应和执行的能力。
研究人员进一步说,这些培训策略可能会导致“能够在多种多样的情况下有效地导航和执行任务的更强大的适应性机器人”。
根据NVIDIA的说法,传统上,机器人是通过预先编程的训练博客文章。这些在预定义的环境中取得了成功,但在新的干扰或变化方面挣扎,缺乏动态现实世界应用所需的鲁棒性。训练在机器人中,这些机器可以学会对意外事件做出很好的反应。
但开发了使机器人更通用的技术。上个月,麻省理工学院的研究人员创建一个AI系统,可以使仓库机器人能够处理奇怪的包裹并在不对人类工人构成危险的情况下驾驶拥挤的空间。
该研究检查了称为强化学习剂的AI系统的行为。这些代理商通过反复试验学习。传统上,对加强学习者的培训是在与期望部署得很好的环境紧密相匹配的条件下进行培训。
团队着手审查这种信念。它测试了这些代理商在三场经典Atari游戏中的表现:Pac-Man,Pong和Breakout。他们研究人员通过添加一些不确定性或噪音来修改游戏。
研究人员还将代理商分为在同样嘈杂的环境中接受培训和测试的可学习性代理,并且在安静的环境中接受过训练但在嘈杂的环境中进行了测试的概括代理。
结果:即使在高噪声条件下,概括剂也超过了多次可学习性剂。
但是,研究人员警告他们的实验中有两个主要局限性。他们只使用了Atari游戏,还从经典的强化学习方法中得出了结论,并且不确定这些是否也扩展到了深度强化学习方法。