英语轻松读发新版了,欢迎下载、更新

麻省理工学院的研究人员开发了一种有效的方法来训练更可靠的人工智能代理

2024-11-22 05:00:00 英文原文

作者:Adam Zewe | MIT News

从机器人、医学到政治学等领域都在尝试训练人工智能系统做出各种有意义的决策。例如,使用人工智能系统智能控制拥堵城市的交通可以帮助驾车者更快地到达目的地,同时提高安全性或可持续性。

不幸的是,教人工智能系统做出正确的决策并不是一件容易的事。

作为这些人工智能决策系统基础的强化学习模型,在面临训练执行的任务的哪怕很小的变化时,仍然经常会失败。就交通而言,模型可能难以控制一组具有不同速度限制、车道数量或交通模式的十字路口。

为了提高针对具有可变性的复杂任务的强化学习模型的可靠性,麻省理工学院的研究人员引入了一种更有效的算法来训练它们。

该算法策略性地选择训练人工智能代理的最佳任务,以便它能够有效地执行相关任务集合中的所有任务。在交通信号控制的情况下,每个任务可以是包括城市中所有交叉路口的任务空间中的一个交叉路口。

通过关注对算法整体有效性贡献最大的较少数量的交叉点,该方法可以最大限度地提高性能,同时保持较低的训练成本。

研究人员发现,在一系列模拟任务中,他们的技术比标准方法的效率高 5 到 50 倍。这种效率的提高有助于算法以更快的方式学习更好的解决方案,最终提高人工智能代理的性能。

– 通过跳出框框思考,我们能够通过非常简单的算法看到令人难以置信的性能改进。不是很复杂的算法更有可能被社区采用,因为它更容易实现,也更容易被其他人理解。”资深作者、Thomas D. 和 Virginia W. Cabot 职业发展中心的 Cathy Wu 说道。土木与环境工程 (CEE) 和数据、系统与社会研究所 (IDSS) 副教授,以及信息与决策系统实验室 (LIDS) 成员。

她加入了作者:Jung-Hoon Cho,CEE 研究生;Vindula Jayawardana,电气工程与计算机科学系(EECS)研究生;以及 IDSS 研究生李思睿。该研究将在神经信息处理系统会议上发表。

寻找中间立场

为了训练一种算法来控制城市许多十字路口的交通灯,工程师通常会在两种主要方法之间进行选择。她可以仅使用该交叉路口的数据,为每个交叉路口独立训练一种算法,或者使用所有交叉路口的数据训练一种更大的算法,然后将其应用于每个交叉路口。

但每种方法都有其缺点。为每个任务(例如给定的交叉点)训练单独的算法是一个耗时的过程,需要大量的数据和计算,而为所有任务训练一个算法通常会导致性能不佳。

吴和她的合作者在这两种方法之间寻找最佳平衡点。

对于他们的方法,他们选择任务子集并为每个任务独立训练一个算法。重要的是,他们战略性地选择最有可能提高算法在所有任务上的整体性能的单个任务。

他们利用了强化学习领域的一个常见技巧,称为零样本迁移学习,其中已经训练的模型无需进一步训练即可应用于新任务。通过迁移学习,模型通常在新的邻居任务上表现得非常好。

“我们知道对所有任务进行训练是理想的选择,但我们想知道是否可以对这些任务的子集进行训练,将结果应用于所有任务,并且仍然看到性能的提高,”吴说。

为了确定他们应该选择哪些任务来最大化预期性能,研究人员开发了一种称为基于模型的迁移学习(MBTL)的算法。

MBTL 算法有两个部分。其一,它模拟了每种算法在一项任务上独立训练时的表现。然后,它对每种算法的性能在转移到其他任务时会降低多少进行建模,这一概念称为泛化性能。

显式建模泛化性能使 MBTL 能够估计新任务训练的价值。

MBTL 按顺序执行此操作,首先选择导致最高性能增益的任务,然后选择为整体性能提供最大后续边际改进的其他任务。

由于 MBTL 只关注最有希望的任务,因此它可以显着提高训练过程的效率。

降低培训成本

当研究人员在模拟任务(包括控制交通信号、管理实时速度建议以及执行几个经典控制任务)上测试该技术时,其效率比其他方法高 5 到 50 倍。

这意味着他们可以通过使用少得多的数据进行训练来得出相同的解决方案。例如,MBTL 算法的效率提高了 50 倍,只需在两个任务上进行训练,就可以达到与使用 100 个任务的数据的标准方法相同的性能。

“从两种主要方法的角度来看,这意味着其他 98 个任务的数据是不必要的,或者对所有 100 个任务的训练会让算法感到困惑,因此性能最终会比我们的更差,”Wu 说。

对于 MBTL,即使添加少量的额外训练时间也可能带来更好的性能。

未来,研究人员计划设计可以扩展到更复杂问题的 MBTL 算法,例如高维任务空间。他们还有兴趣将他们的方法应用于现实世界的问题,尤其是下一代移动系统。

该研究的部分资金来自美国国家科学基金会职业奖、Kwanjeong 教育基金会博士奖学金计划和亚马逊机器人博士奖学金。

关于《麻省理工学院的研究人员开发了一种有效的方法来训练更可靠的人工智能代理》的评论


暂无评论

发表评论

摘要

麻省理工学院的研究人员开发了一种更有效的算法,用于训练人工智能决策系统中使用的强化学习模型,特别是对于具有可变性的复杂任务。新方法的重点是战略性地选择最佳任务来训练人工智能代理,最大限度地提高性能,同时最大限度地降低训练成本。经过各种模拟任务(包括交通信号控制和实时速度建议)的测试,该技术被证明比标准方法效率高 5-50 倍。该算法被称为基于模型的迁移学习(MBTL),它会依次选择最有前途的任务以实现最大的性能提升,从而可能彻底改变机器人、医学和政治学等领域的人工智能决策。