强化学习算法提供了一种有效的方法来训练更可靠的人工智能代理

Researchers develop an efficient way to train more reliable AI agents — 生态驾驶控制任务中交通网络的图示。信用：*arXiv*（2024）。DOI：10.48550/arxiv.2408.04498

从机器人、医学到政治学等领域都在尝试训练人工智能系统做出各种有意义的决策。例如，使用人工智能系统智能控制拥堵城市的交通可以帮助驾车者更快地到达目的地，同时提高安全性或可持续性。

不幸的是，教人工智能系统做出正确的决策并不是一件容易的事。

作为这些人工智能决策系统基础的强化学习模型，在面临训练执行的任务的哪怕很小的变化时，仍然经常会失败。就交通而言，模型可能难以控制一组具有不同速度限制、车道数量或交通模式的十字路口。

提高强化学习模型的可靠性复杂的任务麻省理工学院的研究人员引入了一种更有效的方法算法为了训练他们。研究结果是发表于arXiv预印本服务器。

该算法策略性地选择训练人工智能代理的最佳任务，以便它能够有效地执行相关任务集合中的所有任务。在交通信号控制的情况下，每个任务可以是包括城市中所有交叉路口的任务空间中的一个交叉路口。

通过关注对算法整体有效性贡献最大的较少数量的交叉点，该方法可以最大限度地提高性能，同时保持较低的训练成本。

研究人员发现，在一系列模拟任务中，他们的技术比标准方法的效率高 5 到 50 倍。这种效率的提高有助于算法以更快的方式学习更好的解决方案，最终提高人工智能代理的性能。

“通过跳出框框思考，我们能够通过非常简单的算法看到令人难以置信的性能改进。不太复杂的算法更有可能被社区采用，因为它更容易实现，也更容易被其他人采用。理解，”资深作者、土木与环境工程 (CEE) 和数据、系统和社会研究所 (IDSS) 的 Thomas D. 和 Virginia W. Cabot 职业发展副教授、实验室成员 Cathy Wu 说道。用于信息和决策系统（LIDS）。

该论文的主要作者、中东欧研究生 Jung-Hoon Cho 也参与了该论文的撰写。Vindula Jayawardana，电气工程与计算机科学系（EECS）研究生；以及 IDSS 研究生李思睿。该研究将在神经信息处理系统会议上发表。

寻找中间立场

为了训练一种算法来控制城市许多十字路口的交通灯，工程师通常会在两种主要方法之间进行选择。她可以仅使用该路口的数据为每个路口独立训练一种算法，或者使用所有路口的数据训练一种更大的算法，然后将其应用于每个路口。

但每种方法都有其缺点。为每个任务（例如给定的交叉点）训练单独的算法是一个耗时的过程，需要大量的数据和计算，而为所有任务训练一个算法通常会导致性能不佳。

吴和她的合作者在这两种方法之间寻找最佳平衡点。

对于他们的方法，他们选择任务子集并为每个任务独立训练一个算法。重要的是，他们战略性地选择最有可能提高算法在所有任务上的整体性能的单个任务。

他们利用了强化学习领域的一个常见技巧，称为零样本迁移学习，其中已经训练的模型无需进一步训练即可应用于新任务。通过迁移学习，模型通常在新的邻居任务上表现得非常好。

“我们知道对所有任务进行训练是理想的，但我们想知道是否可以对这些任务的子集进行训练，将结果应用于所有任务，并且仍然看到性能的提高，”吴说。

为了确定他们应该选择哪些任务来最大化预期性能，研究人员开发了一种称为基于模型的迁移学习（MBTL）的算法。

MBTL 算法有两个部分。其一，它模拟了每种算法在一项任务上独立训练时的表现。然后，它对每种算法的性能在转移到其他任务时会降低多少进行建模，这一概念称为泛化性能。

显式建模泛化性能使 MBTL 能够估计新任务训练的价值。

MBTL 按顺序执行此操作，首先选择导致最高性能增益的任务，然后选择为整体性能提供最大后续边际改进的其他任务。

由于 MBTL 只关注最有希望的任务，因此它可以显着提高训练过程的效率。

降低培训成本

当研究人员在模拟任务（包括控制交通信号、管理实时速度建议以及执行几个经典控制任务）上测试该技术时，其效率比其他方法高 5 到 50 倍。

这意味着他们可以通过使用少得多的数据进行训练来得出相同的解决方案。例如，MBTL 算法的效率提高了 50 倍，只需在两个任务上进行训练，就可以达到与使用 100 个任务的数据的标准方法相同的性能。

“从两种主要方法的角度来看，这意味着其他 98 项任务的数据是不必要的，或者对所有 100 项任务的训练会让算法感到困惑，因此最终的性能比我们的要差，”Wu 说。

对于 MBTL，即使添加少量的额外训练时间也可能带来更好的性能。

未来，研究人员计划设计可以扩展到更复杂问题的 MBTL 算法，例如高维任务空间。他们还有兴趣将他们的方法应用于现实世界的问题，尤其是下一代移动系统。

更多信息：Jung-Hoon Cho 等人，用于情境强化学习的基于模型的迁移学习，arXiv（2024）。DOI：10.48550/arxiv.2408.04498

期刊信息： arXiv

这个故事由麻省理工学院新闻转载（web.mit.edu/新闻办公室/），一个热门网站，涵盖有关麻省理工学院研究、创新和教学的新闻。

引文:强化学习算法提供了一种有效的方法来训练更可靠的人工智能代理（2024 年，11 月 22 日）检索日期：2024 年 11 月 23 日来自 https://techxplore.com/news/2024-11-algorithm-efficient-reliable-ai-agents.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

OC

强化学习算法提供了一种有效的方法来训练更可靠的人工智能代理

寻找中间立场

降低培训成本

关于《强化学习算法提供了一种有效的方法来训练更可靠的人工智能代理》的评论

发表评论

摘要

相关新闻

相关讨论