英语轻松读发新版了,欢迎下载、更新

机器人中的连续技能获取:新框架模仿人类终身学习

2025-02-20 11:20:33 英文原文
A robotic reinforcement learning framework designed to mimic human lifelong learning
机器人LRL过程的概念插图。A,一般LRL过程的概述。与常规的多任务方法不同,代理可以同时访问所有任务,LRL代理可以依次依次掌握任务。此外,代理在整个过程中应不断积累知识。这个概念模仿了人类的学习过程。B,我们在终身学习概念下提出的框架。我们指示已部署的体现代理使用语言命令执行长马任务。代理人通过结合和重新应用获得的知识来完成这些任务。学分:Meng等。((自然机器智能,2025)。

众所周知,人类会随着时间的推移积累知识,从而使他们能够不断提高自己的能力和技能。迄今为止,这种能力被称为终身学习,在人工智能(AI)和机器人系统中很难复制。

由Alois Knoll教授和Zhenshan Bing博士领导的慕尼黑技术大学和南京大学的研究团队开发了Legion,这是一种新的强化学习框架,可以为机器人系统配备终身学习能力。

他们提出的框架,在纸上 自然机器智能,可以帮助提高机器人的适应性,同时在现实世界中提高其性能。

“我们的研究起源于2021年的机器人元强化学习项目,我们最初探索了高斯混合模型(GMM)作为先验推理和知识聚类,”该论文的第一作者Yuan Meng告诉Tech Xplore。

“虽然这种方法产生了有希望的结果,我们遇到了一个限制的GMM需要预定义的群集,这使得它们不适合终身学习场景,在这种情况下,任务的数量本质上是未知的,并且不同步。

“为了解决这个问题,我们转向了贝叶斯非参数模型,特别是Dirichlet过程混合模型(DPMMS),它们可以根据传入的任务数据动态调整簇数。”

利用一类称为DPMM的模型,Legion框架允许通过增强学习训练的算法可以在不断变化的任务流中持续获取,保留和重新应用知识。研究人员希望这个新框架将有助于增强AI代理的学习能力,使他们更接近人类观察到的终身学习。

“军团框架旨在通过允许一个人来模仿人类的终身学习在保存和重复使用以前获得的知识的同时,不断学习新任务,”孟解释说。

“它的关键贡献是基于DPMM的非参数知识空间,该空间可以动态地确定知识的结构而无需预定义的任务簇。这可以防止灾难性的遗忘,并允许灵活适应新的,看不见的任务。”

展示了拟议的军团框架的现实表现,以解决长马操纵任务:“清理桌子”。信用:自然机器智能(2025)。doi:10.1038/s42256-025-00983-2

Meng,Knoll教授,Bing博士及其同事提出的新框架集成了根据预先训练的大型语言模型(LLM)编码的语言嵌入。这种集成最终使机器人可以处理和理解用户的说明,并独立于任务演示解释这些说明。

Meng说:“此外,我们的框架有助于知识重组,这意味着机器人可以通过智能测序以前学到的技能,例如按下对象,打开抽屉或压制按钮来解决较长的任务,例如清洁桌子。”

“与依赖于预定义的执行序列的常规模仿学习不同,Legion允许以任何必需的顺序进行灵活的技能组合,从而在现实世界的机器人应用中更大的概括和灵活性。”

研究人员在一系列初始测试中评估了他们的方法,并将其应用于真正的机器人系统。他们的发现非常有前途,因为军团框架使机器人能够从连续的任务流中始终如一地积累知识。

孟说:“我们证明了非参数贝叶斯模型,特别是DPMM,可以作为机器人终身学习的有效先验知识。”“与传统的多任务学习不同,在同时学习所有任务的情况下,我们的框架可以动态地适应一个未知数的任务流,保留和重组知识以提高绩效随着时间的推移。”

Meng,Knoll教授,Bing博士及其同事最近的工作可能会为未来的努力提供旨在开发机器人的努力,这些机器人可以随着时间的流逝而不断获取知识并完善其技能。可以进一步改进军团框架,并应用于包括服务机器人和工业机器人在内的广泛机器人。

“例如,部署在可以随着时间的流逝学习家务,根据用户反馈来完善其技能,并在出现的新任务中适应新任务。同样,在工业环境中,机器人可以逐步学习并适应不断变化的生产线,而无需进行广泛的重新编程。”

在下一项研究中,研究人员计划致力于进一步增强终身学习中的稳定性与可塑性权衡,因为这将使机器人能够随着时间的推移可靠地保留知识,同时还可以适应新的环境或任务。为此,他们将整合各种计算技术,包括生成重播和持续反向传播。

Meng补充说:“未来研究的另一个关键方向将是跨平台知识转移,机器人可以在其中转移和调整跨不同实施方案的知识,例如人形机器人,机器人臂和移动平台。”

“我们还试图将Legion的功能扩展到结构化的环境之外,使机器人可以通过不同的对象安排处理非结构化的,动态的现实世界设置。关于口头或上下文反馈。”

更多信息:元门等自然机器智能(2025)。doi:10.1038/s42256-025-00983-2。©2025科学X网络

引用

机器人中的连续技能获取:新框架模仿人类终身学习(2025年,2月20日)检索2025年2月20日来自https://techxplore.com/news/2025-02-Skill-Acquetion-Robots-framework-mimics.html

该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。

关于《机器人中的连续技能获取:新框架模仿人类终身学习》的评论


暂无评论

发表评论

摘要

慕尼黑技术大学和南京大学的研究人员开发了Legion,这是一个强化学习框架,使机器人系统能够获得终身学习能力。该框架允许机器人使用贝叶斯非参数模型(例如Dirichlet过程混合模型(DPMMS))连续累积各种任务的知识,该模型会动态调整没有预定义限制的任务簇的数量。该系统可以处理语言命令和智能序列学习的技能,以执行复杂的长途任务,并在现实世界中展示适应性。未来的工作旨在增强知识保留与适应平衡,并为更广泛的机器人应用实现跨平台知识转移。