英语轻松读发新版了,欢迎下载、更新

平台允许人工智能从持续、细致的人类反馈中学习,而不是从大型数据集中学习

2024-12-03 20:57:56 英文原文

作者:Duke University

Training AI through Human Interactions Instead of Datasets
GUIDE:训练由两个阶段组成:在人类指导阶段,人类训练者观察代理的状态和采取的行动,并提供实时连续反馈。反馈值基于每步密集奖励并与环境奖励相结合。同时,我们训练一个人类反馈模拟器,它接受状态-动作对并对反馈值进行回归。在自动指导阶段,训练有素的模拟器代表人类并提供反馈以继续改进策略,有效减少人类的努力和认知负荷。信用:arXiv(2024)。DOI:10.48550/arxiv.2410.15181

在你的第一堂驾驶课上,教练可能坐在你旁边,在每次转弯、停车和细微调整时立即提供建议。如果是家长,说不定还会抓着方向盘大喊“刹车!”几下。随着时间的推移,这些纠正和见解会积累经验和直觉,使您成为一名独立、有能力的驾驶员。

尽管人工智能(AI)的进步已经取得了一个现实,即即使是最紧张的侧座司机,用来训练他们的方法也仍然相去甚远。无论应用如何,人工智能主要通过大量数据集和广泛的模拟来学习,而不是细微差别和实时指令。

现在,杜克大学和陆军研究实验室的研究人员开发了一个平台来帮助人工智能学习执行任务更像人类。该人工智能框架简称为GUIDE,将在即将召开的神经信息处理系统会议(神经IPS 2024),于 12 月 9 日至 5 日在加拿大温哥华举行。工作也是可用的arXiv预印本服务器。

“对于人工智能来说,处理需要基于有限的学习信息快速决策的任务仍然是一个挑战,”机械工程和机械工程教授陈博源解释道。、电气和和杜克大学计算机科学,他还负责杜克通用机器人实验室。

“现存的陈说:“通常由于对大量预先存在的数据集的依赖而受到限制,同时还与传统反馈方法的有限适应性作斗争。我们的目标是通过纳入实时连续的人类反馈来弥补这一差距。”

图片来源:杜克大学

GUIDE 的功能是让人类实时观察人工智能的行为并提供持续的、细致入微的反馈。这就像熟练的驾驶教练不会只是喊“左”或“右”,而是提供详细的指导,以促进渐进的改进和更深入的理解。

在其首次研究中,GUIDE 帮助人工智能学习如何最好地玩捉迷藏。游戏涉及两名甲虫形状的玩家,一红一绿。虽然两者都是由计算机控制,但只有红色玩家正在努力改进其人工智能控制器。

比赛在一个正方形的比赛场地上进行,比赛场地的中心有一个C形的障碍物。大部分比赛场地仍然是黑色和未知的,直到红色探索者进入新区域以揭示其中包含的内容。

当红色人工智能玩家追逐另一名玩家时,人类训练师会对其搜索策略提供反馈。虽然以前对此类训练策略的尝试仅允许三种人类输入(好、坏或中性),但 GUIDE 让人类将鼠标光标悬停在梯度刻度上以提供实时反馈。

该实验涉及 50 名没有接受过任何培训或专业知识的成年参与者,这是迄今为止同类研究中规模最大的一次。研究人员发现,仅仅 10 分钟的人类反馈就能显着提高人工智能的性能。与当前最先进的人类引导强化学习方法相比,GUIDE 的成功率提高了 30%。

“这些强有力的定量和定性证据凸显了我们方法的有效性,”主要作者、一年级博士生张凌宇说。陈实验室的学生。“它展示了 GUIDE 如何提高适应性,帮助人工智能独立导航和响应复杂的动态环境。”

研究人员还证明,人类训练员只在短时间内真正需要。当参与者提供反馈时,团队根据他们在特定时间点对特定场景的见解创建了模拟人类训练师人工智能。这使得探索者人工智能能够在人类厌倦了帮助它学习后很长时间内继续训练。训练一个不如它所训练的人工智能那么好的人工智能“教练”可能听起来有悖常理,但正如陈解释的那样,这实际上是一件非常人性化的事情。

“虽然某人很难掌握某项任务,但判断自己是否在这方面做得更好并不难,”陈说。“很多教练在自己没有成为冠军的情况下也能指导球员获得冠军​​。”

GUIDE 的另一个有趣的方向在于探索人类训练者之间的个体差异。对所有 50 名参与者进行的认知测试显示,某些能力,例如空间推理和快速决策,会显着影响一个人指导人工智能的效率。这些结果凸显了一些有趣的可能性,例如通过有针对性的培训来增强这些能力,以及发现可能有助于成功的人工智能指导的其他因素。

这些问题表明了开发更具适应性的培训框架的令人兴奋的潜力,该框架不仅专注于人工智能教学,而且还注重增强人类能力以组建未来的人类人工智能团队。通过解决这些问题,研究人员希望创造一个人工智能不仅能够更有效、更直观地学习的未来,弥合人类直觉和机器学习之间的差距,使人工智能能够在信息有限的环境中更加自主地运行。

“随着人工智能技术变得越来越流行,设计直观且可供日常用户使用的系统至关重要,”陈说。“GUIDE 为更智能、反应更灵敏的人工智能铺平了道路,人工智能能够在动态和不可预测的环境中自主运行。”

该团队设想未来的研究将使用语言整合不同的通信信号,、手势等,为人工智能创建一个更全面、更直观的框架,以从人类交互中学习。他们的工作是实验室构建下一代智能系统使命的一部分,该系统与人类合作解决人工智能或人类单独无法解决的任务。

更多信息:Lingyu Zhang 等人,指南:实时人形智能体,arXiv(2024)。DOI:10.48550/arxiv.2410.15181

期刊信息: arXiv

引文:平台允许人工智能从持续、细致的人类反馈中学习,而不是从大型数据集中学习(2024 年,12 月 3 日)检索日期:2024 年 12 月 3 日来自 https://techxplore.com/news/2024-12-platform-ai-constant-nuanced- human.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。

关于《平台允许人工智能从持续、细致的人类反馈中学习,而不是从大型数据集中学习》的评论


暂无评论

发表评论

摘要

杜克大学和陆军研究实验室的研究人员开发了一个名为 GUIDE 的平台,使人工智能能够通过实时连续的人类反馈来学习复杂的任务,而不是依赖大型数据集。在最初的研究中,GUIDE 证明了人工智能的捉迷藏性能只需 10 分钟的人类反馈即可显着提高,与当前方法相比,成功率提高了 30%。该平台旨在弥合传统培训局限性和更直观的学习方法之间的差距,促进人工智能系统更大的适应性和自主性。GUIDE 将在 NeurIPS 2024 上展示,并在 arXiv 上提供。