我们这个时代的大科学挑战。能力从经验中学习是机器和生物的情报基石。
在一个非常有先见之明1948年报告,,,,艾伦·图灵(Alan Turing)现代计算机科学的父亲提出了展示智能行为的机器的构建。他还通过奖励和惩罚讨论了此类机器的教育。
图灵的想法最终导致了强化学习,一个分支人工智能。强化学习设计通过训练智能代理人在与环境互动时最大程度地提高奖励来设计。
作为机器学习研究人员,我发现加强学习先驱很合适安德鲁·巴托和理查德·萨顿(Richard Sutton)被授予2024 ACM图灵奖。
什么是强化学习?
动物训练师知道,动物行为可能会受到奖励理想的行为的影响。训练师正确地做狗时,它会给狗带来零食。这加强了行为,下次狗更有可能正确地完成技巧。强化学习借用了这种见解来自动物心理学。
但是加强学习是关于训练计算剂,而不是动物。代理可以是软件代理,例如国际象棋程序。但是代理商也可以像机器人学习做家务一样是一个体现的实体。同样,代理商的环境可以是虚拟的,例如棋盘或视频游戏中设计的世界。但这也可以是机器人正在工作的房子。
就像动物一样,代理可以感知其环境的各个方面并采取行动。国际象棋代理可以访问棋盘配置并进行移动。机器人可以用摄像头和麦克风感知其周围环境。它可以使用电动机在物理世界中移动。
代理商还具有他们的人类设计师为他们计划的目标。棋手的目标是赢得比赛。机器人的目标可能是协助其家人做家务。
AI中的强化学习问题是如何通过在环境中感知和行动来设计实现目标的代理。强化学习提出了一个大胆的主张:所有目标都可以通过设计数字信号,称为奖励,并使代理商最大化其获得的总奖励总和。
研究人员不知道这一主张是否真的是正确的,因为可能有各种各样的目标。因此,通常被称为奖励假设。
有时,很容易选择与目标相对应的奖励信号。对于棋手的代理人,奖励可以为+1获胜,抽奖0和-1损失。对于有用的家用机器人助手设计奖励信号并不清楚。然而,强化学习研究人员能够设计良好奖励信号的应用程序列表正在增长。
强化学习的巨大成功是在棋盘游戏中。研究人员认为,对于机器而言,GO比国际象棋要掌握要难得多。该公司DeepMind(现为Google DeepMind)使用了强化学习来创建Alphago。Alphago在A中击败了Top Go Player Lee Sedol五场比赛2016年。
一个最新的例子是使用强化学习使聊天机器人(例如Chatgpt)更有帮助。强化学习也被用来提高聊天机器人的推理能力。
强化学习的起源
但是,这些成功都无法在1980年代得到预见。那是Barto和他当时的PH.D的时候。学生萨顿(Sutton)提出了加强学习作为一般解决问题的框架。他们不仅从动物心理学中汲取了灵感,而且还从控制理论,使用反馈来影响系统行为,并优化,研究如何在一系列可用选项中选择最佳选择的数学分支。他们为研究社区提供了经受了时间考验的数学基础。他们还创建了现在已成为现场标准工具的算法。
当开拓者花时间写教科书时,这是一个难得的领域。像化学键的性质Linus Pauling和计算机编程的艺术唐纳德·诺斯(Donald E.萨顿和巴托强化学习:简介â于1998年首次出版。第二版2018年出版。他们的书影响了一代研究人员,并被引用了75,000次以上。
强化学习也对神经科学产生了意想不到的影响。神经递质多巴胺在人类和动物的奖励驱动行为中起关键作用。研究人员使用在增强学习中开发的特定算法来解释人和动物多巴胺系统的实验发现。
Barto和Sutton的基础工作,远见和倡导有助于加强学习的增长。他们的工作激发了大量研究,对现实世界的应用产生了影响,并吸引了科技公司的巨额投资。我敢肯定,强化学习研究人员将继续通过站在肩膀上进一步看待。