英语轻松读发新版了,欢迎下载、更新

对多巴胺信号传导的新看法表明神经科学家的强化学习模型可能需要修改

2024-12-10 21:14:04 英文原文

作者:Massachusetts Institute of Technology

Revisiting reinforcement learning
左边的漫画显示了两个不同的任务(顶部:提示调节;底部:提示辨别)。顶部的冠状剖面图显示了中央内侧(左)和中央外侧(右)位点的一般记录位置。波形图显示了所有四种任务和记录位置组合的训练前(蓝色)和训练后(红色)奖励试验中多巴胺反应的时间过程。高原反应是通过线索辨别训练来发展的,而不是通过简单的线索调节来发展。中央部位不显示多巴胺释放来奖励传递。这两项任务中的奖励传递在训练后引起与训练前相同的多巴胺横向释放。提示调节中的提示呈现在训练后比训练前引起的多巴胺释放更少,而在提示辨别中,反应保持不变。信用:自然通讯(2024)。DOI:10.1038/s41467-024-53176-7

多巴胺是大脑中的一种强大信号,影响我们的情绪、动机、运动等。神经递质对于基于奖励的学习至关重要,这种功能可能会在许多精神疾病(从情绪障碍到成瘾)中受到干扰。

现在,由麻省理工学院研究所教授 Ann Graybiel 领导的研究人员发现了令人惊讶的多巴胺信号传导模式,这表明神经科学家可能需要完善他们的模型发生在大脑中。团队的发现已发表最近在杂志上自然通讯

多巴胺在教导人类和其他动物了解预示积极和消极结果的线索和行为方面发挥着关键作用;这种学习的典型例子是伊万·巴甫洛夫训练的狗,让它在铃声响起时预测食物。

格雷比尔也是麻省理工学院麦戈文研究所的研究员,他解释说,根据强化学习的标准模型,当动物接触到与奖励配对的提示时,最初是为了响应奖励而开火。当动物了解提示和奖励之间的关联时,多巴胺释放的时间就会发生变化,因此它与提示而不是奖励本身相关。

但与格雷比尔的团队能够对大脑中多巴胺的释放时间和地点进行更详细的分析,但发现这个模型并不完全成立。

十多年前,该小组开始发现强化学习领域的模型并不完整的线索,当时实验室的研究生 Mark Howe 注意到与奖励相关的多巴胺信号并不是在奖励的那一刻突然释放的。奖励已经获得,但在此之前,随着老鼠越来越接近它的奖励,奖励逐渐增加。他们推断,多巴胺实际上可能正在向大脑的其他部分传达奖励的接近程度。“这根本不符合标准的规范模型,”格雷比尔说。

多巴胺动力学

当其他神经科学家考虑强化学习模型如何将这些发现考虑在内时,格雷比尔和博士后 Min Jung Kim 决定是时候仔细研究多巴胺动态了。“我们想:让我们回到最基本的实验并重新开始,”她说。

这意味着使用敏感的新型多巴胺传感器来追踪小鼠大脑中神经递质的释放,因为它们学会了将喝一口满足的水。研究小组将注意力集中在纹状体上,纹状体是大脑基底神经节内的一个区域,这里的神经元利用多巴胺来影响涉及各种过程的神经回路,包括基于奖励的学习。

研究人员发现,纹状体不同部位释放多巴胺的时间不同。但格雷比尔的团队没有发现从奖励时间到提示时间的多巴胺释放时间的转变——强化学习模型的标准模型预测的关键转变。

在该团队最简单的实验中,每当老鼠看到光时,就会得到奖励,当动物喝水时,纹状体的外侧部分会可靠地释放多巴胺。即使老鼠在看到光时学会期待奖励,对奖励的强烈反应也从未减弱。

相比之下,在纹状体的内侧部分,多巴胺在奖励时从未释放。当老鼠看到光时,那里的细胞总是会放电,甚至在学习过程的早期也是如此。格雷比尔说,这令人费解,因为在学习之初,多巴胺就被预测会对奖励本身做出反应。

当格雷比尔的团队在其实验装置中引入第二种光时,多巴胺的释放模式变得更加出乎意料。新的光与第一个光的位置不同,并不表示奖励。小鼠观察任一光作为提示,一次一个,水仅伴随原始提示。

在这些实验中,当小鼠看到与奖励相关的光时,中央纹状体中的多巴胺释放量就会增加,并且令人惊讶的是,它们会一直持续到奖励被传递为止。在该区域的外侧部分,多巴胺也涉及信号传导稳定的持续时期。

格雷比尔说,当实验者引入第二道光时,她惊讶地发现多巴胺反应发生了如此大的变化。当其他试验中可以显示另一种光时,即使小鼠一次只看到一种光,对奖励光的反应也是不同的。“这一定有认知方面的因素在起作用,”她说。“大脑希望将提示已经出现的信息保留一段时间。”

在该团队的实验中,纹状体中的细胞似乎是通过在光和奖励之间的短暂延迟期间持续释放多巴胺来实现这一目标的。事实上,格雷比尔说,虽然这种持续的多巴胺强化学习,重新考虑

格雷比尔说,归根结底,“我们的许多结果并不符合传统上以及目前规范所认为的强化学习模型。”

这表明神经科学家对这一过程的理解需要随着该领域对这一过程的深入理解而不断发展。

“但这只是帮助我们完善理解并重新制定基底神经节如何影响运动、思想和情感的模型的第一步。这些重新制定必须包括强化学习系统的惊喜。这些高原,但它们可能让我们深入了解单一体验如何在我们大脑中与强化相关的部分中徘徊,”她说。

更多信息:Min Jung Kim 等人,背侧纹状体中的多巴胺释放平台和结果信号与经典的强化学习公式形成对比,自然通讯(2024)。DOI:10.1038/s41467-024-53176-7

这个故事由麻省理工学院新闻转载(web.mit.edu/新闻办公室/),一个热门网站,涵盖有关麻省理工学院研究、创新和教学的新闻。

引文:对多巴胺信号传导的新认识表明神经科学家的强化学习模型可能需要修订(2024 年,12 月 10 日)检索日期:2024 年 12 月 11 日来自 https://medicalxpress.com/news/2024-12-dopamine-neuroscientists.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。

关于《对多巴胺信号传导的新看法表明神经科学家的强化学习模型可能需要修改》的评论


暂无评论

发表评论

摘要

由麻省理工学院的 Ann Graybiel 领导的研究人员发现了多巴胺信号传导中意想不到的模式,这些模式挑战了大脑中现有的强化学习模型。传统模型预测,当动物学习时,多巴胺释放会从奖励触发转向与线索相关的多巴胺释放,但新的实验表明,在线索辨别任务期间,某些大脑区域的多巴胺会持续稳定。这些发现表明,神经科学家可能需要修改他们对强化学习如何发生和影响行为的理解。