作者:Neuroscience News
概括:一种基于PV-RNN框架的新的AI模型通过整合视觉,本体感受和语言指令,以类似于幼儿的方式学会以类似的方式概括语言和动作。与依靠大量数据集的大型语言模型(LLM)不同,该系统使用具体的交互来实现组成性,同时需要更少的数据和计算能力。
研究人员发现,AI的模块化,透明的设计有助于研究人类如何获得认知能力,例如结合语言和动作。该模型提供了有关发展性神经科学的见解,并通过将行为学习和透明决策过程进行学习,从而导致更安全,更符合道德的AI。
关键事实:
来源:Oist
我们人类在概括方面表现出色。如果您通过向她展示红球,一辆红色卡车和一朵红玫瑰来教给一个小孩来识别红色,那么即使这是她第一次看到番茄,她也很可能会正确地识别番茄的颜色。
学习概括的一个重要里程碑是组成性:将整体组成和分解为可重复使用的部分的能力,例如物体的发红。我们如何获得这种能力是发育神经科学和AI研究中的关键问题。
最早的神经网络后来发展成为大型语言模型(LLMS)彻底改变了我们社会,它是为了研究如何在我们的大脑中处理信息的。
具有讽刺意味的是,随着这些模型变得越来越复杂,信息处理途径也变得越来越不透明,如今一些模型具有数万亿可调参数。
但是现在,冲绳科学技术研究所(OIST)的认知神经植物研究部门的成员已经创建了一种具有新颖的体系结构的体现智能模型,使研究人员可以访问神经网络的各个内部状态,并且似乎可以学习如何以与儿童相同的方式概括。
他们的发现现已发表在 科学机器人技术。
该研究的第一作者Prasanna Vijayaraghavan博士说,本文证明了神经网络实现组成性的可能机制。
我们的模型不是通过基于广泛数据集的推论来实现这一目标,而是通过将语言与视觉,本体感受,工作记忆和注意力相结合。”
LLMS建立在变压器网络体系结构上,了解来自大量文本数据中句子中出现的单词之间的统计关系。他们本质上可以在每个可能的上下文中访问每个单词,并且从这种理解中,他们可以预测给定提示的最可能的答案。
相比之下,新模型基于PV-RNN(受预测编码启发的,变异的复发性神经网络)框架,该框架通过体现的相互作用训练,整合了与不同感觉的三个同时输入相关的:与Robot Arm的视频相关的,与Robot Arm of Robot的视频移动彩色块;本体感受是我们四肢运动的感觉,在机器人手臂移动时具有关节角度;以及像将红色涂在蓝色上的语言指令。
然后,该模型的任务是生成视觉预测和相应的关节角度,以响应语言指令,或者是针对感官输入的语言指令。
该系统的灵感来自自由能原理,这表明我们的大脑根据过去的经验不断预测感觉输入,并采取行动以最大程度地减少预测和观察之间的差异。
这种差异被量化为自由能,是一种衡量不确定性的量度,通过最大程度地减少自由能,我们的大脑保持稳定的状态。
加上有限的工作记忆和注意力跨度,AI反映了人类的认知约束,迫使其处理输入并按顺序更新其预测,而不是像LLM一样一次。
通过研究模型中的信息流,研究人员可以深入了解其如何整合各种输入以生成其模拟动作。
由于这种模块化体系结构,研究人员已经了解了有关婴儿如何发展成分的更多信息。正如Vijayaraghavan博士所述,我们发现该模型在不同情况下对同一单词的曝光越多,它就会越多。
这反映了现实生活,如果幼儿以不同的方式与各种红色物体进行互动,而不仅仅是多次推动红色卡车,那么幼儿就会更快地学习红色的概念。
我们的模型需要较小的训练集,并且需要较小的计算能力才能获得组成性。Vijayaraghavan博士说,这确实比LLMS犯了更多的错误,但它犯了类似于人类犯错的错误。”
正是此功能使该模型对认知科学家以及试图映射其模型决策过程的AI研究人员如此有用。
尽管它具有与当前使用的LLM不同的目的,因此不能在有效性上进行有意义的比较,但是PV-RNN仍然显示如何组织神经网络,以更深入地了解其信息处理途径:其相对较浅的建筑允许研究人员为了可视化网络的潜在状态 - 从过去保留并用于当前预测中的信息的不断发展的内部表示。
该模型还解决了刺激问题的贫困,这认为儿童可用的语言输入不足以解释其快速的语言获取。
尽管数据集的数据集非常有限,尤其是与LLM相比,该模型仍然可以达到组成性,这表明行为的基础语言可能是儿童令人印象深刻的语言学习能力的重要催化剂。
这种体现的学习可以通过提高透明度以及能够更好地理解其行为的影响,从而为将来的更安全,更符合道德的AI展示道路。
像LLM一样,从纯粹的语言角度来学习苦难的人的情感体重要比PV-RNN少,而情感量的重量较少,而PV-RNN通过与语言一起通过体现的体验来学习含义。
我们正在继续工作以增强该模型的能力,并利用它来探索发展性神经科学的各个领域。
我们很高兴看到我们可以发现的认知发展和语言学习过程的未来见解。”研究部门负责人兼高级作者Jun Tani教授说。
我们如何获得建立社会的情报是科学中的重要问题之一。尽管PV-RNN没有回答,但它开辟了有关我们大脑中信息如何处理的新研究途径。
通过观察模型如何学会结合语言和行动,总结了Vijayaraghavan博士,“我们可以深入了解人类认知基于人类认知的基本过程。
它已经教会了我们很多关于语言习得的组成性的知识,并且展示了更有效,透明和安全模型的潜力。
作者:Jun Tani
来源:Oist
接触:Jun Tani oist
图像:图像被认为是神经科学新闻
原始研究:封闭式访问。
通过对机器人的语言和动作进行互动学习来发展构图Prasanna Vijayaraghavan等人。科学机器人技术
抽象的
通过对机器人的语言和动作进行互动学习来发展构图
人类擅长将学习的行为应用于未经学习的情况。这种概括行为的关键组成部分是我们将整体组成/分解为可重复使用的部分的能力,这是一种称为组成的属性。
机器人技术中的基本问题之一是这种特征:如何通过关联学习与感觉运动技能同时发展语言构图,尤其是当个人只学习部分语言组成及其相应的感觉运动模式时?
为了解决这个问题,我们提出了一个受脑启发的神经网络模型,该模型将视觉,本体感受和语言集成到预测性编码和主动推断的框架中,以自由能原则为基础。
通过使用机器人组进行的各种模拟实验评估了该模型的有效性和功能。
我们的结果表明,当训练任务组成的训练变化增加时,学习对未学习的动词名词组成的概括会显着增强。
我们将其归因于语言潜在状态空间中的自组织组成结构受到感觉运动学习的影响。
消融研究表明,视觉注意力和工作记忆对于准确生成视觉运动序列至关重要,以实现语言代表的目标。
这些见解通过语言和感觉运动经验的相互作用来提高我们对构图发展的基础机制的理解。