体现的AI揭示了机器人和幼儿如何学会理解

New, embodied AI reveals how robots and toddlers learn to understand — 实验设置：7度自由度的Torobo Arm（Tokyo Robotic Inc.）操纵工作区中不同颜色的5厘米立方体块。信用：*科学机器人技术*（2025）。doi：10.1126/scirobotics.ADP0751

我们人类在概括方面表现出色。如果您通过向她展示红球，一辆红色卡车和一朵红玫瑰来教给一个小孩来识别红色，那么即使这是她第一次看到番茄，她也很可能会正确地识别番茄的颜色。

学习概括的一个重要里程碑是组成性：将整体组成和分解为可重复使用的部分的能力，例如物体的发红。我们如何获得这种能力是发育神经科学和AI研究中的关键问题。

最早的神经网络后来演变为大型语言模型（LLM）革新我们的社会，以研究如何在我们的大脑中处理信息。具有讽刺意味的是，随着这些模型变得越来越复杂，信息处理途径也变得越来越不透明，如今一些模型具有数万亿可调参数。

但是现在，冲绳科学技术研究所（OIST）的认知神经植物研究部门的成员已经创建了一种具有新颖架构的体现智能模型，使研究人员可以访问神经网络的各个内部状态，并且似乎可以学习如何以与儿童相同的方式概括。

他们的发现已经出版在科学机器人技术。

该研究的第一作者Prasanna Vijayaraghavan博士说：“本文证明了神经网络实现组成性的可能机制。”“我们的模型不是通过基于大量数据集的推论来实现这一目标，而是通过将语言与视觉，本体感受，工作记忆和注意力相结合，就像幼儿一样。”

完全不完美

LLMS建立在变压器网络体系结构上，了解来自大量文本数据中句子中出现的单词之间的统计关系。他们本质上可以在每个可能的上下文中访问每个单词，并且从这种理解中，他们可以预测给定提示的最可能的答案。

相比之下，新模型基于PV-RNN（受预测编码启发的，变异的复发性神经网络）框架，该框架通过体现的相互作用训练，整合了与不同感觉的三个同时输入相关的：与Robot Arm的视频相关的，与Robot Arm of Robot的视频移动彩色块;本体感受是我们四肢运动的感觉，具有机器人臂移动时的关节角度；以及诸如“将红色涂在蓝色上”之类的语言指令。

然后，该模型的任务是生成视觉预测和相应的关节角度，以响应语言指令或响应语言指令感官输入。

该系统的灵感来自自由能原理，这表明我们的大脑不断预测基于感官的输入过去的经验并采取行动来最大程度地减少预测和观察之间的差异。这种差异被量化为“自由能”，是一种不确定性的度量，并通过最小化自由能，我们的大脑保持稳定的状态。加上有限的工作记忆和注意力跨度，AI反映了人类的认知约束，迫使其处理输入并按顺序更新其预测，而不是像LLM一样一次。

通过研究模型中的信息流，研究人员可以深入了解其如何整合各种输入以生成其模拟动作。

由于这种模块化体系结构，研究人员已经了解了有关婴儿如何发展成分的更多信息。

正如Vijayaraghavan博士所述：“我们发现，在不同情况下，模型对同一单词的曝光越多，它越多地学习了这个词。这反映了现实生活，在这种情况下，幼儿会在其中学习颜色的概念，如果颜色的概念更快，如果

她以不同的方式与各种红色物体进行了互动，而不仅仅是多次推动红色卡车。”

打开黑匣子

Vijayaraghavan博士说：“我们的模型需要一个明显较小的训练集，并且计算能力要少得多才能实现组合性。它确实比LLMS犯了更多的错误，但它犯了与人类犯错误相似的错误。”

正是此功能使该模型对认知科学家以及试图映射其模型决策过程的AI研究人员如此有用。

尽管它的目的与当前正在使用的LLM不同，因此不能在有效性上进行有意义的比较，但是PV-RNN仍然显示出如何显示神经网络可以组织组织以更深入地了解其信息处理途径：其相对较浅的体系结构使研究人员能够可视化网络的潜在状态。

该模型还解决了刺激问题的贫困，这认为儿童可用的语言输入不足以解释其快速的语言获取。尽管数据集的数据集非常有限，尤其是与LLM相比，该模型仍然可以达到组成性，这表明行为的基础语言可能是儿童令人印象深刻的语言学习能力的重要催化剂。

这种体现的学习可以通过提高透明度以及能够更好地理解其行为的影响，从而为将来的更安全，更符合道德的AI展示道路。像LLM一样，从纯语言角度学习“痛苦”一词的情感体重要比PV-RNN少，而PV-RNN通过与语言一起通过体现的体验来学习含义。

“我们正在继续工作以增强该模型的能力，并利用它来探索发展神经科学的各种领域。我们很高兴看到我们可以发现的认知发展和语言学习过程的未来见解，” Jun Jun Tani教授，研究部门负责人和论文的高级作者。

我们如何获得建立社会的情报是科学中的重要问题之一。尽管PV-RNN尚未回答，但它为我们大脑中的信息如何处理开辟了新的研究途径。

Vijayaraghavan博士总结说：“通过观察模型如何学会结合语言和行动，我们获得了对人类认知基础的基本过程的见解。它已经教会了我们很多关于语言习惯的综合性的知识，并且它展示了它潜在的潜在潜在的。更有效，透明和安全的模型。”

更多信息：Prasanna Vijayaraghavan等人，通过对机器人的语言和动作的互动学习来开发组成性，科学机器人技术（2025）。doi：10.1126/scirobotics.ADP0751

引用：体现的AI揭示了机器人和幼儿如何学会理解（2025年，1月23日）检索2025年1月23日来自https://techxplore.com/news/2025-01-embodied-ai-reveals-robots-toddlers.html

该文档具有版权。除了为私人研究或研究目的的任何公平交易外，没有未经书面许可，可以复制部分。内容仅用于信息目的。

OC

体现的AI揭示了机器人和幼儿如何学会理解

完全不完美

打开黑匣子

关于《体现的AI揭示了机器人和幼儿如何学会理解》的评论

发表评论

摘要

相关新闻

相关讨论