无反馈学习:神经科学家帮助揭示无监督学习对人类和机器的影响

2024-10-18 15:15:31 英文原文

作者:Max Planck Society

The power and pitfalls of learning without feedback
credits: 信用额度:(由于原句没有实际内容,此处提供一种可能的实际应用场景的译法)若无具体内容,默认输出原文: Credit: 信用:认知科学趋势(2024). DOI: 10.1016/j.tics.2024.09.005

想象一个孩子第一次访问农场,看到了羊和山羊。他们的家长指出了哪些是羊,哪些是山羊,帮助孩子学会区分两者。但是当这个孩子在没有指导的情况下再次访问时会发生什么?他们还能分辨出它们的区别吗?

神经科学家弗兰西斯卡·布鲁克正在研究人类和机器在无人监督的情况下如何学习——就像一个独自玩耍的孩子一样,并且她发现了一个谜题:无监督学习既可以促进也可以阻碍进步,这取决于某些条件。该论文是发布认知科学趋势.

在机器学习的世界里,算法依赖于无监督的数据而蓬勃发展。它们分析大量没有明确标签的信息,但仍能学会有用的模式。这一成功引发了这样的疑问:如果机器能够以这种方式很好地进行学习,为什么人类在这种情况下会遇到困难?

根据最近的研究,答案可能在于我们在缺乏反馈的情况下如何做出预测并强化这些预测。换句话说,结果取决于我们对任务的内在理解与任务实际要求之间的匹配程度。

研究显示,人类像机器一样,使用预测来理解新的信息。例如,如果有人认为绵羊和山羊之间的关键区别在于毛的多少,他们可能会错误地将一只长毛的山羊归类为绵羊。当没有人纠正这个错误时,他们的错误预测就会得到强化,这使得学习正确的区别变得更加困难。“自我强化”过程可能导致滚雪球效应:如果最初的猜测是正确的,学习效果会更好——但如果错了,他们可能陷入虚假信念的循环中。

这种现象不仅适用于动物识别。从学习演奏乐器到掌握一门新的语言,同样的动态也可以看到。没有指导或反馈的情况下,人们往往强化了错误的方法,使得以后纠正这些错误变得更加困难。

研究发现,在一个人最初的了解已经与任务有一定契合度的情况下,无监督学习效果最佳。对于更难的任务——比如学习复杂的语言规则或困难的运动技能——反馈是必不可少的,以避免陷入困境。

最终,无监督学习的混合结果讲述了一个更大的故事:这不仅仅是关于没有反馈的学习是否有效的问题,而是关于何时以及如何使用它。随着人类和机器在更复杂的环境中继续学习,理解这些细微差别可能会导致更好的教学方法、更有效的训练工具,甚至可能产生像我们一样能够更好地自我纠正的智能算法。

专业知识和无监督学习

尽管实验室研究揭示了无监督学习的各种结果,但要理解其在现实世界学习场景中的影响,需要考察专业知识的获取,而这种获取源自不同程度监督下的广泛学习。

例如,放射科医生在其职业生涯早期会收到结构化的反馈,但逐渐失去明确的监督指导。如果仅靠无监督学习就能培养专业知识,我们预期会有持续的进步,但实际上证据表明并非如此。

批评者认为,经验并不一定预示着专业能力,因为它可能仅仅反映了资历而没有实质性的技能提升。诸如确认偏误之类的偏见会进一步通过偏好与既有观念一致的信息来扭曲无监督学习,从而阻碍进步。

相反,定期对决策提供反馈似乎是持续改进的必要条件。这与表征到任务一致性框架相吻合,该框架认为最初的反馈有助于学习者在他们能够有效自我调节学习之前建立准确的心理表征。

例如,在运动技能学习中,早期移除反馈这可能导致表现下降,而是在学习者预测更加准确的时候撤回它有助于保持甚至提高表现。这强调了专业知识不仅需要经验,还需要在关键的学习阶段进行及时的监督。

无监督学习中的自强化

无监督学习常常由自我强化机制驱动,其中学习者使用自己的预测而不是外部验证。这种形式的学习在感知和类别学习中得到了充分的探索,海布模型展示了无监督学习如何根据学习者的表征与任务的一致性来增强或降低性能。

这些模型已经成功地解释了半监督分类,例如儿童获取语言标签的过程,表明自我强化可以塑造学习路径。

然而,在专业知识获取过程中缺乏反馈,尤其是负面反馈,会导致错误预测的持续存在,这一点在刻板印象中得到了体现。如果没有外部纠正,个人可能会强化自己的错误预测,这一现象由建构主义编码假设所描述。

这可能导致持续的错误,因为即使没有提供反馈,动作也被视为已验证,强调了选择性反馈在调节无监督学习中的作用。

内部反馈和神经机制

自我强化需要独立于外部监督运作的内部学习信号。_while_通过外部反馈(如奖励和惩罚)学习的过程已经很好地被理解了,但自我生成反馈的机制则不太清楚。

最新研究显示 что在处理外部反馈时活跃的脑区也在推断性反馈期间被激活,例如当学习者强化自己的选择时。即使没有外部反馈,对自己决定的信心似乎也是自我强化的关键驱动因素,并且主观奖励可以通过强化过去的决策来塑造学习路径。

这些内部反馈机制可能会导致学习者陷入“学习陷阱”,使他们停止探索替代策略,而只专注于利用过去的决策。神经成像研究表明,偏好仅针对记忆中的选择进行更新,这进一步支持了内部反馈在指导无监督学习方面的作用。

此外,神经回放——即大脑在休息时重新激活过去经历的过程——与自我强化有关,强调了其在没有外部指导的情况下精炼心理表征的作用。

找到合适的平衡点

专业知识文献以及关于无监督学习的控制研究支持这样的观点,即自我强化可以基于学习者的精神表征与手头任务之间的匹配程度来增强或阻碍表现。虽然无监督学习具有潜力,但它并非万能良药。相反,其有效性取决于现有知识、内部信号和任务结构之间复杂的相互作用。

未来的研究应进一步探索无监督自强化与外部监督信号之间的关系,特别是在真实世界的学习环境中。这包括研究这些机制在人类学习中的相互作用,这可能涉及一个统一的学习系统,而不是人工智能中常用的特定任务算法。

结合神经科学、心理学和机器学习的见解将有助于开发更全面的人类学习模型,从而设计出更好的教学方法以支持终身学习并防止对错误结论过度自信。

最终,理解无监督学习的动力学,包括其潜在的陷阱,将增强教育方法,并支持各领域专长的发展。通过平衡自强化与批判性的外部输入之间的关系,我们可以优化学习系统以培养深刻而持久的专业知识,同时避免无监督过度自信的陷阱。

更多相关信息:弗朗西斯卡·布鲁克等人,揭开无监督学习的神秘面纱:它如何帮助和伤害认知科学趋势 (2024). DOI: 10.1016/j.tics.2024.09.005

引用无反馈学习:神经科学家帮助揭示无监督学习对人类和机器的影响(2024年10月18日) 检索于2024年10月19日 从 https://medicalxpress.com/news/2024-10-feedback-neuroscientist-uncover-unsupervised-humans.html

本文件受版权保护。除个人研究或学习目的的合理使用外,未经书面许可不得复制任何部分。内容仅用于提供信息之目的。

关于《无反馈学习:神经科学家帮助揭示无监督学习对人类和机器的影响》的评论


暂无评论

发表评论

摘要

信用:《认知科学趋势》(2024)。从学习演奏乐器到掌握一门新语言,同样的动态表现出来。专家技能和无监督学习 虽然实验室研究揭示了无监督学习的各种结果,但要理解其在现实世界中的学习场景中的影响,则需要考察专业知识的获得情况,这种知识来源于具有不同程度指导的广泛学习过程。例如,在运动技能的学习中,如果在学习初期就取消反馈,可能会导致表现下降;而当学习者的预测更准确时,延迟撤销反馈则有助于维持甚至提高表现。找到正确的平衡点 专家技能文献与无监督学习的受控研究共同支持这样一个观点:自我强化既可以增强也可以阻碍绩效,这取决于学习者的心智表征与任务要求之间的契合度。