英语轻松读发新版了,欢迎下载、更新

研究发现人工智能可以比人类专家更好地预测神经科学研究结果

2024-11-27 10:00:01 英文原文

作者:by University College London

neuroscience
图片来源:Pixabay/CC0 公共领域

伦敦大学学院(UCL)研究人员领导的一项研究发现,大型语言模型是一种分析文本的人工智能,可以比人类专家更准确地预测神经科学研究的结果。

研究结果发表于自然人类行为,证明在大量文本数据集上训练的大型语言模型(LLM)可以从,使他们能够以超人的准确度预测科学结果。

研究人员表示,这突显了它们作为加速研究的强大工具的潜力,而不仅仅是知识检索。

主要作者 Ken Luo 博士(伦敦大学学院心理学与语言科学)表示:“自从像 ChatGPT 这样的生成式 AI 出现以来,许多研究都集中在法学硕士的问答能力上,展示了他们从大量训练数据中总结知识的非凡技能。然而我们没有强调法学硕士检索过去信息的回顾能力,而是探讨了法学硕士是否可以综合知识来预测未来的结果。

“科学进步往往依赖于反复试验,但每一次细致的实验都需要时间和资源。即使是最熟练的研究人员也可能忽视文献中的关键见解。我们的工作调查法学硕士是否能够识别大量科学文本中的模式并预测实验结果。”

国际研究小组通过开发 BrainBench 开始了他们的研究,这是一种评估表现如何的工具。(法学硕士)可以预测结果。

BrainBench 包含多对神经科学研究摘要。在每一对中,一个版本是真实的研究摘要,简要描述了研究背景、使用的方法和研究结果。在另一个版本中,背景和方法是相同的,但结果已被相关神经科学领域的专家修改为看似合理但不正确的结果。

研究人员测试了 15 名不同的通用法学硕士和 171 名人类神经科学专家(他们都通过了筛选测试来确认他们的专业知识),看看人工智能或人是否能够正确确定两对摘要中哪一个是真实的。实际研究结果。

所有法学硕士的表现都优于神经科学家,法学硕士的平均准确度为 81%,人类的平均准确度为 63%。即使研究团队将人类反应限制为仅对特定神经科学领域具有最高专业知识的人进行反应(基于自我报告的专业知识),神经科学家的准确率仍然低于法学硕士(66%)。

此外,研究人员发现,当法学硕士对自己的决定更有信心时,他们更有可能是正确的。研究人员表示,这一发现为人类专家可以与经过良好校准的模型进行合作的未来铺平了道路。

然后,研究人员通过专门针对神经科学文献进行培训,对现有的法学硕士(开源法学硕士 Mistral 的一个版本)进行了改造。新的专门研究神经科学的法学硕士(他们将其称为 BrainGPT)在预测研究结果方面甚至更好,达到了 86% 的准确率(比 Mistral 的通用版本的准确率有所提高,后者的准确率为 83%)。

资深作者 Bradley Love 教授(伦敦大学学院心理学与语言科学)表示:“根据我们的研究结果,我们怀疑不久之后科学家们就会使用人工智能工具来针对他们的问题设计最有效的实验。虽然我们的研究重点是神经科学,我们的方法是通用的,应该成功地应用于所有科学领域。

“值得注意的是法学硕士能够很好地预测神经科学文献。这一成功表明,大量科学并不是真正新颖的,而是符合文献中现有结果的模式。我们想知道科学家是否具有足够的创新性和探索性。”

罗博士补充道:“基于我们的研究结果,我们正在开发人工智能工具来帮助研究人员。我们设想,未来研究人员可以输入他们提出的实验设计和预期结果,人工智能可以提供对各种结果可能性的预测。这将使实验设计中更快的迭代和更明智的决策。”

这项研究涉及伦敦大学学院、剑桥大学、牛津大学、马克斯普朗克行为神经生物学研究所(德国)、比尔肯特大学(土耳其)以及英国、美国、瑞士、俄罗斯、德国、比利时、丹麦、加拿大、西班牙和澳大利亚。

更多信息:大型语言模型在预测神经科学结果方面超越了人类专家,自然人类行为(2024)。DOI:10.1038/s41562-024-02046-9

引文:研究发现,人工智能可以比人类专家更好地预测神经科学研究结果(2024 年,11 月 27 日)检索日期:2024 年 11 月 27 日来自 https://medicalxpress.com/news/2024-11-ai-neuroscience-results- human-experts.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。

关于《研究发现人工智能可以比人类专家更好地预测神经科学研究结果》的评论


暂无评论

发表评论

摘要

根据《自然人类行为》发表的一项研究,大型语言模型 (LLM) 在预测神经科学研究结果方面优于人类专家。伦敦大学学院的研究人员开发了 BrainBench,这是一种评估法学硕士根据研究摘要预测结果的能力的工具。在测试中,法学硕士的准确率达到 81%,而人类的准确率为 63%。接受过神经科学文献培训的专门法学硕士的准确率达到了 86%。研究结果表明人工智能工具有可能加速科学研究并为实验设计提供信息。