作者:Neuroscience News
概括:一项新研究表明,大型语言模型 (LLM) 可以比人类专家更准确地预测神经科学研究的结果,准确率达到 81%,而神经科学家的准确率仅为 63%。
研究人员使用一种名为 BrainBench 的工具,测试了法学硕士和人类专家识别真实与捏造的研究摘要的能力,发现即使神经科学家拥有特定领域的专业知识,人工智能模型也表现出色。一个专注于神经科学的专业法学硕士(称为 BrainGPT)达到了 86% 的更高准确率。
该研究强调了人工智能在设计实验、预测结果和加速跨学科科学进步方面的潜力。
主要事实:
来源:伦敦大学学院
伦敦大学学院(UCL)研究人员领导的一项新研究发现,大型语言模型是一种分析文本的人工智能,可以比人类专家更准确地预测神经科学研究的结果。
研究结果发表于 自然人类行为,证明在大量文本数据集上训练的大型语言模型(LLM)可以从科学文献中提取模式,使它们能够以超人的准确性预测科学结果。
研究人员表示,这突显了它们作为加速研究的强大工具的潜力,而不仅仅是知识检索。
主要作者 Ken Luo 博士(伦敦大学学院心理学与语言科学)表示:“自从像 ChatGPT 这样的生成式人工智能出现以来,许多研究都集中在法学硕士的问答能力上,展示了他们从大量训练数据中总结知识的非凡技能。”。
然而,我们并没有强调法学硕士检索过去信息的回顾能力,而是探讨了法学硕士是否可以综合知识来预测未来的结果。
– 科学进步往往依赖于反复试验,但每一次细致的实验都需要时间和资源。即使是最熟练的研究人员也可能忽视文献中的关键见解。
“我们的工作调查法学硕士是否能够识别大量科学文本中的模式并预测实验结果。”
国际研究团队通过开发 BrainBench 开始他们的研究,这是一种评估大型语言模型 (LLM) 预测神经科学结果的工具。
BrainBench 包含多对神经科学研究摘要。在每一对中,一个版本是真实的研究摘要,简要描述了研究背景、使用的方法和研究结果。
在另一个版本中,背景和方法是相同的,但结果已被相关神经科学领域的专家修改为看似合理但不正确的结果。
研究人员测试了 15 名不同的通用法学硕士和 171 名人类神经科学专家(他们都通过了筛选测试来确认他们的专业知识),看看人工智能或人是否能够正确确定两对摘要中哪一个是真实的。实际研究结果。
所有法学硕士的表现都优于神经科学家,法学硕士的平均准确度为 81%,人类的平均准确度为 63%。
即使研究团队将人类反应限制为仅对特定神经科学领域具有最高专业知识的人进行反应(基于自我报告的专业知识),神经科学家的准确率仍然低于法学硕士(66%)。
此外,研究人员发现,当法学硕士对自己的决定更有信心时,他们更有可能是正确的。
研究人员表示,这一发现为人类专家可以与经过良好校准的模型进行合作的未来铺平了道路。
然后,研究人员通过专门针对神经科学文献进行培训,对现有的法学硕士(开源法学硕士 Mistral 的一个版本)进行了改造。
新的专门研究神经科学的法学硕士(他们将其称为 BrainGPT)在预测研究结果方面甚至更好,达到了 86% 的准确率(比 Mistral 的通用版本的准确率提高了 83%)。
资深作者 Bradley Love 教授(伦敦大学学院心理学与语言科学)表示:“根据我们的研究结果,我们怀疑,不久之后科学家们就会使用人工智能工具来针对他们的问题设计最有效的实验。”虽然我们的研究重点是神经科学,但我们的方法是通用的,应该成功地应用于所有科学领域。
– 值得注意的是法学硕士能够很好地预测神经科学文献。这一成功表明,大量科学并不是真正新颖的,而是符合文献中现有结果的模式。我们想知道科学家是否具有足够的创新性和探索性。”
罗博士补充道:“基于我们的成果,我们正在开发人工智能工具来帮助研究人员。我们设想未来,研究人员可以输入他们提出的实验设计和预期结果,人工智能可以提供对各种结果可能性的预测。这将在实验设计中实现更快的迭代和更明智的决策。”
资金:该研究得到了经济和社会研究委员会 (ESRC)、微软和英国皇家学会沃尔夫森奖学金的支持,伦敦大学学院、剑桥大学、牛津大学、马克斯普朗克行为神经生物学研究所(德国)、比尔肯特的研究人员参与其中大学(土耳其)以及英国、美国、瑞士、俄罗斯、德国、比利时、丹麦、加拿大、西班牙和澳大利亚的其他机构。
笔记:当提供两个摘要时,法学硕士会根据自己学到的知识以及上下文(背景和方法)计算每个摘要的可能性,并分配一个困惑度分数来表示每个摘要的令人惊讶程度。
研究人员通过测量模型发现真实摘要与假摘要的令人惊讶/令人困惑的差异来评估法学硕士的信心——这种差异越大,信心就越大,这与法学硕士选择正确摘要的可能性越高相关。
作者:克里斯·莱恩
来源:伦敦大学学院
接触:克里斯·莱恩 — 伦敦大学学院
图像:该图像来自《神经科学新闻》
原创研究:开放访问。
—大型语言模型在预测神经科学结果方面超越了人类专家— Ken Luo 等人自然人类行为
抽象的
大型语言模型在预测神经科学结果方面超越了人类专家
科学发现往往取决于数十年研究的综合,这项任务可能超出人类的信息处理能力。大型语言模型(LLM)提供了一个解决方案。
经过大量科学文献培训的法学硕士有可能整合嘈杂但相互关联的发现,比人类专家更好地预测新结果。
在这里,为了评估这种可能性,我们创建了 BrainBench,一个用于预测神经科学结果的前瞻性基准。
我们发现法学硕士在预测实验结果方面超越了专家。BrainGPT,一个我们根据神经科学文献进行调整的法学硕士,表现更好。
与人类专家一样,当法学硕士对自己的预测表现出高度信心时,他们的反应更有可能是正确的,这预示着法学硕士将协助人类做出发现的未来。
我们的方法不是特定于神经科学的,可以转移到其他知识密集型的工作中。