一项新的研究发现,大型语言模型(LLM)在每个新版本中都变得越来越“智能”,在某些情况下,已经发现了一项新的研究,在某些情况下,迹象表明了重要的重要科学和医学发现。
科学家们发现,在分析4,900份研究论文摘要中,Chatgpt,Llama和Deepseek的版本比人类专家过度简化科学发现的可能性要高出五倍。
当提示准确性的提示时,聊天机器人的发现的可能性是提示简单摘要的两倍。该测试还表明,与前几代人相比,新聊天机器人版本之间的概括性增加了。
研究人员在4月30日的一项新研究中发表了他们的发现 皇家学会开放科学。
研究作者说:“我认为最大的挑战之一是,在您意识到它改变了原始研究的含义之前,概括似乎可以良性,甚至有所帮助。”Uwe Peters德国波恩大学的博士后研究员在一封电子邮件中写道。“我们在这里添加的是一种系统的方法,用于检测模型超出原始文本中所需的内容时。”
这就像一个复印机,带有破损的镜头,使后续副本比原始副本更大,更大胆。LLMS通过一系列计算层过滤信息。一路上,某些信息可能会丢失或以微妙的方式改变含义。科学研究尤其如此,因为科学家必须经常在其研究结果中包含资格,背景和局限性。提供简单而准确的发现摘要变得非常困难。
研究人员写道:“较早的LLM更有可能避免回答困难的问题,而新的,更大,更具指导性的模型,而不是拒绝回答,而是经常产生误导性的权威但有缺陷的回答。”
在这项研究的一个例子中,DeepSeek通过更改短语“安全,可以成功地进行”“是安全有效的治疗选择”,从而在一项摘要中提出了医学建议。
研究中的另一项测试表明,通过消除有关药物的剂量,频率和作用的信息,美洲驼扩大了年轻人中2型糖尿病药物的有效性范围。
如果出版,此聊天机器人生成的摘要可能会导致医疗专业人员在其有效参数之外开出药物。
不安全的治疗选择
在新的研究中,研究人员努力回答有关10个最受欢迎的LLM的三个问题(四个版本的Chatgpt,三个版本的Claude,两个版本的Llama版本和一个DeepSeek)。
他们想看看,当介绍人类的学术期刊文章摘要并提示该文章时,LLM会使摘要过度概括,如果是,是否要求它寻求更准确的答案会产生更好的结果。该团队还旨在发现LLM是否比人类更重要。
研究结果表明,除了克劳德(Claude)外,LLMS在所有测试标准上的表现都很好,这些标准的准确性迅速产生了过度概括的结果。LLM摘要比人类生成的摘要的可能性几乎高五倍。
研究人员还指出,将量化数据转换为通用信息的LLM是最常见的过度过度,也是最有可能创建不安全治疗方案的。
根据AI和医疗保健交集的专家,这些过渡和过度呈现导致了偏见。
“这项研究强调,偏见也可以采取更微妙的形式 - 就像索赔范围的安静通货膨胀一样,” 最大滚动临床心理健康AI技术公司Bybic的AI和研究副总裁在一封电子邮件中告诉Live Science。“在诸如医学之类的领域中,LLM摘要已经是工作流程的常规部分。这使得检查这些系统的执行方式以及是否可以信任其输出以忠实地代表原始证据变得更加重要。”
Rollwage说,此类发现应促使开发人员创建工作流程护栏,以确定过度的简化和关键信息的遗漏,然后再将发现置于公共或专业团体手中。
虽然全面,但这项研究有局限性。未来的研究将从将测试扩展到其他科学任务和非英语文本,以及测试哪些类型的科学主张更容易受到过度概括的情况下受益。 帕特里夏·塞恩(Patricia Thaine),AI开发公司私人AI的联合创始人兼首席执行官。
Rollwage还指出,“更深入的及时工程分析可能已经改善或澄清的结果”,而彼得斯则认为随着我们对聊天机器人的依赖的增长,彼得斯的风险更大。
他写道:“诸如Chatgpt,Claude和Deepseek之类的工具越来越成为人们理解科学发现的一部分。”“随着它们的使用量不断增长,在公众信任和科学素养已经承受压力的那一刻,这构成了大规模误解科学的真正风险。”
对于该领域的其他专家,我们面临的挑战在于忽略专业知识和保护。
泰恩(Thaine)写道:“对模型进行了简化的科学新闻学培训,而不是除了主要资料来源外,还是继承了这些过分简化的方法。”
“但是,重要的是,我们在没有适当的专家监督的情况下将通用模型应用于专业领域,这是对技术的根本滥用,通常需要更多特定于任务的培训。”