英语轻松读发新版了,欢迎下载、更新

研究表明,较旧的AI模型显示出认知能力下降的迹象。

2025-02-16 13:00:00 英文原文

作者:Drew TurneySocial Links Navigation

Disintegration of digital brain on blue background (3D Illustration).
(图片来源:3DSCULPTOR/GETTY图像)

人们越来越依赖人工智能(AI)用于医学诊断,因为这些工具在病史,X射线和其他数据集中在对肉眼显而易见之前会发现异常和警告标志的速度有效。但是一项新的研究于2024年12月20日在BMJ人们担心AI技术等大型语言模型(LLM)和聊天机器人(例如人)表现出随着年龄的增长而恶化的认知能力的迹象。

该研究的作者在论文中写道:“这些发现挑战了人工智能很快取代人类医生的假设,因为在领先的聊天机器人中明显的认知障碍可能会影响他们在医学诊断和破坏患者信心的可靠性。”

科学家使用The Openai的Chatppt,Anthropic的十四行诗和Alphabet的双子座进行了公开可用的LLM驱动聊天机器人蒙特利尔认知评估(MOCA)测试神经科医生用来测试注意力,记忆,语言,空间技能和执行心理功能的一系列任务。

在阿尔茨海默氏病或​​痴呆等疾病中,MOCA最常用于评估或测试认知障碍的发作。赋予了受试者的任务,例如在时钟面上绘制特定时间,从100开始,然后反复减去7个,记住从口语列表中记住尽可能多的单词,依此类推。在人类中,30个中有26人被认为是传球得分(即受试者没有认知障碍。

有关的:Chatgpt在诊断医疗状况方面确实很糟糕

尽管对于大多数使用的LLM而言,命名,注意力,语言和抽象等测试的某些方面似乎很容易,但它们在视觉/空间技能和执行任务方面的表现都很差,而在延迟召回等领域,其中一些人的表现却比其他领域的表现差。

至关重要的是,虽然最近版本的Chatgpt(版本4)得分最高(30个中的26个),但较旧的Gemini 1.0 LLM仅获得16分,导致结论较旧的LLMS显示出认知能力下降的迹象。

将世界上最迷人的发现直接传递到您的收件箱中。

该研究的作者指出,他们的发现是观察性的 - AI和人类思维工作方式之间的关键差异意味着实验不能直接比较。但是他们警告说,这可能会指出他们所说的“重要的弱点”,这可能会使AI在临床医学领域的部署中进行刹车。具体来说,他们认为不使用AI在需要视觉抽象和执行功能的任务中。

它还提出了人类神经科医生承担一个全新市场的有趣概念,这些市场本身就表现出认知障碍的迹象。

德鲁(Drew)是一位自由科学和技术记者,拥有20年的经验。在长大后知道自己想改变世界之后,他意识到,关于其他人更改它更容易。作为科学技术专家几十年来,他写了从最新智能手机的评论到深入数据中心,云计算,安全性,AI,混合现实以及介于两者之间的所有内容的所有内容。

有关人工智能的更多信息

关于《研究表明,较旧的AI模型显示出认知能力下降的迹象。》的评论


暂无评论

发表评论

摘要

一项在BMJ上发表的一项新研究强调,AI工具(例如大型语言模型(LLM)和聊天机器人)随着年龄的增长,与人类类似。该研究使用蒙特利尔认知评估(MOCA)测试来评估Openai的Chatgpt,Anthropic的十四行诗和Alphabet的Gemini等LLM。尽管某些任务对于AI系统可以管理,但他们在视觉/空间技能和执行功能方面挣扎。这一发现挑战了以下观点:由于医学诊断的潜在不可靠,AI将很快替换人类医生,从而影响患者的信心。这项研究表明,在临床医学中部署AI方面有很大的弱点,尤其是在需要视觉抽象和执行功能的领域。

相关讨论