人们越来越依赖人工智能(AI)用于医学诊断,因为这些工具在病史,X射线和其他数据集中在对肉眼显而易见之前会发现异常和警告标志的速度有效。但是一项新的研究于2024年12月20日在BMJ人们担心AI技术等大型语言模型(LLM)和聊天机器人(例如人)表现出随着年龄的增长而恶化的认知能力的迹象。
该研究的作者在论文中写道:“这些发现挑战了人工智能很快取代人类医生的假设,因为在领先的聊天机器人中明显的认知障碍可能会影响他们在医学诊断和破坏患者信心的可靠性。”
科学家使用The Openai的Chatppt,Anthropic的十四行诗和Alphabet的双子座进行了公开可用的LLM驱动聊天机器人蒙特利尔认知评估(MOCA)测试神经科医生用来测试注意力,记忆,语言,空间技能和执行心理功能的一系列任务。
在阿尔茨海默氏病或痴呆等疾病中,MOCA最常用于评估或测试认知障碍的发作。赋予了受试者的任务,例如在时钟面上绘制特定时间,从100开始,然后反复减去7个,记住从口语列表中记住尽可能多的单词,依此类推。在人类中,30个中有26人被认为是传球得分(即受试者没有认知障碍。
尽管对于大多数使用的LLM而言,命名,注意力,语言和抽象等测试的某些方面似乎很容易,但它们在视觉/空间技能和执行任务方面的表现都很差,而在延迟召回等领域,其中一些人的表现却比其他领域的表现差。
至关重要的是,虽然最近版本的Chatgpt(版本4)得分最高(30个中的26个),但较旧的Gemini 1.0 LLM仅获得16分,导致结论较旧的LLMS显示出认知能力下降的迹象。
该研究的作者指出,他们的发现是观察性的 - AI和人类思维工作方式之间的关键差异意味着实验不能直接比较。但是他们警告说,这可能会指出他们所说的“重要的弱点”,这可能会使AI在临床医学领域的部署中进行刹车。具体来说,他们认为不使用AI在需要视觉抽象和执行功能的任务中。
它还提出了人类神经科医生承担一个全新市场的有趣概念,这些市场本身就表现出认知障碍的迹象。