作者:by British Medical Journal
《科学》杂志圣诞期的一项研究发现,在广泛用于发现痴呆症早期迹象的测试中,几乎所有领先的大型语言模型或“聊天机器人”都显示出轻度认知障碍的迹象。英国医学杂志。
结果还表明,“旧”版本的聊天机器人,例如老年患者,往往在测试中表现较差。作者表示,这些发现“挑战了人工智能将很快取代人类医生的假设。”
人工智能领域的巨大进步引发了人们对聊天机器人是否能够超越人类医生的一系列兴奋和恐惧的猜测。
多项研究表明大语言模型(法学硕士)非常擅长一系列医疗诊断任务,但他们容易受到人类缺陷的影响,例如认知能力下降尚未经过检查。
为了填补这一知识空白,研究人员评估了领先的、公开的 LLM 的认知能力——ChatGPT 版本 4 和 4o(由 OpenAI 开发)、Claude 3.5“Sonnet”(由 Anthropic 开发)以及 Gemini 版本 1 和 1.5(由 OpenAI 开发)by Alphabet)—使用蒙特利尔认知评估 (MoCA) 测试。
MoCA测试广泛用于检测认知障碍以及痴呆症的早期症状,通常发生在老年人身上。通过一系列简短的任务和问题,它评估包括注意力、记忆力、语言、视觉空间技能和执行职能。满分为30分,26分以上一般认为正常。
法学硕士每项任务的指示与人类患者的指示相同。评分遵循官方指南,并由执业神经科医生进行评估。
ChatGPT 4o 在 MoCA 测试中取得了最高分(满分 30 分中的 26 分),其次是 ChatGPT 4 和 Claude(满分 30 分中的 25 分),Gemini 1.0 得分最低(满分 30 分中的 16 分)。
所有聊天机器人在以下方面表现不佳视觉空间技能执行任务,例如路线制作任务(按升序连接圆圈中的数字和字母)和时钟绘图测试(绘制显示特定时间的钟面)。双子座模型在延迟回忆任务(记住五个单词序列)中失败了。
所有聊天机器人都很好地执行了大多数其他任务,包括命名、注意力、语言和抽象。
但在进一步的视觉空间测试中,聊天机器人无法表现出同理心或准确解释复杂的视觉场景。只有 ChatGPT 4o 在 Stroop 测试的不一致阶段取得了成功,该测试使用颜色名称和字体颜色的组合来衡量干扰如何影响反应时间。
这些都是观察结果,作者承认人脑和大型语言模型之间存在本质区别。
然而,他们指出,所有大型语言模型在需要视觉抽象和执行功能的任务中的一致失败凸显了一个重大弱点,可能会阻碍它们在临床环境中的使用。
因此,他们得出的结论是,“不仅神经科医生不太可能很快被大型语言模型取代,而且我们的研究结果表明,他们可能很快就会发现自己正在治疗新的虚拟患者”人工智能表现出认知障碍的模型。”
更多信息:年龄对抗机器——大型语言模型对认知障碍的敏感性:横断面分析,英国医学杂志(2024)。DOI:10.1136/bmj-2024-081948
引文:领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降,引发了人们对其在医学领域未来的疑问(2024 年,12 月 18 日)检索日期:2024 年 12 月 19 日来自 https://medicalxpress.com/news/2024-12-ai-chatbots-dementia-cognitive-decline.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。