研究结果挑战人工智能将很快取代人类医生的假设
研究发现,几乎所有领先的大型语言模型或“聊天机器人”在广泛用于发现痴呆症早期迹象的测试中都显示出轻度认知障碍的迹象。学习在圣诞特刊中 英国医学杂志。
结果还表明,“较旧”版本的聊天机器人,例如老年患者,在测试中往往表现较差。作者表示,这些发现“挑战了人工智能将很快取代人类医生的假设。”
人工智能领域的巨大进步引发了人们对聊天机器人是否能够超越人类医生的一系列兴奋和恐惧的猜测。
多项研究表明,大型语言模型(LLM)非常擅长执行一系列医疗诊断任务,但它们对认知能力下降等人类损伤的敏感性尚未得到检验。
为了填补这一知识空白,研究人员评估了领先的公开法学硕士的认知能力 – ChatGPT 版本 4 和 4o(由 OpenAI 开发)、Claude 3.5 – Sonnet –(由 Anthropic 开发)和 Gemini 版本 11.5(由 Alphabet 开发)- 使用蒙特利尔认知评估 (MoCA) 测试。
MoCA 测试广泛用于检测认知障碍和痴呆症的早期迹象,通常用于老年人。通过一些简短的任务和问题,它可以评估注意力、记忆力、语言、视觉空间技能和执行功能等能力。满分为30分,26分以上一般认为正常。
法学硕士每项任务的指示与人类患者的指示相同。评分遵循官方指南,并由执业神经科医生进行评估。
ChatGPT 4o 在 MoCA 测试中取得了最高分(满分 30 分中的 26 分),其次是 ChatGPT 4 和 Claude(满分 30 分中的 25 分),Gemini 1.0 得分最低(满分 30 分中的 16 分)。
所有聊天机器人在视觉空间技能和执行任务方面表现不佳,例如轨迹制作任务(按升序连接圆圈中的数字和字母)和时钟绘图测试(绘制显示特定时间的钟面)。双子座模型在延迟回忆任务(记住五个单词序列)中失败了。
所有聊天机器人都很好地执行了大多数其他任务,包括命名、注意力、语言和抽象。
但在进一步的视觉空间测试中,聊天机器人无法表现出同理心或准确解释复杂的视觉场景。只有 ChatGPT 4o 在 Stroop 测试的不一致阶段取得了成功,该测试使用颜色名称和字体颜色的组合来衡量干扰如何影响反应时间。
这些都是观察结果,作者承认人脑和大型语言模型之间存在本质区别。
然而,他们指出,所有大型语言模型在需要视觉抽象和执行功能的任务中的一致失败凸显了一个重大弱点,可能会阻碍它们在临床环境中的使用。
因此,他们得出的结论是:神经科医生不仅不太可能很快被大型语言模型取代,而且我们的研究结果表明,他们可能很快就会发现自己正在治疗新的虚拟患者,人工智能模型表现出认知障碍. –
[完]
2024年12月20日
编辑须知
研究:年龄对机器的影响——大语言模型对认知障碍的敏感性:横断面分析 doi: 10.1136/bmj-2024-081948
期刊: 英国医学杂志
资金: 没有任何
医学科学院新闻稿标签系统链接:
http://press.psprings.co.uk/
外部同行评审?是的
证据类型:观察性
主题:人工智能聊天机器人