作者:#author.fullName}
尽管流行的人工智能模型在医学检查中得分很高,但在根据与模拟患者的对话进行诊断时,其准确性会显着下降
先进的人工智能模型成绩好参加专业医学考试,但仍然未能通过最重要的医生任务之一:与患者交谈以收集相关医疗信息并提供准确的诊断。
“虽然大型语言模型在多项选择测试中显示出令人印象深刻的结果,但它们的准确性在动态对话中显着下降,”说普拉纳夫·拉吉普尔卡在哈佛大学。– 这些模型尤其难以处理开放式诊断推理。 –
当研究人员开发出一种基于模拟医患对话来评估临床人工智能模型推理能力的方法时,这一点变得显而易见。“患者”基于 2000 个医疗案例,主要来自美国专业医学委员会考试。
“模拟患者互动可以评估病史采集技能,这是临床实践的关键组成部分,无法使用病例插图进行评估,”说施瑞亚·乔里,也在哈佛大学。她说,名为 CRAFT-MD 的新评估基准也“反映了现实生活场景,患者可能不知道哪些细节需要分享,并且只有在出现特定问题时才会透露重要信息”。
CRAFT-MD 基准测试本身依赖于人工智能。OpenAI 的 GPT-4 模型在与正在测试的“临床 AI”对话中扮演了“患者 AI”的角色。GPT-4 还通过将临床 AI 诊断与每个病例的正确答案进行比较,帮助对结果进行分级。人类医学专家仔细检查了这些评估。他们还审查了对话,以检查患者人工智能的准确性,并查看临床人工智能是否成功收集了相关的医疗信息。
多项实验表明,四种领先的大型语言模型——OpenAI 的 GPT-3.5 和 GPT-4 模型、Meta 的 Llama-2-7b 模型和 Mistral AI 的 Mistral-v2-7b 模型——在基于对话的基准上的表现比根据病例的书面摘要进行诊断时的表现要差得多。OpenAI、Meta 和 Mistral AI 没有回应置评请求。
例如,当 GPT-4 提供结构化病例摘要并允许从多项选择答案列表中选择诊断时,其诊断准确率高达 82%,令人印象深刻,而当它提供结构化病例摘要时,诊断准确率降至略低于 49%没有多项选择的选项。然而,当它必须根据模拟患者对话进行诊断时,其准确率下降至仅 26%。
GPT-4 是研究中测试的表现最好的 AI 模型,GPT-3.5 通常排在第二位,Mistral AI 模型有时排在第二或第三位,Meta 的 Llama 模型通常得分最低。
AI 模型在很大一部分时间里也未能收集完整的病史,领先的模型 GPT-4 仅在 71% 的模拟患者对话中做到了这一点。即使人工智能模型确实收集了患者的相关病史,它们也并不总是能得出正确的诊断。
此类模拟患者对话代表了一种比医学检查“更有用”的评估人工智能临床推理能力的方式。埃里克·托波尔在加利福尼亚州斯克里普斯研究转化研究所。
Rajpurkar 表示,如果人工智能模型最终通过了这一基准,能够根据模拟患者对话持续做出准确的诊断,这并不一定会使其优于人类医生。他指出,现实世界中的医疗实践比模拟中的“更加混乱”。它涉及管理多名患者、与医疗团队协调、进行体检以及了解当地医疗保健情况中的“复杂的社会和系统因素”。
Rajpurkar 表示:“在我们的基准测试中表现出色表明人工智能可能成为支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”
主题: