为什么仅大语言模型就打败了医生，但拥有大语言模型的医生似乎并没有进步。- 今日心理学

2024-10-02 22:47:34 英文原文

人工智能

医生与AI

为什么单独使用LLMS击败医生，但是LLMS的医生似乎没有改善。

2024年10月2日更新了Gary Drevitch

关键点

在诊断测试中，GPT-4仅胜过医生，但GPT-4的医生显示出最小的改善。
障碍可能包括医师怀疑，技能差距，认知负荷和不同的方法。
在医学方面的成功需要信任，更好的AI整合和精致的人类协作。

作为有关人工智能在医学中的效用的辩论，已经发布了一项引人入胜的新的预装前研究。大型语言模型 (LLM) 正在证明其潜力，不仅可以为临床医生提供帮助，而且本身也可以作为诊断动力源。这项新研究比较了使用传统资源的医生、使用 GPT-4 的医生和单独使用 GPT-4 的医生的诊断准确性。结果令人惊讶且有点令人不安：GPT-4 的表现优于两组医生，但当医生使用 GPT-4 时，他们的表现并没有显着改善。怎么会这样？在Playan问题上似乎存在功能性和认知性的断开连接，挑战了AI融入医学实践。

临床医生不利用LLMS

研究结果的核心在于鲜明的对比。独立使用时，GPT-4 在诊断推理方面得分高达 92.1%。相比之下，仅使用传统资源的医生的“诊断推理”得分中位数为 73.7%，而使用 GPT-4 作为辅助手段的医生得分略高，为 76.3%。但是，在检查最终诊断准确性时，GPT-4在66％的病例中具有正确的诊断，而医生为62％，尽管这种差异在统计学上并不显着。这种最小的改进表明，仅仅为医生提供高级AI工具并不能保证增强性能，从而强调了人类临床医生与AI之间的协作中更深层的复杂性。

作者将“诊断推理”定义为一种全面的理由评估医师的思维过程，而不仅仅是他们的最终诊断。这包括制定鉴别诊断、识别支持或反对每个潜在诊断的因素以及确定下一步的诊断步骤。该研究利用“结构化反思”工具来捕捉这一过程，对参与者提出合理诊断、正确识别支持和反对结果以及选择适当的进一步评估的能力进行评分。有趣的是，评估该临床评分的指标与通过LLMS获得关注的思想方法链有一定的相似之处。

相比之下，“最终诊断精度”专门测量参与者是否获得最正确的诊断来诊断每个案例。因此，在这种情况下的“诊断推理”涵盖了整个认知过程，而“最终诊断”仅着眼于结果。

使用GPT-4（例如GPT-4）的LLM的医生可能会因害羞的诊断而难以提高诊断，这是不熟悉的，不熟悉的AI相互作用，认知负载和不同的方法。弥合这一差距是充分利用大语言模型在医疗诊断领域的关键。让我们仔细看看：

1。信任和依赖：反向

AI中的Eliza效应是一种细微的现象。在某些情况下，用户可能会过度信任人工智能生成的见解，这被称为“伊丽莎效应”，即我们拟人化并高估了人工智能的能力。然而，在临床环境中，可能会出现相反的效果。花费数年磨练诊断敏锐度的医生可能会对模型的建议持怀疑态度，特别是如果这些建议与他们的临床直觉不一致的话。在这项研究中，一些临床医生可能会忽略或被低估LLM的意见，而宁愿依靠自己的判断。

他们的怀疑态度没有任何优点。医生接受过质疑和验证信息的培训，这是防止诊断错误的关键技能。然而，这种固有的谨慎可能会导致忽视潜在有用的人工智能驱动的见解。因此，面临的挑战是建立一个信任桥梁，在该桥梁上，AI工具被视为可靠的补充，而不是入侵临床专业知识。

2。有趣的是，及时的工程艺术

有趣的是，该研究使医生可以在没有明确培训的情况下使用GPT-4，以有效地与IT进行互动。在人工智能语言中，“即时工程”是指以最大化大语言模型输出效用的方式制作输入查询。没有适当的培训，医生可能无法最佳地提出他们的问题，从而导致反应不太相关或可行。

GPT-4作为本研究中的独立工具的成功表明，当使用时有了精确的提示，其诊断推理可能会出色。但是，在现实世界中的临床环境中，医生不是AI专家。他们可能没有时间或经验来尝试提示以获得最佳结果。及时工程不足成为人工智能在临床决策中有效使用的障碍。但是，诸如OpenAI的O1之类的较新的LLM实际上可以通过思想链（COT）处理来简化提示。

3。认知负载和工作流程集成

将LLM纳入诊断过程中会增加认知处理的额外层。医生不仅必须解释模型的输出，还必须将其与自己的临床知识相结合。这会带来认知负担，尤其是在繁忙的临床环境中时间有限的情况下。评估，验证和纳入LLMS建议所需的额外精神努力可能会导致次优的使用或完全解雇其输入。

临床推理的效率取决于无缝的工作流程。如果将 GPT-4 集成到诊断过程中会使工作流程变得复杂而不是简化，那么它就更像是一种障碍而不是帮助。解决此障碍将需要重新设计AI如何呈现给临床医生和使用，以确保自然地适合其决策过程。

4。诊断方法的差异：人类细微差别与模式匹配

医生依赖于细微的临床判断，经验的合并，患者环境和经常无视严格模式的细微线索。另一方面，大语言模型擅长模式识别和数据合成。当模型的建议与临床医生的诊断方法或叙述不符时，可能会倾向于将AI的输入视为无关紧要或不正确的趋势。

这种方法的差异代表了认知脱节。虽然大语言模型可以有效地匹配模式，但它们可能缺乏人类临床医生所重视的特定背景的微妙之处。相反，由于其看似僵化或外国推理途径，医生可能会忽略LLM的有价值的见解。

朝着更好的人类协作

这项研究揭示了一个关键的见解：甚至强大的AI，工具可能无法提高临床性能，而无需解决医师-AI协作中的认知和功能断开连接。为了使医学受益，不仅仅在于获得先进的工具，还在于如何将它们整合到临床推理中。这可能需要培训，完善用户界面并建立对AI功能的信任。

最终，医学上的AIS承诺在于增强而不是替代人类专业知识。弥合LLM和临床医生之间的差距需要了解人类认知和AI功能，以建立共生关系，从而增强患者护理。

关于《为什么仅大语言模型就打败了医生，但拥有大语言模型的医生似乎并没有进步。- 今日心理学》的评论

暂无评论

发表评论

摘要

人工智能医生与人工智能之间的认知脱节为什么仅大语言模型就打败了医生，但拥有大语言模型的医生似乎并没有进步。这一微小的改进表明，仅仅为医生提供先进的人工智能工具并不能保证性能的提高，凸显了人类临床医生和人工智能之间合作的更深层次的复杂性。作者将“诊断推理”定义为对医生思维过程的综合评估，不仅仅是他们的最终诊断。在人工智能语言中，“即时工程”是指以最大化大语言模型输出效用的方式制作输入查询。临床推理的效率取决于无缝的工作流程。为了使医学受益，不仅仅在于获得先进的工具，还在于如何将它们整合到临床推理中。