作者:Spencer Dorn
想象一下 20 世纪 50 年代的医生正在治疗一位患有一系列令人困惑的症状的患者。他首先翻阅他的袖珍手册,华盛顿医学治疗手册。接下来,他咨询哈里森的 内科原理,他在办公室里保存的冗长的参考文本。仍然不确定,他与一位同事讨论了这个案例,然后在医院的医学图书馆搜索相关期刊文章。
整个20世纪,医生主要通过这种方式寻找医学知识。然而,随着几十年的过去,信息量爆炸了,计算机将其数字化,互联网连接了世界。到 2000 年代初,医生开始转向在线信息源,首先是通过台式电脑,后来是通过移动设备。
今天,像我这样的医生有很多选择。
我们经常搜索 PubMed 和 Google Scholar 等数据库。我们经常阅读 UpToDate 主题摘要。三分之二的人使用 MDCalc,这是一种具有各种决策支持工具的护理点参考。我们访问专业协会的网站、WebMD 等医疗网站,有时甚至是非医疗网站。
人工智能现在再次改变我们获取知识的方式。让我解释一下如何做。
PubMed 为 3600 万份摘要建立索引,并且每年增加 100 万份摘要——每分钟 2 份。Google Scholar 包含大约 4 亿篇文章、引文和专利。现有数千个临床实践指南。没有医生能跟得上。
20 世纪 90 年代初期,巴德·罗斯 (Bud Rose) 博士是一位热爱网球、具有前瞻性的哈佛肾脏病专家,他试图通过在软盘上创建一个可搜索、定期更新的临床“主题卡”的计算机化程序来解决这个问题。他将自己的公司命名为 UpToDate。
随着主题数量的增加,分发转向 CD-ROM、互联网和移动设备。
UpToDate 现在是 Wolters Kluwer Health 的一部分,拥有大约 8,000 名附属临床专家和 60 名副编辑,遵循同行评审的循证医学方法,开发和维护 25 个医学专业的 12,000 个临床主题摘要。
该产品非常成功。50,000 个站点的近 300 万临床医生主要通过机构订阅使用 UpToDate。个人每年可以花费 579 美元购买订阅。
其权威摘要受到欢迎是有充分理由的。正如 Wolters Kluwer Health 首席医疗官 Peter Bonis 博士告诉我的那样:“我们所做的一切都是为了帮助支持临床医生为患者做出最佳决策。”
然而,由于它不是查询服务,医生必须查看相关主题摘要才能找到他们寻求的具体答案。例如,UpToDate 无法直接回答用户询问“如何治疗小肠细菌过度生长?”相反,用户必须搜索 SIBO,选择主题摘要,并至少浏览一下以发现作者推荐利福昔明作为一线治疗。该公司报告称,用户交互持续时间中位数为 60 秒。
目标是使产品更容易、更快速地使用,而不会引入人工智能生成的合成内容可能出现的错误。
新的、专门设计的、人工智能原生OpenEvidence 和 Consensus 等搜索引擎正在采取不同的方法。这些产品不是显示预先写好的主题摘要,而是直接、动态地回答用户查询。
他们的核心挑战是确保他们的输出对于医疗实践来说足够可靠。生成式人工智能产品可能会产生不稳定的答案;例如,谷歌双子座臭名昭著地建议人们每天吃一块岩石,因为“岩石是矿物质和维生素的重要来源”。
这些“幻觉”部分反映了“垃圾进,垃圾出”的老问题。正如 OpenEvidence 创始人 Daniel Nadler 所解释的那样,“网站索引并不是事实索引。”在整个互联网(包括 Reddit 和 Onion 等网站)上接受培训的法学硕士必然会产生虚假信息。
纳德勒的公司是在梅奥诊所平台加速计划的基础上推出的,它试图通过专门借鉴同行评审的生物医学文献来回避这些问题。
用户(必须是临床医生)输入一般或具体问题(例如,“如何治疗无法负担利福昔明的患者的 SIBO?”)后,OpenEvidence 会在数百万份临床文档中识别潜在的相关来源,包括索引元数据来自 PubMed 摘要、全文期刊文章、专着、书籍章节等。接下来,它根据与查询的相关性、出版日期、期刊影响因子和引用计数等因素来确定最权威的来源。最后,大型语言模型综合了一个摘要响应,并附有引用来源的链接。
OpenEvidence 正在整个医学界迅速传播。自 1 月份以来,已有超过 250,000 名临床医生访问了该网站,仅 11 月份就执行了近 200 万次查询。该产品由广告支持,对个人临床医生免费。
Consensus是另一个涵盖医学和非医学科学领域(例如生物学和环境科学)的人工智能搜索引擎。向公众开放,五分之一的用户是临床医生。输入问题后,共识会综合一个答案,包括显示推荐强度的“共识表”(用于是/否问题)。
UpToDate 相当于图书馆的特殊馆藏。对于每一个,用户都必须扫描蓝色链接列表,选择并阅读来源,并提取任何相关信息。通过这样做,他们了解了一个主题,并通过一些时间和精力,可以回答特定的问题。
相反,使用 OpenEvidence 或 Consensus 等人工智能搜索就像直接向明智的教授询问问题并收到带有参考文献的答案。它快速、方便、具体。风险在于一些令人信服的答案可能低于标准或缺乏足够的背景。因此,临床医生必须保持“知情”,并在有需要时进行更深入的研究。
我向我认识的两位最聪明的信息学医生询问了有关人工智能搜索的问题。
MDCalc 创始人兼急诊医生 Graham Walker 博士警告说:“人们对自动化偏差存在非常现实的担忧,即医生开始暗中相信这些工具比它们更聪明。 ——并慢慢削弱医生批判性思考患者的能力。”
相反,心脏病学家和信息学家 Larry Klein 博士发现人工智能搜索具有显着的净积极作用。他告诉我,“我每天都使用 OpenEvidence,向它提问,就像我在问我的一位专家同事一样。这确实是革命性的。”
传统搜索和人工智能搜索在不同情况下都有作用。例如,收治急性冠状动脉综合征患者的住院医师可以阅读 UpToDate 以了解管理原则。一位杰出的肾脏病学家想要审查谁参与了肾小球肾炎治疗试验,可以在 PubMed 中搜索特定研究。决定在青霉素过敏的情况下进行幽门螺杆菌治疗的家庭执业护士可以查询 OpenEvidence 以获得快速指导。
对于每两名患者,临床医生都会提出至少一个医学知识问题,通常是关于症状的原因或疾病的治疗。然而,我们只追求答案其中一半,主要是因为我们缺乏足够的时间。
人工智能搜索可以通过更快地推送信息来帮助解决这个问题。然而,这种新的工作方式凸显了人类和机器管理、细微差别和简洁、自动和手动处理以及潜在的机器生成和人为错误之间的紧张关系。我们必须仔细评估这些工具如何影响我们的临床工作人员和患者。
自始至终历史,医生管理信息方式的改变引起了人们的关注。例如,许多医生最初反对从医学教科书中学习,认为从记忆中召唤知识会迫使人们进行更深入的反思。几十年后,其他人“坚持认为医疗信息的数字化破坏了由有形的纸质工具实现的传统和认知实践。”
我们也应该充满希望。快速利用集体知识的能力使我们能够更好地减轻痛苦和促进福祉。它还可以减轻我们的认知负担并帮助维持我们的能量。
有了这些新功能,我们必须将注意力从回忆事实转移到提出正确的问题。虽然答案会比以往任何时候都更快,但相对而言小的大多数临床决策的已发表数据。临床直觉和经验仍然很重要——非常重要!作为循证医学运动的先驱解释了”,“好的医生会利用个人的临床专业知识和最好的外部证据,但两者都不够。”
致谢:我要感谢 Peter Bonis、Sean Case、Hugh Harvey、Larry Klein、Daniel Nadler、Eric Olson、Graham Walker 和 Patrick Wingo 讨论此主题。