作者:Anil Oza
从各个方面带来的兴奋之中Chat-GPT到诺贝尔化学奖研究利用人工智能预测蛋白质结构的学者阿鲁因·纳拉扬和萨亚什·卡普尔以泼冷水的方式对至少一部分关于人工智能将如何改变人们生活的说法建立了声誉。
普林斯顿大学计算机科学教授纳拉扬在2019年因一则消息走红网络,他在麻省理工学院所做的演讲关于如何识别有关人工智能能力的夸大声明。现在他与他的博士生卡普尔合作出版了书籍“AI伪科学产物这本名为”的书籍于9月24日出版。虽然该书鼓励对许多人工智能的主张持怀疑态度,但这两位作者对未来的技术发展仍然谨慎乐观——包括在医疗保健方面的发展。
“他们在书中写道,很容易看到所有聊天机器人的缺陷和滥用案例,并得出世界已经因为对如此容易失败的技术狂热而疯狂的结论。” “但这样的结论过于简单化了。”
STAT与卡普尔讨论了人工智能未能达到其宣传的情况及其在医疗保健领域的未来潜力。这次对话经过轻微编辑,以简化和清晰化。
你如何看待人工智能在医疗保健领域的应用?与你在书中讨论的其他领域相比,你对这一领域的主张是否更加怀疑?
我认为这本书的主要收获和贯穿始终的主题是,人工智能是一个描述完全不相关技术的总称。在过去十年中,某些类型的人工智能取得了极其迅速的进步,尤其是生成式人工智能的应用——比如面向公众的应用如文本机器人和ChatGPT,以及像Stable Diffusion、Midjourney和DALL-E这样的文字转图像模型。但在医学领域,我们也看到了诸如AlphaFold这些现在被用来预测蛋白质结构。我认为在医疗保健领域,这些应用可能会产生同等甚至更大的影响。
当谈到基于文本的生成式人工智能模型时,我们看到一些公司正在为医疗保健行业构建技术——例如架桥,which转录患者记录在医疗保健领域,我认为人工智能带来的许多积极影响将来自于生成式人工智能。
另一方面,书中也讨论了预测性人工智能,这指的是基于对未来预测来对个人做出决策的人工智能。在许多情况下,大量的伪科学集中于预测性人工智能领域。
所以,一个例子是Optum的Impact Pro算法,该算法在美国各地的医院被用来预测哪些患者在未来几天内最有可能需要更多的医疗护理。这个算法用于优先安排人员,并据此选择谁应该接受更多的医疗服务以及谁应该被列入优先列表。
如今,在2019年,Ziad Obermeyer等人进行了一项研究算法偏见研究我们分析了Optum的算法,发现该算法实际上存在很大的种族差异。它更有可能建议白人患者获得更好的医疗服务,并将其识别为高风险人群,而这种情况在黑人患者中较少出现。原因在于该算法实际上是预测哪些患者花费最多。因此,它预测的是医疗保健的成本,而不是谁处于最大风险或谁最需要医疗保健。
这还向我们展示了,在预测性人工智能方面,有很多东西需要考虑。微妙的问题可能出现一些本质上是无声的错误。除非你拥有大量人群的数据,否则没有简单的方法来诊断这种类型的故障。在关于预测性人工智能的那一章中,我们探讨了导致预测性人工智能失败的多种原因。对于Optum来说,问题在于目标变量的选择——算法所预测的内容。
但在其他情况下,我们也指出,基于预测进行干预之所以困难是有系统性原因的。我们分享的一个例子是上世纪90年代一组研究人员尝试建立一个算法,用于预测当患者因肺炎症状入院时,是否应该留院过夜,或者对于低风险患者,是否应立即出院。如果患者有哮喘病史,该算法会更频繁地建议他们立即出院。
这件事发生的原因是在现状下,当患者出现哮喘症状时,医护人员会明显意识到该患者需要更多的护理和关注,因此他们会将这些患者送入重症监护室(ICU)。正因为如此,患有哮喘的患者在出现肺炎症状时实际上有较低的风险发展成严重并发症。但这正是因为他们被送往了ICU。
如果20世纪90年代的医生采用了这种算法,当哮喘患者因肺炎症状前来就诊时,他们会让他们回家而不予住院治疗,这将是非常灾难性的。
你如何为这些工具设定标准?
例如,美国食品药品监督管理局最近对一项规定的澄清基本表明医疗AI设备也属于医疗器械。这是一条积极的消息。
我认为,目前我们在开发预测性人工智能方面缺乏很多标准。一个例子是,与常规医疗技术不同,在开发AI系统时,它们对部署环境的分布情况非常敏感。因此,仅仅开发一次就可在一段时间内在全国各地医院使用的通用工具是不够的。我们真正需要的是特定领域的干预措施,也就是说,一种经过微调以在特定医院系统甚至特定医院中运行良好的工具。
我认为这一点很重要,因为随着时间的推移和地理位置的不同,医疗模式、疾病模式也会发生变化,甚至一些细微的事情,比如特定医院中使用哪些类型的设备都会有所不同。而且与传统的医疗器械不同,机器学习算法对这些小的变化非常敏感。
这也是我们在现实世界的例子中看到的情况。例如Epic的脓毒症预测算法,实际上,《STAT》的记者包括Casey Ross,在几年前对此进行了非常详尽的报道。这是一款Epic公司销售的一款所谓“一刀切”的成功预测工具,并在2016年部署使用。直到2021年,一组来自密歇根大学的专家才审视了该算法的结果,发现其表现并没有像该公司声称的那样好。然后,又过了将近一年时间,更改他们算法的部署方式以确保每家医院都必须对其进行修改或适应,或者在他们自己的数据上训练模型。
展望未来,这种洞察可以帮助指导改善在医疗环境中使用的预测性人工智能的实践。当然,一旦我们将医疗人工智能系统视为医疗器械或医疗干预手段,我们也需要像评估其他医疗干预措施那样来评估它们。因此,为了评估这些系统的实际效果,我们需要进行前瞻性研究,并辅以部署后的医疗人工智能评估研究。这两者都是为了让人工智能在预测临床相关场景时真正发挥作用所必需的。
你认为在未来的五年或十年里,人工智能会在医疗保健行业中如何发展?
所以我认为生成式AI将继续被广泛采用。我们现在正处于一个人们正在试验AI可能用途的时期,我认为其中许多用途可能还不足以在现实世界中部署。我主要担心的是,在没有适当的评估方案的情况下,我们会急于在医疗领域全面采用生成式AI。
说起来,我对稍长一些的时间段持总体乐观态度。我们已经看到了生成式人工智能被采用以提高效率的早期迹象。一方面,例如通过总结医生的笔记或帮助转录它们来实现;另一方面,则是通过推动可能领域的边界,例如通过这种方式:半自动药物发现.
我认为这两个领域将继续看到更多的采用,而且只要我们找到评估这些模型的方法,并且不要自欺欺人地认为这些模型比实际情况更好用,它们将会产生许多积极的影响。正如某人最近对我说的,语言模型和生成式AI在初次接触时总是看起来比长远来看要好,在演示中也总是比在现实世界中更令人印象深刻。