作者:Darius Tahir
让癌症患者做好艰难决定的准备是肿瘤科医生的工作。然而,他们并不总是记得这样做。在宾夕法尼亚大学卫生系统,医生通过预测死亡机会的人工智能算法来谈论患者的治疗和临终偏好。
但它远不是一个一劳永逸的工具。根据 2022 年的一项研究,一项例行技术检查显示,该算法在新冠肺炎 (covid-19) 大流行期间出现了衰退,预测死亡人数的能力下降了 7 个百分点。
可能会对现实生活产生影响。该研究的主要作者、埃默里大学肿瘤学家拉维·帕里克 (Ravi Parikh) 告诉《KFF 健康新闻》,该工具数百次未能促使医生与需要化疗的患者展开重要的讨论,这可能会阻止不必要的化疗。它。
他认为,在大流行期间,多种旨在加强医疗保健的算法都被削弱了,而不仅仅是宾夕法尼亚大学医学院的算法。帕里克说,“许多机构并没有定期监控其产品的性能”。
算法故障是计算机科学家和医生早已承认的困境的一个方面,但这开始让医院管理人员和研究人员感到困惑:人工智能系统需要持续的监控和人员配置才能到位并保持良好运行。
本质上:您需要人员和更多机器,以确保新工具不会造成混乱。
“每个人都认为人工智能将帮助我们提高访问权限和能力,并改善护理等,”斯坦福大学医疗保健中心首席数据科学家 Nigam Shah 说。— 所有这些都很好,但如果它使护理成本增加 20%,这可行吗? —
订阅 KFF 健康新闻的免费早间简报。
政府官员担心医院缺乏资源来应用这些技术。“我已经进行了广泛的研究,”FDA 专员罗伯特·卡利夫 (Robert Califf) 在最近的一个人工智能机构小组上说道。“我不认为美国有任何一个医疗系统能够验证临床护理系统中应用的人工智能算法。”
人工智能已经在医疗保健领域广泛应用。算法用于预测患者死亡或病情恶化的风险,建议诊断或对患者进行分类,记录和总结就诊以节省医生的工作,以及批准保险索赔。
如果技术传播者是对的,这项技术将变得无处不在,并且有利可图。投资公司 Bessemer Venture Partners 已经确定了大约 20 家专注于健康的人工智能初创公司,每家公司有望每年实现 1000 万美元的收入。FDA已批准近千种人工智能产品。
评估这些产品是否有效具有挑战性。评估他们是否继续工作——或者是否开发了相当于垫圈吹坏或发动机泄漏的软件——甚至更加棘手。
以耶鲁大学医学院最近的一项研究为例,该研究评估了六种“早期预警系统”,这些系统可以在患者病情可能迅速恶化时向临床医生发出警报。芝加哥大学医生、为这项研究提供算法的公司联合创始人达纳·埃德尔森 (Dana Edelson) 表示,一台超级计算机运行了几天的数据。这个过程卓有成效,显示出六种产品之间性能的巨大差异。
对于医院和医疗服务提供者来说,选择最适合自己需求的算法并不容易。普通医生手边没有超级计算机,也没有人工智能的消费者报告。
“我们没有标准,”美国医学会前任主席杰西·埃伦菲尔德 (Jesse Ehrenfeld) 说。“今天我无法向您指出任何关于如何评估、监控和查看算法模型(无论是否启用人工智能)部署时的性能的标准。”
也许医生办公室中最常见的人工智能产品被称为环境文档,这是一种技术支持的助手,可以倾听并总结患者的就诊情况。去年,Rock Health 的投资者追踪到有 3.53 亿美元流入这些文档公司。但是,埃伦菲尔德说,“目前还没有比较这些工具输出的标准。”
这就是一个问题,即使是很小的错误也可能造成毁灭性的后果。斯坦福大学的一个团队尝试使用大型语言模型(ChatGPT 等流行人工智能工具的基础技术)来总结患者的病史。他们将结果与医生所写的结果进行了比较。
“即使在最好的情况下,模型的错误率也高达 35%,”斯坦福大学的 Shah 说道。在医学领域,“当你写摘要时忘记了一个单词,比如“发烧”——我的意思是,这是一个问题,对吧?”
有时算法失败的原因是相当合乎逻辑的。例如,基础数据的变化可能会削弱其有效性,例如医院更换实验室提供商时。
然而,有时陷阱会无缘无故地出现。
波士顿麻省总医院个性化医疗项目的技术主管桑迪·阿伦森 (Sandy Aronson) 表示,当他的团队测试了一款旨在帮助遗传咨询师查找有关 DNA 变异相关文献的应用程序时,该产品遭遇了“不确定性”——也就是说,当短时间内多次询问同一问题时,会给出不同的结果。
阿伦森对大型语言模型为负担过重的遗传咨询师总结知识的潜力感到兴奋,但“技术需要改进。”
如果衡量标准和标准很少,并且可能会因为奇怪的原因而出现错误,那么机构该怎么办?投入大量资源。Shah 说,在斯坦福大学,仅仅审核两个模型的公平性和可靠性就花费了 8 到 10 个月和 115 个工时。
接受 KFF 健康新闻采访的专家提出了人工智能监控人工智能的想法,并由一些(人类)数据专家监控两者。所有人都承认,这将需要组织花费更多的资金——考虑到医院预算的现实和人工智能技术专家的供应有限,这是一个艰难的要求。
“能够有一个愿景,我们正在融化冰山,以便有一个模型来监控他们的模型,这真是太棒了,”沙阿说。——但这真的是我想要的吗?我们还需要多少人?