3 个问题:我们应该像对待处方药一样给人工智能系统贴上标签吗?- 麻省理工学院新闻

2024-09-24 15:00:00 英文原文

人工智能系统越来越多地部署在安全关键的医疗保健环境中。然而,这些模型有时会产生错误的信息,做出有偏见的预测,或者因意外原因而失败,这可能会给患者和临床医生带来严重后果。

在今天发表在《自然计算科学》上的一篇评论文章中,麻省理工学院副教授 MarzyehGhassemi 和波士顿大学副教授 Elaine Nsoesie 认为,为了减轻这些潜在危害,人工智能系统应该附有负责任使用标签,类似于美国食品和药物管理局规定的处方药标签。

麻省理工学院新闻与 Ghassemi 讨论了此类标签的必要性、它们应传达的信息以及如何实施标签程序。

问:为什么我们需要在医疗保健环境中为人工智能系统负责任地使用标签?

答:在健康环境中,我们遇到一个有趣的情况,医生经常依赖尚未完全理解的技术或治疗方法。有时,这种缺乏理解是对乙酰氨基酚背后机制的根本原因,但有时这只是专业化的限制。例如,我们并不期望临床医生知道如何维修 MRI 机器。相反,我们通过 FDA 或其他联邦机构建立了认证系统,证明医疗设备或药物在特定环境中的使用。

重要的是,医疗设备还有制造商技术人员将提供的服务合同如果 MRI 机器校准错误,请对其进行修复。对于已批准的药物,有上市后监测和报告系统,以便可以解决不良反应或事件,例如,如果许多服用药物的人似乎出现了病症或过敏。

模型和算法,无论它们是否包含人工智能,都会绕过很多审批和长期监控流程,这是我们需要警惕的。许多先前的研究表明,预测模型需要更仔细的评估和监控。特别是对于最近的生成式人工智能,我们引用了一些工作,证明生成不能保证是适当的、稳健的或公正的。由于我们对模型预测或生成没有同等水平的监视,因此捕获模型有问题的响应将更加困难。医院目前使用的生成模型可能存在偏差。使用标签是确保模型不会自动产生从人类从业者那里学到的偏见或过去错误校准的临床决策支持分数的一种方法。

问:您的文章描述了人工智能负责任使用标签的几个组成部分,遵循 FDA 方法创建处方标签,包括批准的用途、成分、潜在副作用等。这些标签应传达哪些核心信息?

答:标签应明确的内容是时间、地点以及模型预期用途的方式。例如,用户应该知道模型是在特定时间使用特定时间点的数据进行训练的。例如,它是否包含包含或不包含 Covid-19 大流行的数据?新冠疫情期间存在非常不同的健康习惯,可能会影响数据。这就是为什么我们主张公开模型成分和已完成的研究。

对于地点,我们从之前的研究中得知,在一个地点训练的模型在移动到另一个地点时往往表现较差。了解数据来自何处以及如何在该人群中优化模型有助于确保用户了解潜在的副作用、任何警告和预防措施以及不良反应。

使用经过训练的模型来预测其中一个结果是,了解培训的时间和地点可以帮助您对部署做出明智的判断。但许多生成模型非常灵活,可以用于许多任务。在这里,时间和地点可能没有那么丰富的信息,并且关于标签条件以及批准的使用与未经批准的使用的更明确的指示开始发挥作用。如果开发人员评估了用于读取患者临床记录并生成预期计费代码的生成模型,他们可以透露该模型对特定条件的计费过高或对其他条件的识别不足存在偏差。用户不想使用相同的生成模型来决定谁可以推荐给专家,尽管他们可以。这种灵活性就是我们主张提供有关模型使用方式的更多详细信息的原因。

一般来说,我们主张您应该使用可用的工具来训练最好的模型。但即便如此,也应该有大量的披露。没有一个模型是完美的。作为一个社会,我们现在明白没有一种药是完美的,总是存在一些风险。我们对人工智能模型应该有同样的理解。任何有或没有人工智能的模型都是有限的。它可能会为您提供对潜在未来的现实的、训练有素的预测,但请采取适当的态度。

问:如果要实施人工智能标签,谁来进行标签和标注?如何对标签进行监管和执行?

答:如果您不打算在实践中使用您的模型,那么您为高质量研究出版物所做的披露就足够了。但是,一旦您打算将模型部署在面向人类的环境中,开发人员和部署人员就应该根据一些已建立的框架进行初始标记。在部署之前应该对这些声明进行验证;在医疗保健等安全关键环境中,卫生与公众服务部的许多机构都可能参与其中。

对于模型开发人员,我认为知道您需要标记系统的局限性会导致更仔细地考虑过程本身。例如,如果我知道在某个时候我必须披露模型接受训练的人群,我就不想透露该模型仅针对男性聊天机器人用户的对话进行训练。

思考数据的收集对象、时间段、样本大小以及如何决定包含或排除哪些数据等问题,可以让您对部署时的潜在问题保持开放的态度。

关于《3 个问题:我们应该像对待处方药一样给人工智能系统贴上标签吗?- 麻省理工学院新闻》
暂无评论

摘要

人工智能系统越来越多地部署在安全关键的医疗保健环境中。对于已批准的药物,有上市后监测和报告系统,以便可以解决不良反应或事件,例如,如果许多服用药物的人似乎出现了病症或过敏。通过训练模型来预测一个结果,了解训练的时间和地点可以帮助您对部署做出明智的判断。但即便如此,也应该有大量的披露。对于模型开发人员来说,我认为知道您需要标记系统的局限性会导致对流程本身进行更仔细的考虑。