英语轻松读发新版了,欢迎下载、更新

3个问题:如何帮助学生识别AI数据集中的潜在偏见

2025-06-02 14:24:07 英文原文

作者:Anne Trafton | MIT News

每年,成千上万的学生参加教会他们如何部署人工智能模型的课程,这些模型可以帮助医生诊断疾病并确定适当的治疗方法。但是,其中许多课程忽略了一个关键要素:培训学生在用于开发模型的培训数据中发现缺陷。

麻省理工学院医学工程与科学研究所的高级研究科学家Leo Anthony Celi,Beth Israel Deaconess Medical Center的医师,哈佛医学院的副教授,已记录了这些缺陷新论文并希望说服课程开发人员在将数据纳入模型之前,教学生更彻底评估他们的数据。许多先前的研究发现,当对白人男性的临床数据进行培训的模型时,当适用于其他群体的人时,效果不佳。在这里,Celi描述了这种偏见的影响以及教育者如何在他们有关AI模型的教义中解决它。

问:偏见如何进入这些数据集,如何解决这些缺点?

一个:数据中的任何问题都将烘烤到数据的任何建模中。过去,我们描述了在个人之间无法很好地工作的工具和设备。作为一个例子,我们发现 脉搏血氧仪高估了有色人种的氧气水平,因为有足够的有色人种参加了设备的临床试验。我们提醒学生,医疗设备和设备对健康的年轻男性进行了优化。他们从未为一个心力衰竭的80岁妇女进行优化,但我们将其用于这些目的。FDA并不要求设备在我们将使用的人群中良好的人群中。他们所需要的只是证明它对健康的受试者有效。

此外,电子健康记录系统没有形状可用作AI的构件。这些记录并非被设计为学习系统,因此,您必须在使用电子健康记录时非常谨慎。电子健康记录系统将被替换,但这不会很快发生,因此我们需要更聪明。在构建算法时,我们需要在使用现在拥有的数据,无论它们有多糟糕,都需要更具创造力。

我们正在探索的一个有前途的途径是A的发展 变压器模型数字电子健康记录数据,包括但不限于实验室测试结果。建模实验室测试之间的基本关系,生命体征和治疗方法可以减轻由于健康和提供者隐式偏见的社会决定因素而导致缺失数据的效果。

问:为什么对AI的课程涵盖潜在偏见的来源很重要?分析此类课程内容时,您发现了什么?

一个:``我们在麻省理工学院的课程始于2016年,在某个时候,我们意识到我们正在鼓励人们竞争建立模型,这些模型过于适应模型性能的某种统计量度,而实际上我们使用的数据是人们不知道的问题。当时,我们想知道:这个问题有多普遍?

我们的怀疑是,如果您查看了在线课程大纲或在线课程的课程,那么他们甚至都没有打扰他们告诉学生他们应该对数据偏执。确实,当我们查看不同的在线课程时,这就是建立模型的全部。您如何构建模型?您如何可视化数据?我们发现,在我们审查的11门课程中,只有5个包括有关数据集中偏见的部分,只有两个包含对偏见的任何重大讨论。

也就是说,我们无法折扣这些课程的价值。我听到了很多故事,人们根据这些在线课程进行自学,但与此同时,鉴于他们的影响力,有影响力的影响力,我们需要真正地要求他们教他们正确的技能,因为越来越多的人被这个AI Multiverse吸引。对于人们来说,重要的是要与机构配备能够与AI合作的机构。我们希望本文能够以我们为学生教授AI的方式来关注这一巨大差距。

问:课程开发人员应该合并哪种内容?

一个:一个,一开始就给他们一个问题清单。这些数据从何而来?谁是观察者?收集数据的医生和护士是谁?然后了解有关这些机构的景观的一些知识。如果是ICU数据库,他们需要询问谁将其进入ICU,而谁将其进入ICU,因为这已经引入了采样选择偏差。如果所有少数族裔患者甚至没有被ICU录取,因为他们无法及时到达ICU,那么这些模型就不会为他们工作。确实,对我来说,课程内容的50%应该真正理解数据,因为一旦您了解数据,建模本身就很容易。

自2014年以来,麻省理工学院关键数据联盟一直在全球组织DATATHON(数据“黑客马拉松)”。在这些聚会上,医生,护士,其他卫生保健工作者和数据科学家聚在一起梳理数据库,并在当地情况下尝试检查健康和疾病。教科书和期刊论文基于涉及狭窄人口的观察和试验,通常来自具有研究资源的国家。 

我们现在要教他们的主要目标是批判性思维技能。批判性思维的主要成分是将背景不同的人聚集在一起。

您不能在一个充满CEO的房间或充满医生的房间里教批判性思维。环境不存在。当我们拥有数据记录时,我们甚至不必教他们如何进行批判性思维。一旦您带来了正确的人的组合 - 不仅来自不同的背景,而且来自不同的一代 - 您甚至不必告诉他们如何进行批判性思考。它只是发生了。环境适合这种思维。因此,我们现在告诉我们的参与者和学生,请不要开始建立任何模型,除非您真正了解数据是如何产生的,哪些患者将其纳入数据库,哪些设备用于测量,并且这些设备在个人之间是否始终准确?

当我们在世界各地举办活动时,我们鼓励他们寻找本地的数据集,以使它们具有相关性。有抵抗力是因为他们知道他们会发现数据集有多糟。我们说那很好。这就是您解决的方式。如果您不知道它们有多糟糕,那么您将继续以非常糟糕的方式收集它们,并且它们毫无用处。您必须承认,您不会第一次做正确的事情,这很好。模仿(在贝丝以色列执事医疗中心建造的重症监护数据库的医疗信息)花了十年的时间才有我们的模式不错,我们只有一个体面的模式,因为人们告诉我们模仿有多糟糕。

我们可能没有所有这些问题的答案,但是我们可以唤起人们的一些东西,以帮助他们意识到数据中有很多问题。现在,他们对该领域感到更加兴奋,因为他们意识到了巨大的潜力,但如果他们正确地做到这一点,也会造成巨大伤害的风险。

关于《3个问题:如何帮助学生识别AI数据集中的潜在偏见》的评论


暂无评论

发表评论

摘要

麻省理工学院和哈佛医学院的研究人员利奥·安东尼·塞利(Leo Anthony Celi)在他的新论文中强调,为医疗应用教授AI的课程经常忽略培训学生在培训数据中发现缺陷。这种监督会导致有偏见的模型,这些模型服务于多样化的人群。Celi倡导将批判性思维技能纳入课程中,强调了解数据来自何处,收集数据以及其潜在偏见的重要性。他建议更多地专注于评估数据质量,而不是仅仅建立AI模型,而是建议本地数据原子作为培养多学科参与者的批判性分析的一种方式。