生成式人工智能如何变革医学教育

2024-10-15 19:45:29 英文原文

作者：by Elizabeth Gehrman

几周之内自2022年11月公开发布以来，ChatGPT已经开始显得无处不在，MMSc ’05的Bernard Chang开始思考这对医学教育的未来意味着什么。“也许每隔几十年就会发生一次真正的革命，改变我们教授医学生的方式以及我们对他们成为医生后能够做什么的期望，”担任哈佛医学院医学教育院长的Chang说，“这正是这样的时刻。”

到2023年，研究发现最初的公共版本的ChatGPT可以在美国医学执照考试中达到及格水平。2023年3月发布的更强大的版本的ChatGPT在某些医学知识和临床推理测试中超越了医学生、住院医生甚至执业医师的表现，如今有许多大型语言模型与ChatGPT的能力相当。那么这将如何影响当今的医学生及其教育机构？

张说上一次这样的医学教育革命发生在上世纪90年代中期，当时互联网变得广泛可用。“最初我们只是用它来玩游戏，”他说。“但很快它就变得不可或缺了，现在的生成式人工智能也是如此。几年之内，它就会融入到一切事物中。”

A man in a red tie and black suit jacket looks at the camera smiling with hands in his pockets — Bernard Chang

HMS 正在通过将生成式人工智能（也称为 genAI）纳入当前课程来应对这一变化。“现在是回应这一呼吁的合适时机，” Chang 说。“我们没有犹豫观望其他学校的做法，一方面是因为作为一所机构，我们希望成为这一领域的前沿者，另一方面也是为了我们的学生做正确的事情。”

结合人工智能

今年秋季的变革之一是为所有新入学的健康科学与技术（HST）轨道学生提供为期一个月的人工智能在医疗领域的入门课程。“据我所知，没有其他医学院校这样做，”Chang说，“绝对不是在第一个月。”这门课程探讨了人工智能在医学中的最新应用，批判性地评估其在临床决策中的局限，并且他强调：“让学生们认识到未来医学将会有所不同这一点至关重要。在这个时代，如果他们希望成为医学生物科学家或医工结合的专家，这是HST课程的目标所在，仅仅具备良好的倾听技巧、医疗访谈能力和床边医生技能是不够的。他们还需要具备数据处理能力、人工智能技能和机器学习技能。”每年大约有三十名学生注册参加HST轨道项目，并且其中许多学生除了医学博士之外还将获得硕士学位或博士学位。

从这个学期开始的一个博士课程轨道医学领域的AI艾姆斯（AIM）正在将AI集成教育进一步推进。“生物信息学专业的学生越来越多地表示他们对人工智能感到兴奋，并询问我们是否可以提供相关领域的博士学位，”哈佛医学院布劳恩斯坦研究所生物医学信息学系的马里昂·V·nelson生物医学信息学教授伊萨克·科汉说。“我们不知道需求会有多大，但最终我们为提供的七个名额收到了超过400份申请。”

“像任何重大技术变革一样，”科汉恩说，“在未来几年里，劳动力将出现巨大的缺口。因此，我们希望培养那些对医学了解颇深、能够理解医疗保健中可以通过人工智能解决的实际问题的研究人员。”

为此，哈佛医学院也为对这项技术感兴趣的医学生和教职员工开启了第三个途径：院长人工智能教育、研究和管理创新奖。该奖项于去年宣布，为每个选定的项目提供高达10万美元的资金支持（详见）““这些资助确实表明，哈佛医学院在努力将这些令人惊叹的新工具整合到我们的工作和学习方式中方面走在了前列，”MD-PhD学生、获得研究AI临床培训奖项的共同获奖者Arya Rao说。“我很感激能有这次经历带入我的医学职业生涯。”

A woman in a white dress stands outside amongst greenery, looking to her right and smiling slightly. — 阿莉娅·拉奥

与HMS相关的医院也在将其临床工作流程中融入人工智能。例如，布莱根妇女医院正在测试使用一种环境文档工具来记录临床笔记，这样医生可以花更多时间与患者互动。随着这类工具的实施，张说，它们将使学生能够专注于与患者的交流，“而不是不断地转过身去看屏幕。”这还将帮助他们更快地转向更高层次的学习和更高级的话题以及我们希望我们的医生做的事情，比如倾听。

“GenAI通常被视为将人性从沟通中剥离，”麻省理工学院研究生教育办公室的助理院长Taralyn Tan说道。“但在我看来，它实际上是一种机制，可以通过减轻医生的许多行政任务负担，重新融入临床实践中的人性化维度。”

A woman in a beige suit jacket stands in front of a white board behind a table with a laptop on it — 谭塔拉琳

饶同意。“医学真正的美在于能够与患者建立的联系，”她说。“如果你看看医生花在查阅医疗记录和写病历上的时间，每天都是好几个小时。AI可以释放一些这些时间，让我们能够专注于真正重要的事情，即帮助人们。”

理查德·施瓦茨斯坦，学习环境指导委员会主席及医学教育艾伦和梅尔文·戈登杰出教授，认为将记录保存和其他类似职责集中起来是有价值的，但他警告说，如果过度使用人工智能可能会导致学生准备不足。“我们需要将其放在现实世界的床边医学以及你作为一名医生如何工作的背景下，并强调推理和批判性思维的重要性。”施瓦茨斯坦说，“临床医生在床边工作中如何很好地利用它？临床医生需要注意什么？为了适当使用AI，临床医生还需要擅长哪些方面？”

施瓦茨斯坦指出，例如，人工智能可以帮助医生追踪患者可能接触过的世界各地的病原体，而这些地方可能是医生不熟悉的。“我现在可以用互联网做到这一点，”他说，“但AI可以进行更广泛和更快的搜索。不过一个缺点是，它不会告诉你它是从哪些来源查找信息的，所以你无法确定信息是否来自你信任的期刊。”

A man speaks to a class in a lecture room — 理查德·施瓦茨斯坦ン（人名翻译可能会根据习惯有所不同，此处提供一种常见译法） Richard Schwartzstein

他强调，核实人工智能的结果至关重要，并且要能够将人工智能提供的选项与患者的实际症状和病史相匹配。“AI在解决问题方面并不擅长，而这正是医学中最困难的部分之一，”Schwartzstein指出。来自哈佛医学院和贝斯以色列女执事医疗中心的研究人员的一项研究发现，尽管ChatGPT在诊断方面的准确性很高，但在推理任务（如考虑为什么要问某些问题而不是仅仅知道要问什么）上犯的错误比经验更丰富的同行多——它的表现优于住院医生，但不及主治医师。

施瓦茨斯坦说，学生可能过度使用人工智能的另一个领域是分析实验数据。“解释测试结果和采用归纳模式有助于他们学习批判性思维，”他说。“大多数因可能的诊断错误而产生的医疗不当行为案例并不是奇怪的病例。它们是一些基础性的案件，在这些案件中人们犯了错——这是思考上的失误。因此，虽然在资源匮乏地区对于没有附近医生支持的情况下，护士执业者使用人工智能会非常有帮助，但对于医生来说，如果缺乏这种训练和思维技能则是有问题的。”

然而，一旦医生们有了几年的执业经验，“拥有一致的人工智能助手监督我们的行动并发现错误将是一个巨大的胜利，”科汉认为。“有时，即使是经验丰富的医师也会因为疲劳或身体不适而犯新手错误，因此让人工智能检查我们的工作可能在很大程度上改善医院内的死亡率和发病率。”

实际应用

但是，AI不也是以容易出错而闻名吗？ChatGPT的“幻觉”——例如在处理像“徒手横渡英吉利海峡的世界纪录是什么？”这样的问题时，尽管提示中存在明显的错误，它仍然会提供一个详细但非常错误的答案——这些现象已经成为网络梗图的主题。科汉恩说，这个问题预计随着时间的推移会得到改善，但他也指出，“AI犯错的方式与人类不同，因此它可以成为一个好的合作伙伴。”他不仅提到底层技术正在改进，还提到了数据池的巨大扩展，医生可以利用更多的数据来做出诊断。“例如，一个基于近一百万个心电图训练的机器学习模型，在诊断三十八种类型的病症时表现得和心脏病专家一样好或更好。科汉恩说：“想象一下，这在初级保健医生手中能发挥多大的作用。”

如此庞大的数据集在补充了电子健康记录（EHR）和患者可穿戴设备的数据后，可以变得更加全面。科汉恩指出，“基因AI并不只局限于从临床试验和医学期刊中获取信息。”他说，“如果在获得同意和透明度的情况下收集现实生活中的数据，这些额外的信息可以帮助医生发现他们原本可能忽略的问题。”

A man sits on a red couch looking at the camera — 伊萨克·科汉е

这种类型的数据已经在布莱根妇女医院的内科学生试点项目中使用。“当他们在病房里时，”张说，“学生们只能从当时正好在医院的病人那里学习。但这个工具可以访问课程目标和患者的电子健康记录，因此它可以将学生的实际经历与我们的教学目标进行比较。”张认为，在几年之内，这种用例将会变得很普遍。“在进入轮转之前，学生会通过手机上的应用程序获取建议，比如‘早上好，我建议你见这三位病人’，因为这些病人代表了学生知识的不足之处。”

人工智能训练数据中的偏见问题也得到了充分的记录。斯瓦茨泰因及其同事在发表于某期刊的一篇论文中指出胸部不仅人工智能本身容易复制其学习的人类生成材料中固有的偏见，而且至少有一项研究表明，这种循环可以反过来将AI的偏见传递给人类。

同时，也有证据表明反馈也可以向相反方向起作用。最近，布里格姆妇女医院的一项研究表明，在AI训练数据集中包含更多细节可以减少观察到的差异，而一位麻省总医院的儿科医生正在进行的研究是训练AI识别教师对学生评价中的偏见。

“无论信息来自何处，都存在着很多偏见，”Tan说，“所以我们必须对此保持警惕。但如果我们可以以协同的方式利用AI，它就可以成为我们在教育公平推广方面的一个有用工具——比如加入我们已知有效的特定文章、引用和工具，并要求它从反映该领域最新进展的资源中汲取信息，同时保持对这些问题的认识。”

那么，解决方案的一部分就是意识到用于创建AI工具的数据。张提到HMS“辅导机器人”，这些机器人是根据自家的课程训练的。“我们使用ChatGPT作为引擎，”他说，“但我们通过给定的语言和课程信息来限制它。如果我们不这样做，来到HMS有什么特别之处呢？”

鉴于所有正在发生的变化，什么将会当今年这一届的学生准备毕业时，HMS学位有什么特别之处？

如果AIM博士项目的学生成今天毕业，科汉恩说，“他们将会立即收到所有竞争激烈的医院和大学提供的顶级工作邀请。”“我估计有60%的毕业生会进入工业界。但大约五年后，他们也会在学术界和研究领域找到很多机会。”

谭说，原因之一在于这些技术培训出来的学生具有适应性。“很难预测这会走多远，”她说。“但明天最成功的医生和研究人员将是那些能够利用基因AI进行创新和战略规划的人。提出解决方案的人将会是使用这些工具的人。”

医学教育中的创新进步

2024年3月，HMS宣布了三十三名接收者院长创新奖之人工智能在教育、研究和行政管理应用奖项。以下是一些与医学教育相关的项目示例。

未来患者角色：一种互动的、增强型的大语言模型哈佛临床培训伴侣
阿拉娅·拉奥，马尔克·苏奇，苏珊·法雷尔

拉奥表示，为学生提供在标准化病人身上练习临床技能的机会是医学院教育的重要组成部分。当“就诊”结束后，学生将由扮演病人的演员和他们的教授根据其临床推理、沟通技巧等方面进行评分。然而，这项活动的成本和时间限制了这些机会的规模。因此，拉奥与麻省总医院放射学助理教授马尔克·苏奇以及哈佛医学院评估与评价副教务长兼综合临床技能OSCE考试主任苏珊·法雷尔正在开发定制化的大语言模型，以作为标准化病人使用。他们通过特定于哈佛医学院课程的材料强化这些模型，并称之为SP-LLMs。学生将能够通过文本和语音与这些模型互动，收集病史、获取诊断信息并启动临床管理，同时锻炼他们的沟通技巧。

“一个不错的功能是，在访问结束后，”饶说，“SP-LLM还会为学生提供关于这次会面的反馈，同时扮演病人和指导教师的角色。由于这个工具可以随时随地使用，学生们可以在开始接触真正患者之前获得更多的实践经验。”

生成式人工智能评分和学习工具的开发
格雷格·克林吉、杰伊·瓦西列夫、萨曼莎·帕尔曼、兰迪·金、芭芭拉·科克里尔、理查德·施瓦茨斯坦和亨丽克·贝舍

HMS的Pathways课程体系强调独立学习和基于案例的合作课堂作业。Schwartzstein和他的同事们开发了一套系统，可以批量自动批改简答题，以总结学生的优势和劣势，识别概念挑战，并提出量身定制的教学策略。对于一个班级中的170名学生回答的一道开放性问题，Schwartzstein（他于2015年担任制定Pathways课程体系指导委员会主席）需要大约八个小时来批改作业，不包括提供反馈的时间。“我无法用人工完成家庭作业的评分工作，”他说，“但如果人工智能能够做到这一点，对学生会非常有帮助。”他还补充说，简化这一过程将使学生能够做更多的练习，并因此“获得更多地练习如何正确应用他们所学的原则到案例研究中去”的机会。

利用生成式人工智能创建以学习者为中心和基于证据的课程大纲
谭塔拉琳和克里斯蒂娜·费舍尔

谭和克里斯蒂娜·费舍尔，哈佛医学院放射学兼职助理教授，在布里格姆妇女医院进行研究，他们正在使用谭的Teaching 100课程来开发并试行一种工具，该工具利用生成式人工智能创建教学大纲，并希望其他哈佛医学院教师能采用这种工具。在这门课上，谭的学生们首先尝试独立创作以学习者为中心、基于证据的教学大纲组件，然后与AI合作完成同样的任务。“这门课有一个非常元的双重目的，”谭说，“因为学生在自己的教学和从学习者的角度来看都在体验它。”谭还允许她的学生在课堂上使用人工智能，而不仅仅是这一期末作业中。“当我询问他们对此的看法时，最常见的回答是他们不知道如何使用AI，”她说。“这说明了我们需要基本技能来与我们的学习者一起使用它的必要性。”

伊丽莎白·格尔曼是一名驻扎在波士顿的作家。

图片：Steve Lipofski（白大衣）；Gretchen Ertl（张和施瓦茨斯坦因）；John Soares（谭和饶）；Peter Gumaskas（科汉）

关于《生成式人工智能如何变革医学教育》的评论

暂无评论

发表评论

摘要

在2022年11月公开发布后几周内，ChatGPT已经开始给人一种无处不在的感觉，伯纳德·张（MMSc ’05）开始思考这对医学教育的未来意味着什么。“这门课程考察了人工智能在医学领域的最新应用，批判性地评估其在临床决策中的局限性，并且至关重要的是，他补充道，“使学生认识到医学将来的不同。”然而，一旦医生们有了几年的实践经验，“拥有一致的人工智能代理监督我们的行动并发现错误将会是一个巨大的胜利，”科汉恩认为。“无论信息来自何处，都会有很多偏见，”谭说，“所以我们必须保持警惕。因此，拉奥、马尔克·苏奇（哈佛医学院放射学助理教授，在麻省总医院工作）和苏珊·法雷尔（评估与评价副院长以及综合临床技能OSCE考试主任）正在开发定制化的大型语言模型，这些模型可以作为标准化病人使用。