作者:June 30, 2025 | 6 min read | Natalia Mesa
6月2日,FDA启动了Elsa,这是一个人工智能大型语言机构领导力的人,希望能简化运营并加快药物批准过程。但是,该机构尚未提供有关如何使用和评估AI的回答的详细信息,从而引发了许多行业专业人员和AI专家的问题。
在公告,FDA专员马蒂·马克里(Marty Makary)表示,艾尔莎(Elsa)提前了将近一个月的预算。根据该公告,ELSA旨在协助阅读,写作和总结,并将加速临床协议审查,缩短科学评估所需的时间,并确定高优先级检查目标。
专家对FDA部署该工具的速度以及它将完成的任务的广泛范围感到惊讶。
在视频公告中,该机构正在使用ELSA加快临床协议审查,并减少完成科学评论的总体时间。一位科学审稿人告诉我,他花了两到三天需要六分钟。
在发表的专栏文章中贾马 本月初,,,,FDA的生物制度评估与研究中心主任Makary和Vinay Prasad概述了一个新的FDA的五个优先事项,其中一个是AI的释放的。
FDA员工对Elsa的发射受到了严厉批评,他们告诉STAT新闻实施被赶紧。根据它的某些响应不正确或仅部分准确。NBC新闻。 其他统计消息人士称,AI努力完成简单的任务,最终并没有为员工节省大量时间。一位员工告诉统计FDA未能为工具的使用建立护栏。
我听说没有参与Elsa的发展的FDA内部人士告诉Biospace。
埃尔萨的实施是在特朗普政府之后的解雇了数千名FDA员工并提出将HHS的预算削减25%。
一些外部专家对AI提高效率的能力感到乐观。但是许多人呼吁FDA提供有关模型的工作原理以及该机构评估其输出的基准(如果有)的更多详细信息。杰森·科纳蒂(Jason ConatyBiospace。令人兴奋,令人担忧。
专家说,大型语言模型(LLMS)确实是某些任务的理想选择,例如总结文档并找到特定的信息。斯坦福大学生物医学数据科学副教授詹姆斯·祖(James Zou)告诉Biospace。
但是对于许多任务,使用LLMS具有风险。祖说,即使这些模型中最复杂的模型也可以呈现错误或误导性信息。FDA是否具有评估Elsa输出准确性的有效方法尚不清楚。卫生与公共服务部(FDA)是一部分,没有回应Biospace提出评论的要求。
祖说,他们说的是使用AI的事情很广泛。”FDA的迹象表明,ELSA将用于识别不良事件,例如潜在的高风险。根据Zou的说法,即使总结了文件,模型仍然可能会幻觉。”
FDA有强调在循环中,人类是该过程的关键部分,以确保AI生成的内容的准确性和可靠性。人类审稿人旨在验证引用并确认信息来自可信赖的来源。
但是,根据哈佛医学院医学助理教授亚当·罗德曼(Adam Rodman)的说法,人类在确定LLMS提供的错误信息方面很少无瑕。罗德曼告诉人们,人们倾向于信任AI系统。Biospace。``听起来都直觉的事情之一是,拥有人类的评论一切都会起作用,而文学通常提出的是这并不容易。
FDA对ELSA的采用是采用AI模型来自动化某些任务的广泛趋势的一部分。罗德曼说,我们现在在整个行业中看到了这一点。他们遇到的是每个其他领域都遇到的问题,这是:您如何知道它的工作原理?'
根据统计,艾尔莎(Elsa)基于拟人化的克劳德(Claude LLM),是由咨询公司德勤(Deloitte)开发的。Claude使用检索型生成(RAG),该框架允许AI工具访问其培训数据之外的信息并将其纳入其答案中。罗德曼说,虽然这种方法减少了错误,但幻觉仍然可以发生,并且随着更复杂的任务,抹布可能会降低整体速度,但使那些剩下的幻觉更难发现。”
我们不知道它将如何使用。”祖说。我认为有关人类AI的监督和验证将如何发生更多信息也将很有用。
FDA尚未阐明如何在科学审查中使用ELSA,并使用AI来做出任何关键的监管决定都打开了许多法律问题。Conaty说,FDA确切地将工具无法访问专有信息和商业秘密尚不清楚。
根据FDA的宣布,ELSA未经受监管行业提交的数据培训。专家指出,LLM可以评估新数据而不将其纳入他们的决策。该公告还表示,ELSA建于高安全性GovCloud环境中,并为FDA员工提供了一个安全的平台,可以在确保所有信息中保留在代理机构中。
还不清楚AI如何适应监管上诉程序。特别是,如果FDA在法庭上质疑FDA决定将会发生什么问题。通常,如果发生这种情况,您会得到行政记录的汇编。”但是,如果在任何时候都使用人工智能来做出决定,那么考虑到我们对AIS的做法有限的信息,可能不可能知道如何做出这些决定。
Conaty继续说:``该机构的使命是确保该国供应新药的安全和功效。也许那些护栏已经到位,也许在所有临界点上都有人类。您希望如此。
FDA以及使用AI的任何公司或代理商都可以采取一些步骤来评估和改进基于AI的工具。祖说,这始于培训官员与这些模型合作并发现潜在的错误。
罗德曼说,为了测试AI工具的功效和准确性,该机构需要创建基准测试以评估与人类用户相比模型的表现。这意味着为模型创造有意义的目标,并有条不紊地将其决策与人类的决策进行比较,以发现偏见和错误的来源。
FDA是评估医疗设备和AI系统的领先权威。”``是有道理的,当FDA使用自己的系统时,应该对他们如何审查或评估内部工具有透明度。”