背景
Remdesivir(RDV)是第一个被批准的抗病毒药,在临床试验支持其与改善的预后相关联的情况下,对中度的中度Covid-19以及有进展为严重疾病风险的患者。
人工智能技术产生的现实世界证据(RWE)可能会加快对未来健康危机中新疗法的验证。我们的目的是使用自然语言处理(NLP)和机器学习(ML)来评估RDV对COVID19相关结果的影响,包括出院时间和院内死亡率。
方法
使用EHREAD®(一种NLP技术),其中包括从电子健康记录(EHR)中提取非结构化临床信息的NLP技术,我们回顾了住院的Covid-199患者,在2021年1月至2022年1月至2022年3月之间的三个西班牙娱乐中的肺炎患者中,在2022年1月至2022年3月之间。根据年龄,性别,Charlson合并症指数,COVID-19疫苗接种状态,其他COVID-19治疗,医院和变异时期后,倾向得分匹配(PSM; 1:3.3)之后(1:3.3)。COX比例危害模型和Kaplan -Meier图用于评估组之间的统计差异。
结果
在研究期间,在来自84,408例患者的7,651,773例EHR中,患有中度至重度Covid-19肺炎患者。研究人群由4,882(72.3%)RDV合格患者定义。中位年龄为72岁,男性为57.3%。总共812名(16.6%)患者分类为RDV+,并匹配2,703例RDV患者(总计4,070 RDV)。PSM之后,所有协变量的绝对平均标准化差异小于10%。28天的院内死亡率的危险比为0.73(95%置信区间,CI,0.56至0.96,p= 0.022),rdvâ作为参考组。28天的风险差异和风险比分别为2.7%和0.76,都有利于RDV+组。由于组之间的RDV资格,住院时间没有发现差异。
结论
使用NLP和ML,我们能够生成RWE对RDV在COVID-19患者中的有效性,从而证实了使用这种方法来衡量治疗疗法在大流行中的有效性的潜力。我们的结果表明,在住院的中度至重度肺炎患者中使用RDV与住院死亡率显着降低有关。遵守临床指南建议具有预后的含义和新兴技术,可以在识别符合条件的患者治疗并避免在公共卫生危机期间避免错过的机会。
背景
截至2024年1月7日,已有7.74亿多人确认病例和超过700万例2019年冠状病毒疾病死亡(Covid-19)[Covid-19)[1]。全世界的Covid-19-19大流行医院强调了迫切需要安全有效的治疗选择,以减轻疾病的负担并改善临床结果[2,,,,,3]。
Remdesivir(RDV)最初是由冠状病毒2(SARS-COV-2)引起的严重急性呼吸综合症的体外抑制剂[4],具有降低非人类灵长类动物研究中肺部病毒水平和损害的潜在能力[5,,,,,6]。随后进行的ACTT-1试验是一项双盲研究,包括住院的Covid-19患者和下呼吸道感染,通过缩短住院成年人的恢复时间来验证其治疗Covid-19的功效[7]。在这方面,RDV在2020年获得了美国食品药品监督管理局(FDA)和欧洲药品局(EMA)的批准,以治疗成人和小儿肺炎患者的Covid-19,需要补充氧气,需要补充的成人和儿童患者,他们不需要补充氧气和不需要补充氧气的人会增加cody covidge的风险。8,,,,,9]。但是,在大流行的背景下,通过临床试验产生证据,虽然必不可少,但却存在一些局限性。这些来自受控环境,样本量较小,固定时间范围以及患者选择的潜在偏见。这些因素阻碍了现实生活中的医学场景的全面表示,而招聘和分析时间对于像Pandemics这样的紧急情况可能并不是最佳的,因为快速实时证据至关重要。
现实世界的证据(RWE)研究具有对医疗治疗结果的更全面和现实的看法,涵盖了更广泛的患者,并将评估扩展到短期影响之外[10,,,,,11,,,,,12]。在这方面,来自电子健康记录(EHR)的非结构化自由文本包含大量相关临床数据,捕获了在日常临床实践中通常收集的多样化的患者历史,诊断,治疗和结果,使研究人员能够更好地了解现实世界的患者体验[现实世界中的患者经验[13,,,,,14]。重要的是,现代人工智能(AI)技术,例如自然语言处理(NLP)和机器学习(ML),已经解开了前所未有的能力,可以实时和多种语言和多种语言,节省时间和资源,以及最小的错误。因此,该方法提供了见解,这些见解可能可用于实时评估新兴治疗解决方案在未来努力中的现实有效性。
我们的目的是回顾性地使用通过NLP和ML提取的非结构化现实世界数据(RWD)评估RDV对西班牙共同相关结果的影响。我们的次要目标是通过分析住院时间和院内死亡率来评估RDV在该人群中的有效性。
方法
研究设计
这是一项观察性的,回顾性的和多中心的研究,基于2021年1月1日至2022年3月31日在西班牙国家医疗保健网络中的3家医院的Covid-19患者EHR中的临床数据的次要使用:医院Universitari son Espases(Balearic Islands),医院Invirio Invirio Inviralio Invise Inversiario Invisha Sofountana Sofountana Sofountana(Madrior),MADIRION,MADIRION(MADRIRE)(MADRIRE)(MADRIRE)(MADRIRE)。从参与医院的所有可用部门(包括住院医院,门诊医院,急诊室或ER)收集了来自COVID-19患者EHR的非结构化自由文本信息。所有站点也可以使用结构化的药学和实验室数据。有关数据源和数据质量评估的更多详细信息在补充方法中显示。
研究人群
来源人群包括在研究期间参加参与医院的患者的所有可用记录。该研究人群由COVID-19的源人群中的所有住院患者组成,并且根据FDA标准[8]。有资格接受RDV治疗的患者包括患有呼吸速度的患者每分钟22次呼吸,动脉氧饱和度的房间空气中的94%,需要补充氧气或动脉氧的氧气氧气压力,以使氧气受到氧气的氧气(PAE)(PAO PAO(PAO)2/fio2)比率<300。肾衰竭(肾小球过滤<30 mL/min),严重肝病,丙氨酸转氨酶(ALT)或天冬氨酸氨基转移酶(AST)250 u/l(正常上限的5倍),需要高流动性通气性,不融合毒素的患者,需要高流动性通气,并需要纳入时的药物,体外膜氧合或多器官失败被认为不符合RDV处理,因此被排除在研究之外。通过直接提及EHR中的上述标准或通过从实验室数据推断计算来确定包含或排除。如果患者小于12岁,体重<40 kg,怀孕或在临床试验中接受RDV,则将被排除在外。从入院出院前15天,在时间窗口中评估了纳入和排除标准。
在研究人群中,住院期间接受RDV的患者构成了RDV+组,而符合条件但未接受RDV的患者构成RDV组。最早提及RDV治疗(RDV+组)或住院期间的任何RDV资格标准(RDV组)的最早提及定义为RDV资格日期。对所有研究变量进行了横截面分析,在基线(在RDV资格日期)进行,如表脚注所述,具有可变依赖性的外观窗口。这些时间窗口旨在建立一个合理的时间间隔,在该时间间隔可能与特定时间点有关。在住院期间(RDV资格日期和住院期间)也进行了分析。为了评估患者的临床病史,考虑了研究期间所有可用的EHR进行分析。
数据提取
使用S.L. Medsavana开发的EHREAD®技术提取并分析了非结构化的临床数据。(西班牙马德里)。[15,,,,,16]。简而言之,使用SNOMED CT术语(一种系统地组织的可在临床文档中使用的医学术语的可计算机加工收集)提取并组织了来自识别的EHR的自由文本信息,从而可以自动解释相关的临床信息。该数据驱动的技术依赖于NLP和ML生成一个合成数据库,该数据库包含对源人群中医学概念(及相关元数据)的任何检测。具体而言,所有研究变量的概念定义均已预先指定,并使用SNOMED CT浏览器映射到临床实体。这允许将来自不同医院部门的非结构化数据转化为可提取的可用变量。两位专门从事NLP的医学研究专家对概念定义和实体映射的临床准确性进行了审查和批准。提取临床实体后,通过将专用的数据悬架操作应用于其映射的实体来构建变量,从而利用了由专用ML模型(例如,否定,时间性,属性等)和记录特定的元数据(例如,日期,医疗部门,记录类型,记录类型等)生成的特定NLP参数。
如前所述[16]。简而言之,专家医生注释了一组随机选择的EHR,以获得标准,然后将其与EHREAD®技术检测相同EHR的输出进行了比较。每个医院进行了独立的外部评估,以确保数据质量。使用精度(正预测值),回忆(灵敏度)和这些指标的谐波平均值(F1得分)等指标(F1得分)将EHread®输出与标准进行了比较。表格中完全详细介绍了在表格之后获得的特定指标 1。有关数据提取和EHREAD®绩效评估的更多详细信息在补充方法中显示。表1Ehread®识别EHR中的关键变量的性能
考虑进行分析,在常规临床实践中注册在EHR中的研究变量,基于患者自我报告,其亲戚提供的信息或直接由医疗保健工作者进行对象,包括分析,包括基于对SARS-COV-2的药物治疗,包括其他研究,包括其他研究,包括在内,包括社会人口统计学特征,合并症,合并症,治疗,包括其他研究,包括SARS-COV-2的药物治疗),包括该指南,包括该指南,包括药物治疗,包括该指南,包括该指南,包括该指南,包括药物治疗,包括该指南,包括该指南,包括药物治疗,包括该指南,该指南(包括SARS-COV-2
住院期间的非药物治疗/程序和临床事件。从EHR中可用的其他变量推断出一些变量。在这方面,通过以下顺序从住院期推断出Covid-19变体:从2021年1月1日至2021年6月30日的Alpha变体,从2021年7月1日至2021年12月31日的Delta变体和2022年1月1日至2022年3月31日的Omicron变体。
统计分析
生成了描述性表以显示RDV+和RDV组中研究变量的分布。分类和二进制变量以频率表示,而数值变量总结为平均值和标准偏差(SD)或中位数以及第一四分位数(Q1,Q3),如指定。还报道了可用值的频率。来自二进制变量的丢失信息被解释为没有特征(即真实零值)没有出现或不存在。没有应用丢失数据的归类。
使用先前描述并在文献中广泛使用的方法和工具进行了各种统计分析[17,,,,,18,,,,,19,,,,,20,,,,,21,,,,,22,,,,,23]。为了确保可比较的队列评估RDV+和RDV组中患者之间的差异,应用了倾向评分匹配(PSM)[17,,,,,18]。根据逻辑回归产生的年龄,性别,SARS-COV-2疫苗接种状态,Charlson合并症指数,医院,COVID-19变异时期以及其他COVID-19的药物,与患者进行匹配。我们使用了最近的邻居匹配方法,而无需替换为0.2标准倾向评分的卡尺以匹配患者。根据观察到的标准化平均差异,阈值为10%,对协变量的平衡进行了评估。Fisher的精确测试,独立样本T检验或Mann惠特尼U检验(即Wilcoxon测试)用于比较基于分类,正常数字或非正常数字变量的组(分别)。Welch的调整已与t检验合并,以实现不平等差异。通过Shapiro Wilk测试评估正态性。
使用Kaplan Meier(KM)方法进行时间到事件分析[19,,,,,20,,,,,21]和COX比例危害回归模型用于评估关联[19,,,,,22,,,,,23]。如前所述[24],对这些生存分析进行了调整,以评估被活着的出院和院内死亡率。为了确保适当的风险估计,每个时间点的分母包括在住院期间死亡的患者进行出院分析,并以前分别为院内死亡率分析出院患者。为了分析生存的时间,将事件定义为自RDV资格日期以来6天或更长时间后在住院6天或更长时间后活着出院的患者。RDV资格日期后28天住院的患者仍在研究结束时住院,或住院少于6天(即接受不完整的Remdesivir治疗),对此分析进行了正确的审查。为了分析院内生存,事件被定义为在RDV资格日期和住院日期之间发生的全因院内死亡。RDV资格日期后28天住院或在研究端仍被住院的患者被认为是右审查的。当组之间的差异被认为是统计学意义的p<0.05在两尾测试中进行了多个假设检验的Bonferroni调整。PSM爱情图和KM曲线作为图。使用râ软件(版本4.0.2)分析并表示数据。
样本量
为了评估数据是否足以评估RDV的有效性,我们估计样本量的最低样本量为300例接受RDV治疗的患者。该估计值是基于病例和对照之间的至少1:2匹配比的假设,住院持续时间的发生率比为1.3 [7],α值为0.05,β风险为0.2。由于统计分析将通过与样本进行匹配以进行混杂变量(年龄,性别,合并症,治疗地点等)进行,因此我们最终假设每个队列中至少需要600名患者,以确保在匹配组中进行适当的统计分析。
结果
研究人群
在研究期间,共有7,651,773个EHR,其中包含84,408名患者的临床数据。在所有住院的患者中,有13,803名被确认的Covid-19,其中6,756例有中度至重度SARS-COV-2肺炎的证据。其中,有1,874个不符合指定的纳入或资格标准,因此被排除在外。分析中总共包括4,882名合格患者(研究人群),其中812名(16.6%)接受了治疗(RDV+组),4,070(83.4%)没有(RDV组)(RDV组)(图)(图) 1)。图1
2
。RDV+组年轻,中位数(第1季度,第3季度)年龄为67(54.8,79.0),而RDV组的中位数(Q1,Q3)年龄为73(59.0,84.0)。此外,RDV+组对SARS-COV-2(37.7%和29.6%)的疫苗接种频率更高。RDV+和RDV分别为男女比率为1.6和1.3。此外,在三角洲(31.2%和25.4%)和Omicron(21.8%和14.6%)期间,RDV+组中的更多患者被住院。总体而言,由查尔森合并症指数(CCI)衡量的合并症负担很高,中位数(Q1,Q3)CCI得分为5(3,3,8),尤其是RDV+组中的5(3,8),RDV组中的6(3,8)。总体而言,基线时最普遍的合并症是高血压(65.8%),心血管疾病(62.3%)和神经系统疾病(50%)。尽管两组之间的合并症情况相似,但接受RDV的患者的肥胖症记录较高(27.5%vs.21.7%)。另一方面,RDV+组中的患者出现高血压(59.0%vs 67.1%)和神经系统疾病(39.5%vs 56.5%)的可能性较小。研究人群中最常见的体征和症状是呼吸困难(72.4%),咳嗽(64.3%)和发烧(61.9%)。RDV+和RDV研究组之间的体征和症状相似,除了头痛(25.7%vs. 18.4%)和肌痛(21.4%vs. 16.3%),这在RDV+组中更为常见。除非另有说明>
住院期间的药理和支持治疗
RDV+组患者的症状发作和RDV治疗启动之间的中位数为4(1,8)天。对于RDV组的患者,症状发作和RDV治疗资格日期之间的中位数(Q1,Q3)时间为6(1,10)天。总体而言,除了住院期间,RDV+组的患者接受了Covid-19的药理学治疗,而不是RDV组的患者(41.1%vs. 30.9%),尤其是推荐的Covid-2019药物,例如Tocilizumab(例如30.0%vs. 10.1%)。尽管两个研究组中接受这些治疗的患者数量较少,但观察到其他共同19-19药物的差异(例如,索特罗维莫比为2.8%vs 0.1%)。对于其他非特异性药理学干预措施,COVID-19,Corticoids治疗更频繁地对RDV+组的患者施用(94.8%vs. 78.5%)。关于非药物支持护理,两组均记录了相似的补充氧数据(88.7%对85.6%),非侵入性通风(11.7%vs. 8.8%)和侵入性机械通气(3.7%vs. 3.7%vs. 2.7%)。同样,RDV+组中较高比例的患者在住院期间表现出俯卧的身体位置(6.4%比3.5%)(表格) 3)。RDV+组的患者比RDV组的患者发生的院内并发症的发生率更高,包括气胸(6.3%vs. 2.8%),急性冠状动脉疾病(6.4%vs. 2.4%)和胃肠道出血(胃肠道出血(5.5%vs. 2.7%)) 4)。表3无与伦比的队列中住院期间的药理学治疗和支持护理表4在无与伦比的队列中住院期间记录的事件或要求
5
显示了PSM中的混杂因素中包含的这些变量中的组之间的差异。尽管单变量分析表明,SARS-COV-2变体的年龄,医院和周期循环的差异持续存在,但所有措施的标准化平均差异均小于10%,而CCI得分的差异仅为5%(图。 2)。表5倾向评分匹配后的患者特征和治疗
自RDV资格和死亡率结果以来住院时间
比较在RDV+ - 和RDV组中RDV资格后28天生存的概率时,没有发现统计学上的显着差异(81.7%vs. 82.6%;p= 0.395)(图 3)28天的生存概率分别为91.6%和88.9%。在28天,匹配人群中死亡的危险比(HR)为0.73(95%CI,0.56至0.96;pâ= 0.022),RDV为参考组。图显示了两组之间死亡率差异的KM图。 4。RDV+与RDV之间的风险差异和风险比分别为2.7%和0.76,都有利于RDV+组。
讨论
为了应对由Covid-19-19大流行引起的全球健康紧急情况,RDV被重新用于SARS-COV-2,并由FDA和EMA的批准,用于治疗轻度或中度疾病的患者,而那些没有严重疾病的患者则基于可用的证据,而没有严重疾病的患者有很高的风险[7,,,,,8,,,,,9,,,,,24]。但是,需要仔细评估新的治疗解决方案的现实有效性,尤其是通过使用在将来的情况下可能非常有用的新技术。在这项研究中,我们旨在使用RWD评估RDV对西班牙患者群体中与19009相关结局的影响,例如出院时间和院内死亡率。使用一种基于NPL和ML技术的新颖方法,我们提取和分析了EHR中包含的相关临床信息,主要是以非结构化的自由文本的形式,否则在常规的管理文档中无法使用[10,,,,,11,,,,,13,,,,,14]。
为了正确解释研究的结果,必须考虑它们可能源于各种因素,包括RDV的可用性和同时同时使用其他治疗方法。考虑到这些元素,与未接受RDV的倾向评分匹配对照相比,RDV治疗与统计学上显着的住院死亡率降低了37%,患者达到了治疗临床标准(HR 0.63; 95%CI,0.49 0.81;Pâ<0.001;pâ<0.001)。我们的结果不仅支持先前的随机试验的发现,而且还表明,在迄今为止大多数试验中,在大多数试验中,诸如ACTT-1(HR 0.73; 95%CI; 95%CI,0.52至1.03)和WHO的指导试验(13%降低患者的较低率)(在Ppatient In Ppatient Intatient Intatient Intot Intot Intot Intot Intow intow himpertighty中均降低了统计学上的死者对总体研究人群没有显着影响)[7,,,,,24]。此外,最近进行的一项随机对照试验的荟萃分析,包括来自40多个国家 /地区的10,000多名患者的数据,发现RDV在28天内的全因住院死亡率降低了12%,随机分组的全因住院死亡率显着降低,以及在基线呼吸支持和死亡率之间的可信相互作用,尤其是对基本的降低或不需要氧气的氧气或氧气降低的患者,他们的氧气或氧气较低的是0.0均为0.0的人(0.0在0.0上)。25]。我们的结果也与几项非随机回顾性研究的结果一致,这些研究表明RDV有效地降低了住院的Covid-19患者的死亡率。在一项针对51家美国医院的Covid-19肺炎患者的研究中,RDV的住院死亡率总体上升了40%,需要低流量氧的患者降低了37%。
[26]。来自美国大型主要医疗保健数据库的数据显示,经RDV治疗的患者分别为14和28天的院内死亡率降低了24%和12%[27]。在COVID-19(GS-US-540 5773)中,对RDV的3阶段随机试验的数据进行了比较匹配的分析,报告了类似的33%的住院死亡率降低33%。28]。最后,在一项大型研究中,比较接受RDV与倾向评分匹配的对照的患者发现,RDV的总体死亡率降低了17%,需要高流量或非侵入性通风的患者[29]。
RDV以前与ACTT-1试验中的恢复时间更短[7]。但是,该试验排除了预计将在72小时内出院的患者,因此很难将这些发现推断给在常规临床实践中接受RDV的患者[30]。相比之下,一项对美国退伍军人卫生管理局急性护理环境的Covid-19患者的回顾性队列研究表明,RDV治疗与医院出院的时间更长有关,尽管这不太可能是由于治疗相关的作用[31]。在我们的研究中,由于RDV受体和匹配的对照组之间的RDV资格,我们发现住院时间没有显着差异。根据我们的发现,上述最近对随机临床试验的荟萃分析发现,总体而言,RDV对在28天内的住院时间没有影响[25]。
在接受RDV治疗的患者中,此治疗后立即开始,在资格后立即开始使用,留下最少或没有未暴露的人的时间,从而最大程度地减少了不朽的时间偏见的可能性。但是,值得注意的是,有83%的患者在某个时候有资格获得Remdesivir(RDV)的患者没有接受治疗,这可能是由于诸如药物可用性和医院方案变化的因素所致。尽管医师通常会根据严格资格标准开出药物,但在研究时识别RDV符合条件的患者的窗口很狭窄,尤其是当RDV的呼吸道标准与高流量氧支持或通气支持的指示重叠时,这使得在研究时使RDV的患者无权在研究时进行RDV。此外,在大流行期间,患者和有限的资源的迅速恶化通常会导致早期使用非侵入性通气支持策略,这很可能导致当时RDV管理的机会错过了。因此,尽管根据临床实践指南的建议,我们的结果支持,但它们在现实生活中的实施并不总是可行的或容易的。通过回顾性分析EHRead®技术,可以帮助临床医生准确并迅速地实时识别合格的患者,并基于临床指南建议,突出了需要进行连续数据提取和警报系统以改善治疗结果的需求。
Our results highlight the importance of real-world studies and the ability of the EHRead® technology to extract relevant, high-quality data from EHRs using NLP and ML.该技术的潜力已经进行了评估,并且有几个应用领域。NLP has demonstrated its utility in extracting clinical information from unstructured EHRs to develop epidemiological and descriptive analysis as well as predictive models [32,,,,,33]。In addition, there are already NLP platforms with interoperability which can integrate various EHR systems allowing real-time data extractions and analysis that help professionals in patient cohort identification and to improve patient care [34,,,,,35]。Finally, the use of NLP in generating RWE supporting clinical trials is gaining traction, but itâs still evolving in terms of regulatory acceptance by international Agencies.Described use cases are patient recruitment, adverse event detection, and protocol optimization [36,,,,,37,,,,,38]。Moreover, external control arms (ECAs) are gaining attention in drug development as a way to potentially reduce costs and accelerate access to new treatments [39]。
这项使用来自EHR的非结构化自由文本的RWE研究具有多种优势和优势。我们的分析是在西班牙国家卫生系统中进行的,该系统为西班牙公民提供了普遍的医疗保健机会,从而避免了对特定国家进行的其他Covid-19固有研究固有的被保险患者的偏见。然后,参与的医院为他们相应的西班牙卫生领域提供医疗服务,所有居住在集水区的人都可以使用提供的医疗服务。此外,在研究期间,所有西班牙医院都可以使用RDV。In addition, the extraction of unstructured clinical data from EHRs goes beyond the use of International Classification of Diseases (ICD) codes or other structured data alone such as data claims, which are commonly used in other realâworld studies;重用直接从大量EHR的医生那里获得的信息是RWD的丰富来源,它比对照研究或临床试验更好地反映了患者的多样性。Moreover, the use of NLP to recover data is independent of data collection and has been shown to reduce bias and maximize generalizability of EHR research [40]。
尽管在EHRS上部署NLP的优势,但该项目仍需要一些局限性。首先,主要数据源和数据提取方法都可以本质地构成报告和信息偏见。因此,本研究中可能包括各种数据库中缺少或不完整的数据。但是,大量患者有助于减轻缺乏这些变量的可能影响。在这种情况下,在自由文本中未直接描述SARS-COV-2变体,并且根据每个变体占主导地位时的时间窗口来推断此变量。我们也没有足够的解决方案来充分提取和分析治疗持续时间,但是采取了措施来最大程度地减少其潜在差异,从而确保所有纳入的患者都有机会完成治疗方案,即使我们承认并非所有人都可能实际上已经完成了治疗方案。Also, the lack of standardization in EHRs, the use of standard versus proprietary medical terminology, and the omission of information (including vaccination status or accurate onset date of symptoms) or the incorrect use of sections in the registries are potential limitations.在这方面,尽管在西班牙,RDV给药限制了入院症状少于七天的人,但事实证明,该标准在患者选择时应用此标准是不可行的。通常,我们取得了合理的总体绩效。Variables with high precision (>â0.9) demonstrate reliable identification with minimal false positives.这些包括大多数临床变量,确保对这些发现的准确性高信心。Variables with lower precision (<â0.7) were more susceptible to misclassification errors, particularly certain confounders.This misclassification errors could reduce the observed differences between groups and affect matching quality.Reduced matching reliability could either overestimate or underestimate the effect size, depending on the distribution of these errors across the treatment groups.In this regard, the detection of RDV in EHRs by external annotators had low recall, meaning not all mentions of RDV were captured.To address concerns regarding the performance of NLP for detecting mentions of RDV (a critical variable for this study) a dedicated internal annotation project was conducted yielding a Recall of 0.98, a Precision of 1.00, and an F1-score of 0.99 showing limitations in the initial external annotation process for this variable.Finally, while PSM effectively mitigates observed differences between the treatment groups by balancing selected covariates, it is important to acknowledge that the balancing may not be complete.Therefore, the approach cannot guarantee complete comparability due also to the potential influence of unmeasured or inadequately accounted for variables.In this regard, dexamethasone was not included in the PSM model as a COVID-19-specific drug, as its use during the pandemic was guided by broader clinical indications, which may explain its suboptimal balance after matching.Moreover, we lack baseline variables related to respiratory disease severity, and RDVâ+âpatients might have experienced more complications due to being more severely ill initially.However, their better survival suggests that a potential greater baseline severity did not negatively impact outcomes.Future studies should delve into the specific impact of the variants, in other potential factors related to outcomes such as treatment duration, as well as focus on high-risk groups such as patients with hematologic conditions, to better understand the differential effects of RDV treatment.Finally, we did not extract specific data on discharge destination but during the pandemic in Spain, patients predominantly died in acute care hospitals, while hospital discharges were primarily directed to homes or rehabilitation centers, with minimal transfers to palliative care facilities.This context limits the likelihood that discharge destinations significantly influenced our results.
结论
Using NLP and ML we were able to generate RWE on the effectiveness of RDV in COVID-19 patients, confirming the potential of using this methodology to measure the effectiveness of treatments in pandemics.Our results show that RDV is associated with reduced mortality in hospitalized COVID-19 patients.These results in a real-world setting are important to reinforce the concept that adherence to clinical guideline recommendations has prognostic implications in our everyday patients.However, it is important to acknowledge that implementing these recommendations in real-world clinical practice can sometimes be challenging.They further underscore the valuable role of emerging technologies in the healthcare sector, especially during a public health crisis such as a pandemic, to help identify patients eligible for treatment and avoid missed treatment opportunities.
数据可用性
Dataset generated and/or analyzed during the study is the property of Gilead Sciences.Anonymized datasets can be shared upon reasonable request to Miren Taberna from the Savana Research Group (contact email: mtaberna@savanamed.com) through a data sharing document.
缩写
- 人工智能:
-
人工智能
- ALT:
-
Alanine transaminase
- AST:
-
Aspartate aminotransferase
- CCI:
-
Charlson Comorbidity Index
- CI:
-
置信区间
- 新冠肺炎:
-
2019冠状病毒病
- EHR:
-
Electronic health record
- EMA:
-
European Medicines Agency
- ER:
-
急诊室
- FDA:
-
US Food and Drug Administration
- HR:
-
危险比
- ICU:
-
重症监护室
- KM:
-
Kaplan-Meier
- ML:
-
机器学习
- NLP:
-
自然语言处理
- PaO2/FiO2:
-
Arterial oxygen partial pressure to fractional inspired oxygen
- PSM:
-
倾向得分匹配
- Q1, Q3:
-
First and third quartiles
- RDV:
-
Remdesivir
- RDV+â:
-
Patients eligible for remdesivir treatment who received remdesivir
- RDVâ:
-
Patients eligible for remdesivir treatment who did not receive remdesivir
- RR:
-
风险比率
- RWD:
-
现实世界数据
- RWE:
-
现实世界的证据
- SARSâCoVâ2:
-
严重的急性呼吸综合征冠状病毒2
- SD:
-
Standard deviation
参考
WHO Coronavirus (COVID-19) dashboard.https://covid19.who.int/。Baden LR, Rubin EJ.
Covid-19 - the search for effective therapy.N Engl J Med.2020;382(19):1851â2.
文章一个 PubMed一个 Google Scholar一个
Welte T, Ambrose LJ, Sibbring GC, Sheikh S, Mullerova H, Sabir I. Current evidence for COVID-19 therapies: a systematic literature review.Eur Respir Rev. 2021;30(159): 200384.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Wang M, Cao R, Zhang L, Yang X, Liu J, Xu M, Shi Z, Hu Z, Zhong W, Xiao G. Remdesivir and chloroquine effectively inhibit the recently emerged novel coronavirus (2019-nCoV) in vitro.Cell Res.2020;30(3):269â71.
文章一个 PubMed一个 PubMed Central一个 CAS一个 Google Scholar一个
de Wit E, Feldmann F, Cronin J, Jordan R, Okumura A, Thomas T, Scott D, Cihlar T, Feldmann H. Prophylactic and therapeutic remdesivir (GS-5734) treatment in the rhesus macaque model of MERS-CoV infection.Proc Natl Acad Sci U S A. 2020;117(12):6771â6.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
de Wit E, Rasmussen AL, Falzarano D, Bushmaker T, Feldmann F, Brining DL, Fischer ER, Martellaro C, Okumura A, Chang J, et al.Middle East respiratory syndrome coronavirus (MERS-CoV) causes transient lower respiratory tract infection in rhesus macaques.Proc Natl Acad Sci U S A. 2013;110(41):16598â603.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Beigel JH, Tomashek KM, Dodd LE, Mehta AK, Zingman BS, Kalil AC, Hohmann E, Chu HY, Luetkemeyer A, Kline S, et al.Remdesivir for the Treatment of Covid-19 - Final Report.N Engl J Med.2020;383(19):1813â26.
文章一个 PubMed一个 CAS一个 Google Scholar一个
Rubin D, Chan-Tack K, Farley J, Sherwat A. FDA approval of remdesivir - a step in the right direction.N Engl J Med.2020;383(27):2598â600.
文章一个 PubMed一个 CAS一个 Google Scholar一个
First COVID-19 treatment recommended for EU authorisation.https://www.ema.europa.eu/en/documents/press-release/first-covid-19-treatment-recommended-eu-authorisation_en.pdf。Weissler EH, Naumann T, Andersson T, Ranganath R, Elemento O, Luo Y, Freitag DF, Benoit J, Hughes MC, Khan F, et al.
The role of machine learning in clinical research: transforming the future of evidence generation.Trials.2021;22(1):537.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Knevel R, Liao KP.From real-world electronic health record data to real-world results using artificial intelligence.Ann Rheum Dis。2023;82(3):306â11.
文章一个 PubMed一个 Google Scholar一个
Dang A. Real-World Evidence: A Primer.Pharmaceut Med.2023;37(1):25â36.
Lee S, Xu Y, DâSouza A, Martin EA, Doktorchik C, Zhang Z, Quan H. Unlocking the potential of electronic health records for health research.Int J Popul Data Sci.2020;5(1):1123.
PubMed一个 PubMed Central一个 CAS一个 Google Scholar一个
Khosla S, Tepie MF, Nagy MJ, Kafatos G, Seewald M, Marchese S, Liwing J. The alignment of real-world evidence and digital health: realising the opportunity.Ther Innov Regul Sci.2021;55(4):889â98.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Izquierdo JL, Morena D, González Y, Paredero JM, Pérez B, Graziani D, Gutiérrez M, RodrÃguez JM.Clinical management of COPD in a real-world setting.A big data analysis.Arch Bronconeumol.2021;57(2):94â100.
文章一个 PubMed一个 Google Scholar一个
Canales L, Menke S, Marchesseau S, DâAgostino A, Del Rio-Bermudez C, Taberna M, Tello J. Assessing the Performance of Clinical Natural Language Processing Systems: Development of an Evaluation Methodology.JMIR Med Inform.2021;9(7):e20492.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Kurz CF, Krzywinski M, Altman N. Propensity score matching.NAT方法。2024;21(10):1770â2.
文章一个 PubMed一个 CAS一个 Google Scholar一个
Chen JW, Maldonado DR, Kowalski BL, Miecznikowski KB, Kyin C, Gornbein JA, Domb BG.Best practice guidelines for propensity score methods in medical research: consideration on theory, implementation, and reporting.评论。Arthroscopy.2022;38(2):632â42.
文章一个 PubMed一个 CAS一个 Google Scholar一个
Schober P, Vetter TR.Survival analysis and interpretation of time-to-event data: the tortoise and the hare.Anesth肛门。2018;127(3):792â8.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Jung SH, Lee HY, Chow SC.Statistical Methods for Conditional Survival Analysis.J Biopharm Stat.2018;28(5):927â38.
文章一个 PubMed一个 Google Scholar一个
DâArrigo G, Leonardis D, Abd ElHafeez S, Fusaro M, Tripepi G, Roumeliotis S. Methods to analyse time-to-event data: the kaplan-meier survival curve.氧化剂细胞寿命。2021;2021:2290120.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Beis G, Iliopoulos A, Papasotiriou I. An overview of introductory and advanced survival analysis methods in clinical applications: where have we come so far?Anticancer Res.2024;44(2):471â87.
文章一个 PubMed一个 Google Scholar一个
Moolgavkar SH, Chang ET, Watson HN, Lau EC.An assessment of the cox proportional hazards regression model for epidemiologic studies.Risk Anal.2018;38(4):777â94.
文章一个 PubMed一个 Google Scholar一个
WHO Solidarity Trial Consortium.Remdesivir and three other drugs for hospitalised patients with COVID-19: final results of the WHO Solidarity randomised trial and updated meta-analyses.柳叶刀(英国伦敦)。2022;399(10339):1941â53.
文章一个 Google Scholar一个
Amstutz A, Speich B, Mentre F, Rueegg CS, Belhadi D, Assoumou L, Burdet C, Murthy S, Dodd LE, Wang Y, et al.Effects of remdesivir in patients hospitalised with COVID-19: a systematic review and individual patient data meta-analysis of randomised controlled trials.柳叶刀呼吸医学。2023;11(5):453â64.
文章一个 PubMed一个 PubMed Central一个 CAS一个 Google Scholar一个
Diaz GA, Christensen AB, Pusch T, Goulet D, Chang SC, Grunkemeier GL, McKelvey PA, Robicsek A, French T, Parsons GT, et al.Remdesivir and mortality in patients with coronavirus disease 2019. Clin Infect Dis.2022;74(10):1812â20.
文章一个 PubMed一个 CAS一个 Google Scholar一个
Mozaffari E, Chandak A, Zhang Z, Liang S, Thrun M, Gottlieb RL, Kuritzkes DR, Sax PE, Wohl DA, Casciano R, et al.Remdesivir treatment in hospitalized patients with coronavirus disease 2019 (COVID-19): a comparative analysis of in-hospital all-cause mortality in a large multicenter observational cohort.临床感染。2022;75(1):e450â8.
文章一个 PubMed一个 CAS一个 Google Scholar一个
Olender SA, Walunas TL, Martinez E, Perez KK, Castagna A, Wang S, Kurbegov D, Goyal P, Ripamonti D, Balani B, et al.Remdesivir versus standard-of-care for severe coronavirus disease 2019 infection: an analysis of 28-day mortality.Open Forum Infect Diseases.2021;8(7):ofab278.
文章一个 Google Scholar一个
Chokkalingam AP, Hayden J, Goldman JD, Li H, Asubonteng J, Mozaffari E, Bush C, Wang JR, Kong A, Osinusi AO, et al.Association of Remdesivir Treatment With Mortality Among Hospitalized Adults With COVID-19 in the United States.JAMA NetW Open。2022;5(12): e2244505.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Anderson MR, Bach PB, Baldwin MR.Hospital length of stay for patients with severe COVID-19: implications for remdesivirâs value.PharmacoEconomics-open.2021;5(1):129â31.
文章一个 PubMed一个 Google Scholar一个
Ohl ME, Miller DR, Lund BC, Kobayashi T, Richardson Miell K, Beck BF, Alexander B, Crothers K, Vaughan Sarrazin MS.Association of remdesivir treatment with survival and length of hospital stay among US veterans hospitalized with COVID-19.JAMA NetW Open。2021;4(7): e2114741.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Roman Ivorra JA, Trallero-Araguas E, Lopez Lasanta M, Cebrian L, Lojo L, Lopez-Muniz B, Fernandez-Melon J, Nunez B, Silva-Fernandez L, Veiga Cabello R, et al.Prevalence and clinical characteristics of patients with rheumatoid arthritis with interstitial lung disease using unstructured healthcare data and machine learning.RMD Open.2024;10(1):e003353.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Munoz AJ, Souto JC, Lecumberri R, Obispo B, Sanchez A, Aparicio J, Aguayo C, Gutierrez D, Palomo AG, Fanjul V, et al.Development of a predictive model of venous thromboembolism recurrence in anticoagulated cancer patients using machine learning.Thromb Res.2023;228:181â8.
文章一个 PubMed一个 CAS一个 Google Scholar一个
Morales-Casado MI, Diezma-Martin AM, Munoz-Escudero F, Ronsenstone-Calvo S, Mondejar-Marin B, Vadillo-Bermejo A, Marsal-Alonso C, Beneyto-Martin P. Association between myasthenia gravis and Alzheimerâs disease.Rev Neurol.2024;78(2):41â6.
PubMed一个 CAS一个 Google Scholar一个
Benavent D, Benavent-Nunez M, Marin-Corral J, Arias-Manjon J, Navarro-Compan V, Taberna M, Salcedo I, Peiteado D, Carmona L, de Miguel E, et al.Natural language processing to identify and characterize spondyloarthritis in clinical practice.RMD Open.2024;10(2):e004302.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Hsu JC, Wu M, Kim C, Vora B, Lien YTK, Jindal A, Yoshida K, Kawakatsu S, Gore J, Jin JY, et al.Applications of advanced natural language processing for clinical pharmacology.Clin Pharmacol Ther.2024;115(4):786â94.
文章一个 PubMed一个 CAS一个 Google Scholar一个
Tissot HC, Shah AD, Brealey D, Harris S, Agbakoba R, Folarin A, Romao L, Roguski L, Dobson R, Asselbergs FW.Natural language processing for mimicking clinical trial recruitment in critical care: a semi-automated simulation based on the LeoPARDS trial.IEEE J Biomed Health Ins。2020;24(10):2950â9.
文章一个 PubMed一个 Google Scholar一个
Zeng J, Wu Y, Bailey A, Johnson A, Holla V, Bernstam EV, Xu H, Meric-Bernstam F. Adapting a natural language processing tool to facilitate clinical trial curation for personalized cancer therapy.AMIA Jt Summits Transl Sci Proc.2014;2014:126â31.
Zou KH, Vigna C, Talwai A, Jain R, Galaznik A, Berger ML, Li JZ.The next horizon of drug development: external control arms and innovative tools to enrich clinical trial data.Ther Innov Regul Sci.2024;58(3):443â55.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Khurshid S, Reeder C, Harrington LX, Singh P, Sarma G, Friedman SF, Di Achille P, Diamant N, Cunningham JW, Turner AC, et al.Cohort design and natural language processing to reduce bias in electronic health records research.NPJ Digit Med.2022;5(1):47.
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
致谢
Investigators from the Savana Research Group are as it follows: Juan Luis Valdivieso1, Victor Fanjul1, Eduard Sarró1, LucÃa Cabal-Hierro1, Sebastian Menke1, David Casadevall1, Judith MarÃn-Corral1, Natalia Polo1, and Miren Taberna1。1Savana Research S.L., Madrid, Spain.
资金
This study was fully supported by Gilead Sciences.
道德声明
道德批准并同意参加
This study was classified as a ânon-interventional post-authorization studyâ by the Spanish Agency of Medicines and Health Products and was reviewed and approved by the Drug Research Ethics Committee of the Balearic Islands (IB 4731/21 EOm) as the reference Ethics Committee.All methods and analysis followed legal and regulatory requirements and generally accepted research practices described in the latest edition of the Declaration of Helsinki, Good Pharmacoepidemiology Practices, and applicable local regulations.Informed consent was waived by the Drug Research Ethics Committee of the Balearic Islands, as data were retrospectively analyzed from patient EHRs, anonymized, and aggregated in an irreversibly dissociated manner.Data collection and assessment were obtained as part of routine clinical activity and performed in a blinded manner.
Consent for publication
不适用。
竞争利益
JRA reports personal fees from Viiv, Janssen, Gilead, MSD, and Aelix outside the submitted work.MPRS, LPH received personal fees from Gilead for patient review.RDMB reports personal fees (speaker fee and congress attendance grants) from Viiv, and Gilead.CDAP and PJBSC are employees of Gilead Sciences.FFL, BDP, PGRP, AFB, and MRJ declare no competing interests.
附加信息
Publisherâs Note
A list of authors and their affiliations appears at the end of the paper.
补充信息
权利和权限
开放访问This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License, which permits any non-commercial use, sharing, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if you modified the licensed material.您没有根据本许可证的许可来共享本文或部分内容的改编材料。The images or other third party material in this article are included in the articleâs Creative Commons licence, unless indicated otherwise in a credit line to the material.If material is not included in the articleâs Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder.要查看此许可证的副本,请访问http://creativecommons.org/licenses/by-nc-nd/4.0/。重印和权限
引用本文
Arribas López, J.R., Ruiz Seco, M.P., Fanjul, F.
等。与住院Covid-19患者死亡率降低相关的REMDESIVIR:使用现实世界数据和自然语言处理的治疗效率。BMC Infect Dis25 , 513 (2025).https://doi.org/10.1186/s12879-025-10817-6
已收到:
公认:
出版:
doi:https://doi.org/10.1186/s12879-025-10817-6