深度学习从 EHR 中识别个人和家族的自杀想法和行为史 |npj 数字医学 - Nature.com

2024-09-29 00:13:20 英文原文

摘要

自杀想法和行为的个人史和家族史(分别为 PSH 和 FSH)是与自杀相关的重要危险因素。研究仅限于从电子健康记录中的临床记录中自动识别此类数据。本研究开发了深度学习 (DL) 工具,利用 Transformer 模型(Bio_ClinicalBERT 和 GatorTron)来检测来自三个学术医疗中心的临床记录中的 PSH 和 FSH,并将其性能与基于规则的自然语言处理工具进行比较。对于检测 PSH,基于规则的方法获得的 F1 得分为 0.75 ± 0.07,而 Bio_ClinicalBERT 和 GatorTron DL 工具的得分分别为 0.83 ± 0.09 和 0.84 ± 0.07。在检测 FSH 方面,基于规则的方法获得了 0.69 ± 0.11 的 F1 分数,而 Bio_ClinicalBERT 的 F1 分数为 0.89 ± 0.10,GatorTron 的 F1 分数为 0.92 ± 0.07。在各个网站上,深度学习工具识别出超过 80% 的自杀风险较高的患者仍未得到诊断和治疗。

其他人正在查看类似的内容

简介

<自杀是全球一项重大的公共卫生挑战,是 15 至 29 岁人群的第二大死因1。根据疾病控制与预防中心的报告,在美国,它是第十大死因,在 10 至 34 岁人群中排第二位。2020 年,根据年龄和性别差异进行调整后,美国退伍军人高危人群的自杀率是非退伍军人成年人口的 1.57 至 1.66 倍3。然而,由于多种原因,有自杀风险的患者往往仍未得到充分诊断,例如与心理健康问题相关的耻辱以及诊断代码在捕捉心理健康状况复杂性方面的局限性4。识别警告信号并通过有效的早期干预措施解决风险因素对于预防自杀和促进心理健康至关重要5,6,7,8。自杀想法和行为的个人史和家族史(分别为 PSH 和 FSH)会显着增加未来的自杀风险,强调识别这些因素的重要性9,10。

根据现有文献,自杀想法和行为(STB)广泛涵盖与自杀和自残相关的思想、行为、行动和情绪11。STB 有多种表现形式,包括自杀意念 (SI)、自杀行为 (SB) 和自杀未遂 (SA),每种形式对个人都有不同的影响。SI 包含对死亡和自杀的一系列想法和关注,其强度从转瞬即逝的想法到详细的计划不等12。尽管其定义可能有所不同且经常演变,但 SB 通常指的是任何具有潜在致命性的自我导向行为,范围从准备行为到已完成的自杀11。因此,开发有效的方法来识别经常被诊断不足的 STB 患者,以改善自杀预防和治疗的管理至关重要。

了解、预测和预防 STB 是一项复杂且具有挑战性的任务。多年来,人们在开发和测试针对各种人群的机顶盒风险评估工具方面做出了巨大努力13。现有工具在区分低风险和高风险患者方面可靠性不足,阳性预测值 (PPV) 较低14。此外,这些工具大多数都提供较长时间窗口(例如 6 或 12 个月)的 STB 风险评估,这对于自杀预防干预措施的临床效用有限13。Mann 等人表示,这需要更新的方法,例如电子健康记录派生算法、基于互联网的筛查方法以及氯胺酮对于预防尝试的潜在益处15。最近,随着患者电子健康记录 (EHR) 的出现以及自然语言处理 (NLP)、机器学习 (ML) 和深度学习 (DL) 等计算方法的进步,有机会开发自动化工具来评估实时干预机顶盒风险。实时识别风险因素应该是任何自动化风险评估工具的关键组成部分。这种自杀风险预测和预防工作最突出的例子是退伍军人健康管理局的 REACH VET(健康退伍军人增强治疗康复参与和协调)计划16,17。REACH VET 计划自 2017 年开始实施,使用机器学习模型来识别自杀高风险患者。该模型的输入是来自退伍军人健康记录的 61 个风险变量。每个患者都会收到风险评分,那些属于最高 0.1% 风险层的患者被确定接受干预。然而,该风险模型仅使用 EHR 中可用的结构化数据,并报告了从 0.836(所有卫生系统)到 0.634(精神病住院机构)不等的 C 统计数据。EHR 中的临床记录是临床医生在与患者接触时可获得的另一项重要信息,可以显着提高任何风险评估工具的预测价值18。

EHR 已广泛用于研究表型和风险预测模型19。值得注意的是,大多数自杀者在死亡前一年曾就诊,45% 在生命的最后一个月曾就诊,这突显了 EHR 数据在自杀风险预测和预防方面的潜力20。虽然 EHR 中的国际疾病分类 (ICD-9/10) 诊断代码用于记录 STB,但事实证明单独使用它们是不够的21。这种不足部分是因为 STB 的个人史和家族史等详细信息通常仅记录在临床记录中,而不是 ICD-9/10 诊断代码中。ICD-9 编码系统没有定义诊断代码来记录 STB 的历史情况。2016 年,当 ICD-10 编码系统在美国正式采用时,个人自残史才被引入。对于家庭自杀史,ICD-10 引入了 z81.8 作为家庭中自残的代码。然而,FSH 通常被认为是一个危险因素,许多医生可能不愿意使用此代码进行诊断。NLP 和 ML/DL 技术有望有效地挖掘临床记录,以获取结构化数据中不易获得的信息。最近,基于变压器的架构促进了高性能模型的构建,并且微调使得有效利用这些模型来完成各种任务成为可能。由于这些语言模型(例如 BERT、ChatGPT、LLaMA、FLAN)是使用非常大的数据集进行训练的,因此它们拥有上下文知识,并且使用特定问题的数据对其进行微调可以实现性能的显着提高22。特别是,BERT(来自 Transformers 的双向编码器表示)模型有效地捕获了关键临床概念与其周围环境之间的交互,并在包括文本分类在内的各种 NLP 任务中表现出了卓越的性能23。

自动化方面的进步从临床记录中检测 STB 已显示出不同程度的成功24、25、26、27、28、29、30、31、32、33。这些方法,从基于规则的算法到机器学习技术,主要侧重于识别自杀倾向,而不区分当前事件和历史事件。费尔南德斯等人。开发了一种 NLP 方法,使用精神病学临床研究数据库来检测 SI 和 SA,但不区分当前事件或历史事件29。同样,卡森等人。开发了一种机器学习方法来识别精神病住院青少年中的 SB,但分类器被训练来检测 SB,而不区分这些事件是当前的还是历史的25。此前,我们还报道了一种用于检测当前 SI28 的弱监督 NLP 方法。迄今为止,还没有专门针对 STB 的个人和家族史的研究报告,尽管此类信息可能提供重要但不同的见解。我们的研究通过开发和评估基于 NLP 和 DL 的新型工具来解决这一差距,这些工具可从临床叙述中检测 PSH 和 FSH,并在美国三个学术医疗中心的不同患者群体中进行了测试。

结果

所有三个研究中心的患者群体均以女性为主:WCM 为 60.4%,NM 为 63.3%,UF 为 67.7%。该研究涉及检查 WCM 134 名患者的 301 份笔记、NM 313 名患者的 400 份笔记以及 UF 341 名患者的 400 份笔记。值得注意的是,各个站点的人口统计差异(表 1)很明显,特别是在年龄、种族和民族方面。与 NM (17.9%) 相比,WCM (32.8%) 和 UF (33.4%) 中老年患者(60 岁或以上)的比例更高。与 WCM (7.5%) 和 NM (14.1%) 队列相比,UF 队列 (36.4%) 的黑人患者代表性更高。此外,与 WCM 和 NM 中心相比,UF 中心观察到的非西班牙裔患者比例更高(96.2% vs 89.6% 和 81.5%)。根据病历中的 ICD-9/10 代码,在所有中心,超过 90% 的患者没有记录的 STB 诊断记录(无论是预先存在的还是与记录日期同时存在的)。

基于规则的 NLP 工具在不同站点上表现出不同的性能(表 2)。具体而言,根据相应的黄金标准进行评估时,PSH 的宏观平均 F1 分数范围为 0.81 至 0.63,FSH 的宏观平均 F1 分数范围为 0.80 至 0.58。值得注意的是,WCM 记录了这两项结果的最高表现。UF 的 PSH 性能最低,主要是由于召回率降低了 0.60。同样,对于 FSH,NM 的性能最低,主要是因为召回率较低,为 0.44。

基于 DL 的工具的性能如表 3 所示。对于 PSH,利用基于 Bio_ClinicalBERT 的模型WCM、NM 和 UF 的 F1 分数分别为 0.88、0.73 和 0.88。相比之下,基于 GatorTron 的模型在 PSH 方面表现出了卓越的性能,在 WCM、NM 和 UF 上的 F1 分数分别为 0.92、0.78 和 0.83。

对于 FSH,两种方法都显示出相当的有效性:Bio_ClinicalBERT基于 GatorTron 的 DL 在 WCM、NM 和 UF 的 F1 分数分别为 0.88、0.81 和 1.00,而基于 GatorTron 的 DL 在 WCM、NM 和 UF 的分数略高,分别为 0.88、0.90、1.00。

在 134 名患者的 WCM 队列中,虽然手动注释确定了 45 名 (33.6%) 名患有 PSH 的患者和 14 名 (10.4%) 名患有 FSH 的患者,但只有 1 名 (2.2%) 名 PSH 患者和 1 名 (7.1%) 名患者患有 FSHFSH 患者在记录报告日期或之前有相关的 ICD 代码。ICD-9 代码 950.3(镇静剂和其他精神药物自杀和自残中毒)观察到一名被 NLP 分类器明确识别为有自杀家族史的患者。相反,基于深度学习的 GatorTron 工具从患者记录中准确检测出 42 例 (93.3%) 的 PSH 病例和 12 例 (85.7%) 的 FSH 病例。FSH 不存在 ICD 代码,无法直接比较 EHR 中诊断不足的情况。在 313 名患者的 NM 队列中,虽然手动注释识别出 97 名 (31.0%) 名 PSH 患者和 57 名 (18.2%) 名 FSH 患者,但只有 9 名 (9.3%) 名 PSH 和 6 名 (10.5%) FSH 患者有 STB 的 ICD 代码或在注释报告日期之前。然而,GatorTron 从笔记中成功识别出 78 例(80.4%)PSH 病例和 51 例(89.5%)FSH 病例。在 341 名患者的 UF 队列中,手动注释确定了 64 名患有 PSH 的患者和 12 名患有 FSH 的患者。其中,只有 5 名(7.8%)PSH 和 0 名 FSH 患者在注释报告日期或之前有 SI 或 SB 的 ICD 代码。GatorTron,成功识别出 57 例 (89.0%) 的 PSH 病例和 12 例 (100%) 的 FSH 病例。

讨论

患有 PSH 或 FSH 的个体风险增加以防未来发生自杀事件。然而,现有的 STB 检测方法均未专门研究这些事件的历史性质。我们开发了基于规则的 NLP 和 DL 工具,从临床记录中检测 PSH 和 FSH,并根据临床诊断比较结果。通过与来自美国三个不同学术医疗中心的具有不同特征的患者的手动注释临床记录进行比较,对算法进行了验证。对于 PSH 和 FSH,DL 方法在所有三个站点都显示出比基于规则的 NLP 方法更高的性能。鉴于之前从临床记录中检测 STB 的努力并未专门关注自杀的历史方面,因此将我们当前工具的性能与现有文献进行直接比较是不可行的。费尔南德斯等人。开发了一种使用精神病学临床研究数据库检测 SI 和 SA 的 NLP 方法,报告 SI 的灵敏度为 0.88,精度为 0.92,SA29 的灵敏度为 0.98,精度为 0.83。报告的研究采用了基于规则的 NLP 和 ML 方法来识别 SI 和 SA。此外,使用弱监督 NLP 方法,我们小组最近报告的当前 SI28 的 F1 分数为 0.82。本研究中实施的基于规则的 NLP 排除了所有历史提及的 SI。同样,卡森等人。开发了一种 ML 方法,使用从临床记录中提取的术语来识别精神病住院青少年中的 SB,并报告敏感性为 0.83,特异性为 0.22,AUC 为 0.6825。该研究分析了 73 名青少年患者自杀未遂的临床记录,这些患者是从入院前一年内自杀未遂的自我报告调查中选出的。通过 NLP 从临床记录中提取相关术语,映射到相应的 UMLS CUI,并用于训练和测试多个基于 ML 的自杀企图分类器。虽然当前基于规则的工具在开发站点 (WCM) 表现出良好的性能,但其在外部站点(NM 和 UF)的性能较低,表明还有进一步改进的空间。另一方面,基于 Transformer 的 BERT 模型在开发站点和外部站点上都具有相当的性能,使其成为检测 STB 历史的更好选择。此外,基于深度学习的工具针对每个站点相对较少数量的笔记(黄金标准语料库)进行了微调,从而减少了所需的总体开发工作。相比之下,基于规则的 NLP 工具依赖于手动定义词典并使用大型开发语料库实现特定规则集的迭代过程。

三个站点的错误分析进一步表明,文档实践差异很大报告 STB 的历史情况时。例如,在 NM,使用时间戳记录自杀事件的笔记占了大部分假阴性案例,并导致召回率较低。这包括 xx/xx 周因服药过量自杀企图住院、xx/xx/xxxx 自杀意念以及 xxxx 自杀企图等示例。在 NM 和 UF 中,由于注释者根据某些不符合我们在 NLP 算法中建立的概念修饰符规则的语句来解释 STB 的历史,因此出现了一些 PSH 的假阴性情况。例如,提及过去的特定日期,例如谁在 xx/xx 因被动自杀意念到急诊室就诊后向 NNNNN 提出抑郁症药物治疗。、不再有自杀倾向和自杀企图:他唯一的自杀企图是作为青少年。PSH 的误报主要是由于当文档中多次提及自杀史时我们应用的启发式规则的不足。例子包括 先前的自杀企图:无 先前的自残:无 先前的自杀意念:当前 先前的暴力行为:无 自杀/杀人意念/行为史:Pt 否认。就 FSH 而言,在 NM 和 UF 中,我们在 NLP 算法中建立的(族)概念修饰符规则被发现不足以捕获一些记录的 FSH 案例。假阴性的例子包括家庭精神病史:母亲 - 抑郁症曾祖父 - 自杀,她赞同患者在巨大压力下(父亲企图自杀、结婚和目前)时出现的一些精神病症状。误报的例子包括家族史未知:是 哥伦比亚自杀严重程度评定量表 哥伦比亚自杀严重程度评定量表 (C-SSRS),以及 有自杀意念的亲戚或朋友?是的,养父在她 xx 岁时自杀了。

我们开发的深度学习工具证明了对三个站点中不同文档实践和患者群体的稳健性。我们分析了 WCM、NM 和 UF 不同医疗保健环境中的临床记录,以了解不同医疗环境和临床环境中的记录实践。WCM队列主要来自普通门诊,重点关注心理健康疾病和健康维护,并详细记录个人和家庭健康史,包括心理健康和自杀指标。在 NM,数据涵盖了更广泛的环境,包括急诊室、住院和门诊服务。急诊室和住院病人的记录通常会捕捉到更直接和更严重的健康问题,可能包括突发的个人心理健康危机,例如机顶盒。教育部指出,虽然内容全面,但家庭心理健康细节各不相同。NM 的门诊记录与 WCM 类似,可能包括患者的全面健康史,但根据临床医生的专业和门诊就诊的主要原因,包含不同程度的心理健康详细信息。在佛罗里达大学,临床记录是专门从至少 1 次门诊就诊并在门诊开出阿片类药物的患者收集的。在这种情况下,提供者的说明预计将集中于肿瘤护理、治疗计划和随访。然而,这些笔记也可以成为有关患者心理健康的丰富信息来源,因为处理癌症诊断可以显着影响心理健康。考虑到癌症对患者及其家人的深刻的情感和心理影响,在这种情况下,明确提及 STB 个人或家族史的可能性可能更高。尽管笔记源自不同的临床环境,但 DL 方法在三个地点的性能相当,表明该方法在从临床笔记中检测 STB 病史方面具有普遍适用性。

先前的研究表明研究表明,重大精神疾病、以前的自杀企图、想法和行为以及家庭成员的自杀行为是未来自杀事件的主要风险34,35。因此,收集个人、家庭和社区层面的自杀风险相关数据对于开发有效的自杀风险评估工具至关重要。为了具有实际用途,此类工具将足够简短,可以在初级保健或精神病学环境中进行,并且将确定应采取预防措施的阈值。尽管医生可以访问每个患者的临床记录,但手动查看数以百计的记录在技术上具有挑战性,并且诸如 STB 病史等信息可能会被忽视。近年来,人们利用从临床记录中提取的信息开发机顶盒风险预测工具。在一项病例对照研究中,Levis 等人调查了使用 ML 模型将 NLP 提取的数据纳入自杀风险预测的潜在影响。发现从临床记录中得出的变量确实提高了预测性能18。同样,Adamou 等人。利用文本挖掘技术实施机器学习算法来预测在指定时间内哪些人在转诊至心理健康服务机构时最有自杀风险,并发现包括从笔记中提取的临床变量可显着提高风险预测性能36。比塔尔等人。发现在自杀风险预测模型中包含文本特征以及来自 EHR 的结构化数据可显着提高预测性能37。本-阿里等人。使用随机森林方法,使用从 250,000 名退伍军人的临床记录中提取的数据来预测 10 年期间的 STB,并报告 ROC 为 0.8638。同样,麦考伊等人。采用回归模型来预测出院后的自杀或意外死亡,发现纳入从叙述性出院笔记中提取的变量可以改善自杀死亡风险的分层39。然而,这些报告的研究都没有从注释中提取 PSH 或 FSH 作为临床变量之一,或将它们作为任何风险预测模型的一部分。在这方面,目前从临床记录中提取 PSH 和 FSH 的研究对于开发和实施更有效的自杀风险预测模型具有重要作用。

之前的研究表明,心理健康状况没有被充分记录为结构化 ICD 或EHR 中的 SNOMED 代码,但更有可能记录在患者笔记中40。我们之前的研究发现,在通过基于 NLP 的方法确定为具有测量抑郁严重程度的临床仪器 PHQ-9 评分的患者中,31% 的评分表明重度抑郁症,但缺乏相应的结构化 ICD 或 SNOMED 诊断代码41。该研究使用 Epic 中对应于以 311.*、300.4*、292.2* 或 292.3* 开头的 ICD-9 代码以及 ICD-10 代码 F32.* 和 F34.1* 的界面术语来定义抑郁症的一般情况。特别是对于重度抑郁症,该研究使用了对应于 ICD-9 代码 292.2 或 292.3 以及 ICD-10 代码 F32.* 的界面术语项目。EHR 中诊断代码的来源包括患者问题列表、病史、遭遇诊断和计费诊断。目前的研究揭示了仅依赖 ICD 代码时类似的漏诊模式。观察到的 STB 低 ICD 代码可能是由多种因素造成的。在 WCM 和 UF,我们的队列部分由在 ICD-9 编码系统仍用于诊断记录期间接受护理的患者组成,其中没有 PSH 或 FSH 的特定代码。我们还应该指出,传统上 ICD 代码在 EHR 中主要用于计费目的。临床医生并不总是报告特定健康状况的 ICD 代码,因此进一步强调了从临床记录中提取与 PSH 和 FSH 相关信息的重要性。在这项研究中,我们从临床文档的角度调查了诊断不足的情况,我们研究了 EHR 数据集中 PSH 和 FSH 的 ICD 诊断代码的可用性。我们没有考虑临床医生何时以及在什么条件下应该诊断 STB 的更广泛问题,这超出了我们当前研究的范围。

虽然全面的讨论超出了本研究的范围,但诊断不足STB 的增加也是与精神健康疾病和自杀相关的耻辱和歧视的结果。患有精神疾病和有自杀倾向的人所遭受的耻辱和歧视是有据可查的4,42。在记录电子病历并向患者及其家属传达诊断信息时,医生经常面临着在特定情况下何种信息水平合适的相互冲突的生物伦理考虑。医生可能不愿意给出诊断代码,因为担心诊断代码会因耻辱和歧视而对个人产生影响。特别是,自我耻辱(当负面刻板印象内化时发生)导致低自尊、羞耻和绝望,可能会阻碍个人向心理健康专业人士寻求帮助。

当前的研究,同时推进了这一领域通过多站点方法使用 NLP 和 DL 工具进行自杀倾向检测面临着一些限制。首先,STB 和历史修饰符的词典受到限制,导致外部站点的性能不佳,因为缺少特定于这些位置的关键字。这个问题在自残行为识别中尤为明显,其中存在不同的操作定义,并且切割和燃烧等行为没有统一记录。请注意,我们在开发过程中从词典中排除了诸如切割和燃烧之类的术语,因为这些术语可能出现在机顶盒之外的各种其他环境中。然而,这些术语也可能出现在患者出现危及生命的自残行为的情况下,并且可能对算法的性能产生不利影响。词典的本地定制可以提高算法的准确性。其次,基于规则的 NLP 和 DL 工具在三个学术医疗机构进行了测试,这可能无法反映更广泛的医疗保健系统。虽然 NM 的数据涵盖了不同的临床环境和专业,但在不同背景下进行更广泛的测试对于确认我们工具的功效和适应性至关重要。第三,现代 EHR 系统使用预定义的模板组件来组织和记录临床记录。这些模板包含在笔记中的程度在三个站点中差异很大。虽然 WCM 和 UF 的笔记大多采用自由文本格式,很少或没有模板组件,但 NM 的笔记呈现出半结构化和非结构化格式的混合,具体取决于笔记类型。我们基于规则的 NLP 算法没有考虑到可能的模板结构,可能会对性能产生负面影响。

总之,我们的研究强调了基于规则的 NLP 和 DL 工具在识别个人和数据方面的巨大潜力。STB 家族史,通常仅记录在各种 EHR 系统中的自由文本注释中。这种方法标志着在自杀预防工作中开发有效风险预测模型的重要一步。我们的研究结果表明,传统的结构化信息收集方法可能会漏掉高达 90% 表现出自杀想法或行为的患者,因为这些往往只在非结构化临床记录中提及。对于其中约 80% 的案例,我们开发的模型证明可以有效提取这些关键信息,强调了这些工具在增强心理健康评估方面的价值。与基于规则的 NLP 相比,基于 DL 的方法在不同的医疗保健系统中实现了更高、更稳健的性能。未来的工作包括开发和测试实用的 STB 风险预测模型,其中包括 PSH、FSH 以及临床记录中健康的社会和行为决定因素等信息作为潜在预测因素的一部分。为此,我们小组已经实施了多个机器学习模型,使用 EHR 中的结构化数据(未发表的工作)来预测服用阿片类药物的患者发生 STB 的风险。

方法

研究设置和数据来源

基于规则的 NLP 和 DL 工具是在三个学术医疗中心开发和验证的:威尔康奈尔医学中心 (WCM)、西北医学中心 (NM) 和佛罗里达大学健康中心 (UF),以增强我们工具的通用性和可移植性。这项多中心研究是在威尔康奈尔医学机构审查委员会(协议号 22-05024878)、西北大学机构审查委员会(协议号 STU00218389)和佛罗里达大学机构审查委员会(协议号)的批准下进行的。No. IRB202001100),确保遵守道德标准和患者隐私法规。由于在回顾性队列研究中获得大量患者的同意是不切实际的,因此放弃了知情同意书。为了增强 NLP 和 DL 工具的通用性,我们收集了来自门诊门诊服务、急诊科 (ED)、多个专业住院护理的不同患者群体的临床记录。对于 PSH,我们使用 Bio_ClinicalBERT 和 GatorTron Transformer 模型实现了基于规则的 NLP 方法和两种 DL 方法。同样,对于 FSH,我们使用 Bio_ClinicalBERT 和 GatorTron Transformer 模型实现了基于规则的 NLP 方法和两种 DL 方法。在每个站点的黄金标准语料库中,我们收集了人口统计数据并记录了各个患者的 SI 和 SB 诊断。

本研究的训练数据来自纽约学术医疗中心 WCM市附属纽约长老会医院。该数据集包含超过 1380 万条临床记录,这些记录来自 2000 年至 2020 年间服用抗抑郁药物或被诊断患有精神健康问题的患者 (N = 177,993)。临床记录包括进展记录(49.4%)、电话咨询(32.3%)、患者指示(2.1%)、信件(2.0%)、护理记录(0.4%)和未知类型(13.8%)。这些笔记由内科、精神病学、麻醉学和疼痛医学等不同专业的临床医生撰写,提供了丰富的、非结构化的信息集合,反映了临床环境的多样性和所提供细节的可变性水平。当用字符串自杀的过滤器查询这1380万条笔记时,结果是194,204条笔记,我们从中随机选择了1,301条笔记。在 1,301 个笔记中,有 1000 个笔记用于开发基于规则的 NLP 方法。其余 301 个笔记用于制定评估 NLP 方法的黄金标准。DL 工具的培训和测试使用了相同的黄金标准。

NM 是位于伊利诺伊州芝加哥的综合性学术医疗中心。NM 企业数据仓库是一个集成数据平台,可提供对所有住院和门诊环境中的临床和辅助数据源的安全、集中访问。它整合了西北纪念医疗保健中心、西北大学范伯格医学院和西北医学地区医疗集团的数据。用于验证研究的 400 条笔记是从 2018 年 1 月至 12 月期间的集成系统中随机收集的。黄金标准语料库由 3 个(1%)评估组成

关于《深度学习从 EHR 中识别个人和家族的自杀想法和行为史 |npj 数字医学 - Nature.com》
暂无评论

摘要

摘要自杀想法和行为(分别为 PSH 和 FSH)的个人史和家族史是与自杀相关的重要危险因素。这种不足部分是因为 STB 的个人史和家族史等详细信息通常仅记录在临床记录中,而不是 ICD-9/10 诊断代码中。临床医生并不总是报告特定健康状况的 ICD 代码,因此进一步强调了从临床记录中提取与 PSH 和 FSH 相关信息的重要性。总之,我们的研究强调了基于规则的 NLP 和 DL 工具在识别 STB 个人和家族病史方面的巨大潜力,这些病史通常只记录在各种 EHR 系统中的自由文本注释中。51, 13821391 (2021)。Pathak, J., Kho, A. N.