作者:Taylor, Casey Overby
不良怀孕结果是一个重大的公共卫生挑战,带来了围产期并发症和死亡率的风险,对母亲和婴儿健康产生了深远的影响1,,,,2,,,,3,,,,4。在这些结果中,早产,低出生体重和母体并发症(例如先兆子痫)是美国婴儿死亡率的主要因素1。
SDOH涵盖了个人出生,生活,工作和年龄的各种环境和社会条件,从根本上塑造了他们的整体健康状况5。被世界卫生组织视为卫生公平的关键驱动力6,SDOH在怀孕期间直接影响母亲和婴儿的健康。研究表明,包括提供商信任在内的社会因素会严重影响对产前护理建议的依从性,揭示了社会决定因素与怀孕结果之间的复杂关系1。
尽管它们的重要性,但相关的社会风险信息通常不会被临床团队所忽视,被患者报道不足,并且在结构化数据字段中没有充分记录。7,,,,8,,,,9,,,,10。此信息通常嵌入自由文本字段或EHR中的非结构化数据中,对系统识别和分析提出了挑战10,,,,11。从临床笔记中手动提取SDOH是资源密集且昂贵的,要求人类注释者可以浏览临床语言和大量数据的复杂性。利用NLP技术为自由文本字段自动提取SDOH提供了有希望的途径,解决了丢失数据的问题并简化了数据分析7。
NLP的最新进展改变了SDOH从临床叙述中的自动提取。深度学习(DL)模型,例如临床BERT和大型语言模型(LLMS),在捕获医学文本中的上下文细微差别方面表现出强烈的表现,并从EHR和临床注释中识别出广泛的SDOH因素7,,,,8,,,,9,,,,10,,,,11,,,,12,,,,13,,,,14,,,,15,,,,16,,,,31。同时,基于规则的方法在某些SDOH域中的解释性和效率仍然很有吸引力11,,,,14。例如,Lituiev等。7慢性疼痛患者的SDOH提取的DL模型,而Guevara等人。10,Ong等。31,Keloth等。16探索了LLM用于多域SDOH识别的使用。最近的系统评价(Patra等。14)和挑战(N2C2/UW SDOH共享任务:Lybarger等。12)强调了可用的技术方法的多样性,从关键字驱动的管道到先进的神经体系结构。但是,现有工作的大多数主要集中在单个数据集中的提取性能上,跨数据库评估有限,并且仅偶尔将提取的SDOH因子与临床意义上的有意义的结果(如孕产妇健康)进行了联系。
这项研究通过三个关键创新弥合了这些差距。首先,我们比较基本的基础,以推进基于NLP方法的关键字处理,Word2VEC嵌入和临床Bertâ,以确定从重症监护室(MIMIC-III)的医学信息MART中提取社会支持,职业和药物使用信息的最佳方法。其次,我们使用来自MIMIC-IV的外部数据在外部评估我们的模型,证明了稳定的跨数据集概括性。第三,我们量化了NLP衍生的SDOH因素与妊娠并发症之间的关联,为临床风险分层提供了宝贵的见解。我们的工作通过建立一个可扩展的框架将社会决定因素整合到孕产妇健康研究中,该框架将非结构化的临床文本转化为预测性见解。
从112,600个模拟物注释中,获得了86个符合所有包容性和排除标准的注释,包括78个复杂妊娠的注释,正常怀孕的注释为“ 4(图”) 1一个)。对于外部评估,从模拟物IV中提取了171个注释(在331,793个注释中)(图。 1b),在应用相同的标准后,包含154例复杂和17个正常妊娠。图 1显示两个数据集的纳入标准和注释协议。图1
三名研究团队成员(NS,JS,MB)独立注释了模拟IV外部评估集,每个注释至少由两个研究成员注释。成对注释的Cohen s Kappa(®)得分范围从中度到接近完美的一致性不等17。该协议因SDOH类别而异。实质性使用注释达成了接近完美的一致性(MB&ns:®= 0.83; JS&ns:_ = 0.80; mb&js:_ = 0.708),可能是由于明确的文件引起的(例如,拒绝吸烟)。职业注释也表现出一致性(MB&ns:= 0.91; JS&ns:®= 0.78; MB&js:îº= 0.781)。社会支持协议略有不同(MB&ns:®= 0.86; JS&ns:®= 0.632; MB&js:_ = 0.723),强调了对上下文感知的NLP模型来处理隐式社会描述者的需求。
桌子 1比较来自模拟III和模拟IV的受试者的人口统计学特征。这两个数据集都表现出相似的年龄分布,大多数患者在21至39岁之间(模仿III中为70%,模拟IV中为84%)。保险范围模式显示出显着的差异:虽然模仿III的非私人覆盖率略高(59%),但模仿IV在私人(50%)和非私有化(50%)覆盖范围之间具有平均分布。同伙之间的入院原因有很大差异。模仿III患者主要通过急诊室(50%)接受,而模拟于IV患者的医师转诊率更高(67%),这表明向门诊分类转移。种族代表也发生了变化,与模仿-III相比,模拟于IV的非白人患者比例更高(58%)(36%)。婚姻状况相对一致,与模仿-IV相比(48%),在模仿III中观察到的已婚患者略少。总体而言,这些人口统计分布强调了患者特征的一致性和时间变化,支持了测试NLP模型在这些不同数据集中提取SDOH的普遍性的必要性。
表中显示了模拟模型的不同模型性能的结果 2,这帮助我们确定了每个SDOH类别的表现最佳模型。
对于社会支持,关键字处理方法表现出相对较高的精度(0.83),表明对积极实例有很大的识别。但是,召回率较低(0.73),表明一些错过的社会支持案件。这种不平衡得出的F1得分为0.77。在测试的分类器(RF,SVC,DT)中,使用Word2Vec嵌入,DT获得了最平衡的性能,精度为0.74(Precision = 0.81,召回= 0.73)。尽管中等指标,但一定比例的社会支持提到仍未被发现,表明对临床笔记中的小措辞差异的敏感性。与DT分类器配对时,临床BERT衍生的嵌入式社会支持的总体准确性最高(0.79),其精度为0.84,召回0.78,F1得分为0.80。这种改善的性能强调了上下文嵌入在捕获社会或家族网络的细微迹象中的价值。
为了提取职业,基于规则的模型产生了高精度(0.79)和召回(0.80),而F1得分为0.79。带有RF的Word2Vec的性能优于SVC和DT,精度为0.71。但是,精确度仍然低于所需的,这反映了从零星或间接指定的信息中识别职业状况的挑战。临床Bert提供了适度的收益,但模型在精确方面挣扎,表明很难区分当前和缺席的职业提及。
为了使用物质,基于规则的方法的精度为0.77,精度为0.61,召回0.70,F1得分为0.65。虽然可靠地发现了明确的关键字(例如“拒绝吸烟”),但偶尔会错过更微妙的变化,影响精度和F1。使用Word2Vec方法,RF以0.78精度,0.80精度和0.79的F1脱颖而出,表明在识别和正确分类的物质使用提及时表明性能平衡。使用临床BERT,RF分类器同样达到了最高的精度(0.75)。但是,在不同的分类器中观察到精度和召回的变化。
总体而言,临床伯特的上下文嵌入在捕获细微的语言(例如“家庭访问”,“庇护所支持”)方面非常出色,以提取社会支持。简单的基于规则的(关键字)匹配效果很好地检测显式职业术语(例如,“ as/in in in”)。为了使用物质,使用Word2Vec有效捕获的直接提及(例如“酒精滥用”,“吸烟一包/天”)的语义丰富的嵌入。
桌子 3显示了每个SDOH类别的表现最佳模型,这些模型是根据其在模拟III内部测试集上的性能进行选择的,并在MIMIC-IV上进行了评估以评估可推广性。具有DT分类器的临床BERT可实现高精度,回忆和F1得分(每个0.92)和0.91的准确性,表明了其捕获细微的上下文提示的能力(例如,“缺乏社会支持”)。对于以0.78的精度,平衡精度(0.76),召回(0.73),用于占用检测的关键字处理模型(0.76)。尽管有隐性就业描述的挑战。为了使用物质,带有RF的Word2VEC模型达到了0.91的精度,精度(0.79)和召回(0.86),在与物质相关的术语中利用语义模式。跨数据库评估证实了模型的鲁棒性和普遍性。
对模拟IV队列的回归分析(n= 171;154复杂与17个正常妊娠)揭示了SDOH与妊娠并发症之间的牢固关联。提到该注释中的物质使用与几率高的并发症的增加有关(OR = 6.47,95%CI = 2.3 8.2,–-2.3-8.2, - p<<0.001),而社会支持表明风险降低(OR = 0.07,95%CI = 0.01 0.33, p<0.001)。职业没有显着关联(OR = 0.77,95%CI = 0.27 2.18, p= 0.49)。卡方检验增强了这些分类关系,并具有非常重要的物质使用结果(2= 14.2, p<0.001)和社会支持(2= 18.9, p<0.001)。可忽略的系数(1016)反映了二元结果限制,但定向一致性验证了发现。这些结果强调了SDOH在孕产妇风险分层中的关键作用,主张优先考虑在产前护理中筛查物质使用和社会支持以减轻不良后果。错误分析在职业类别中,与0级(失业或不提及)案件相比,1类(主题为受试者的积极职业的信息)的流行率显着降低,这使该模型的预测能力偏向于职业类别。
讨论
我们的研究深入研究了这种关系,利用NLP技术从模拟于III放电摘要注释中提取SDOH特征,并评估了模拟物IV放电注释上表现最佳的模型。它还揭示了怀孕并发症之间的关联,尤其是两个因素:使用物质和社会支持。这些发现强调了在产前护理工作流程中捕获风险增加(例如烟草或非法吸毒)和保护性(例如,人际关系支持)的重要性。
社会支持是一个细微的构造,涵盖了人际关系的各个方面,使从临床文本中提取的语言上复杂。例如,诸如“患者具有紧密联系的支持系统”或“生活在庇护所护理中”之类的表达方式需要精致的语言处理,以准确辨别支持水平。在我们的研究中,我们观察到利用深度学习技术(临床BERT模型)与DT分类器配对的模型在识别这种依赖上下文依赖的措辞方面,达到0.92的F1分数(Tableâ(Table)) 3)在模拟物注释上。这些结果突出了模型的能力,可以在区分社会支持类型的情况下检测微妙的文本提示。回归分析表明,注释中提到社会支持大大降低了并发症的几率(OR = 0.07),这一发现与先前的研究一致,将强大的社交网络与改善的母亲结局联系起来,例如早产率降低和降低产前压力18,,,,19,,,,20,,,,21。
职业虽然看似直接,但在临床文本分析中提出了自己的一系列挑战。尽管职业在结构上可能更明确地定义(例如,“雇用”,“学生”,但经常不一致地报告,导致模型性能适中(F1-Score 0.74用于关键字处理)(表格)(表格)(表格) 3)和非重要回归发现。这重申了EHR中标准化职业文档的需求,并可能采用更高级的嵌入方法来捕获部分或隐式提及18,,,,22。
物质使用的特征是临床文本中的不同关键字和模式,与其他SDOH因子相比,它相对容易识别。8,,,,23,,,,24。例如,明确提到,例如“患者承认每天吸烟一包香烟”或“大麻使用史”提供了清晰的药物使用指标。Word2Vec嵌入与RF分类器相结合实现了强大的性能(F1得分0.83;Tableâ 3)。回归分析强调,有记录的药物使用的患者与并发症的可能性升高显着相关(OR = 6.47)。这与先前的证据相吻合,将物质使用与早产和先兆子痫联系在一起21,,,,25,,,,26,,,,27但是,由于我们基于NLP的明确检测和隐式提及,赔率超过了。28,,,,29。这强调,将自动物质使用检测集成到EHR系统中可能会及时干预措施,例如加快转介咨询或成瘾服务可能会改变临床轨迹29,,,,30。
除了模型表现外,模仿III和MIMIC-IV中人口统计学的变化说明了可能反映不断发展的政策,保险结构和临床文档标准的医疗保健景观(表格) 1)。这种转变强调了跨数据库评估对确认NLP模型随着患者人群的变化而保持有效的重要性。值得注意的是,我们的模仿III衍生模型的概括性可以模仿IV,突出了这些方法在各种环境中的鲁棒性。此外,我们的模型在模拟IV外部评估集上表现更好(表 3)比模拟III内部测试集(表 2)。这可能反映了几个因素:模拟IV注释中的更一致和明确的SDOH文档,模拟物IV标签的多通道共识协议以及更高比例的正sdOh病例(Physionet DataSet43)。这些条件使自动模型的提取更加简单。这强调了性能可能取决于文档质量和数据集特征,进一步强调了在各种临床环境中继续进行外部评估的需求。
与其依靠所有SDOH组件的单一通用方法,我们发现不同的技术在不同类别中都表现出色。12,,,,13,,,,14,,,,31。实际上,基于规则的轻巧方法可以优于某些功能(例如职业)的更复杂的体系结构,尤其是在普遍的关键字很普遍的情况下。尽管临床BERT在捕获上下文细微差别和语义关系方面表现出色,但它需要大量的标记数据和计算资源来培训。相反,关键字处理器提供了简单性和效率,但可能缺乏处理语言可变性和上下文依赖解释的灵活性。我们的研究展示了模型复杂性和性能之间的权衡,并强调了基于目标SDOH因子的特定特征选择适当建模方法的重要性。这与2022 N2C2/UW SDOH挑战的发现一致12,在审计的语言模型(例如SEQ2SEQ架构(例如T5)中)实现了最先进的性能,用于更语言上多样化的SDOH因素,例如物质使用和生活情况,而基于关键字的基于更简单的基于关键字的方法,例如无家可归的构造,12。
我们工作的局限性包括模拟III和MIMIC-IV注释数据中相对较小的,不平衡的样本量,尤其是正常妊娠的数量少,这限制了统计能力。尽管选择的二元分类方案促进了概念的基础证明,但它可能过分简化了细微的SDOH因素(例如,对负面提及不提及)。未来的工作可能会受益于更详细的标准,这些标准区分了真正的负面报告和缺乏数据。手动注释过程虽然严格,但也引入了主观偏见。关于社会支持,药物使用或就业的微妙提及可能已经不足。对回顾性EHR数据的依赖限制了因果推断,因为SDOH文档和结果之间的时间关系仍然是不建立的。随着更全面和结构化的SDOH数据可用,未来的工作应将这些方法扩展到更广泛的社会和背景因素。近期利用LLMS进行SDOH提取的研究32,,,,33,,,,34已经显示出对传统NLP方法的有希望的性能改进,这种高级方法通常需要大规模注释的数据集以有效实现。由于我们的数据集规模有限,我们选择了传统的NLP方法来提供强大的基准绩效指标,从而促进未来的研究利用较大的数据集和更高级的LLM方法。
与可持续发展目标3(SDG 3)一致35,这些发现说明了NLP方法如何帮助识别可修改的社会风险因素。通过证明SDOH特别使用物质使用和社会支持在塑造妊娠结局中的相互作用,本研究主张进行全面的产前筛查,扩展了生物医学标志物。
总之,利用NLP解析非结构化的临床文本,揭示了SDOH对不良怀孕结果的有效影响,并强调了对系统策略的迫切需求。通过上下文敏感的建模和严格的外部评估,这项工作强调了弥合社会复杂性和临床决策之间差距的前景和持续挑战。未来的工作将探讨将基于NLP的SDOH提取与其他临床数据源(例如EHR和自我报告的措施)相结合,并评估代表性不足的组之间的潜在偏见。这些进步具有增强模型稳健性,建模权益的潜力,并改善了孕产妇的医疗保健,更接近SDG 3对所有人的健康生活的愿景。
该研究利用了两个公开可用的重症监护数据库中的排放笔记:模仿III36用于模型培训和内部测试以及模拟IV37用于模型外部评估。从模拟III中,为符合以下纳入标准的女性患者选择出院注释:(1)ICD-9代码指示怀孕(正常妊娠:650-659;并发症:630年639,660â669)38,(2)非空的社会历史部分,以及(3)在多重倍数的情况下,最新怀孕的出院摘要可用。为了进行评估,使用相同的标准包括模仿IV的注释。
在所有SDOH组件中6在文献和临床文档中被捕获,我们将这项研究集中在三个因素上:社会支持,职业和药物使用。这些是根据三个主要标准选择的:(1)与孕产妇健康成果的牢固,有据可查的关联22,,,,23,,,,24,,,,25,,,,39,(2)在临床注释的社会历史部分中,它们相对频繁和明确提及8,,,,9,,,,10,,,,15,(3)在结构化EHR字段中持续的代表性不足或不一致的编码8,,,,9,,,,10,,,,14,,,,15。
社会支持与较低的早产风险和改善的孕产妇心理健康有关,而缺乏支持会增加脆弱性,以致妊娠结局18,,,,19,,,,20,,,,39。包括就业,失业和与工作有关的压力在内的职业因素对妊娠结局有重大影响,例如早产和低出生体重18,,,,22。使用物质是母亲和婴儿的立即和长期不良后果的公认风险因素21,,,,22,,,,23,,,,24,,,,25,,,,26,,,,27,,,,28,,,,29。
使用以下标准通过单个注释者(NS)对模拟III注释进行注释:
如果社会历史明确提到共同享有的社会历史(例如,生活)或强有力的家族支持,而没有(0)无家可归,或者没有提及,则将社会支持标记为现在(1)。
在(1)诸如“职业名称”,“有工作”和缺席(0)失业,辞职或没有提及的情况下,将职业标记为(1)。
将药物使用编码为(1)用于当前/过去使用酒精,烟草,药物(大麻)或烟草/乙醇/药物(T/E/D)],而没有(0)(0)拒绝任何药物使用或没有提及。
具有类似的模拟IV注释标准,三个注释者(NS,MB,JS)注释了注释,每个注释都由两个注释者检查。使用Cohen的Kappa测量了注释的分歧,并同意了通道间协议16。在注释者之间存在分歧的情况下,通过注释者(NS,MB,JS)之间的共识讨论来解决差异,以达到统一的决定,从而确保注释一致性和质量。
我们预处理临床笔记以增强特征提取。首先,使用spacy将文本显示为单词和子字。接下来,删除了常见的英语停止字(例如,“ the”)以减少噪音。文本标准化包括下刻度和标点符号去除以确保均匀性。特别注意否定处理:使用预定义的NEGEX规则标记了诸如否认吸烟之类的短语40,,,,41避免错误分类。
该研究采用两阶段的方法来建模开发,内部测试和外部评估,使用不同的数据集来确保概括性。我们选择了三种基于规则的方法,基于嵌入的方法(Word2VEC)和上下文语言模型(临床BERT)来捕获临床文本中SDOH信息的不同方面。每种方法都在解释性,上下文理解和计算效率方面都具有独特的优势。使用MIMIC-III数据集对每个SDOH类别(社会支持,职业,物质使用)分别使用分层训练测试拆分(60:40)对模型进行了训练和测试。在60%的模拟III数据上开发了模型,并在其余40%的内部进行了内部测试。仅使用训练集建立模型参数和选择,并保留内部测试集的独立性。为了进行外部评估,将内部测试拆分(MIMIC-III)上表现最好的模型应用于MIMIC-IV的注释。该框架评估了跨数据集的概括性。下面详细描述了三种模型方法的实现。
对于基于规则的方法,我们使用了FlashText库中的关键WordProcessor42确定预定义的关键字和短语,指示社会支持,职业和使用物质。基于规则的方法旨在提供可解释和计算有效提取SDOH提及的提及。尽管有效地捕获了明确提及,但这种方法在识别上下文变化和隐式引用方面受到限制。
对于Word2Vec方法,我们使用了预训练的单词嵌入43捕获临床注释中单词之间的语义关系。Word2Vec嵌入是从整个临床文本语料库中产生的,使我们能够将每个单词表示为连续矢量空间中的高维矢量。然后使用这些嵌入来训练随机森林(RF),支持向量分类器(SVC)和决策树(DT)分类器,使模型能够学习与社会支持,职业和物质使用相关的单词之间的复杂模式和关系。
我们采用了基于预训练的变压器模型Clinicalbert44专为临床文本而设计,是为了从模拟III数据集中的排放音符中提取嵌入。Clinicalbert对大规模的临床语料库进行了微调,并证明了了解医学术语和环境的熟练程度。利用`transformers'图书馆中的“汽车模型”和“ AutoDokenizer”类,我们加载了预先训练的Clinicalbert模型和令牌。随后,我们通过使输入文本,将令牌转换为令牌ID并通过平均所有令牌的隐藏状态来将令牌转换为令牌ID,从而为临床注释生成嵌入。这些嵌入是临床笔记的丰富表示,捕获语义信息和上下文的细微差别。然后,我们使用包括RF,SVC和DT在内的分类器来根据生成的Clinicalbert嵌入来对SDOH(社会支持,职业和药物使用)进行分类。
为了评估每个模型的性能,我们采用了一系列评估指标,包括准确性,精度,召回和F1得分。准确性衡量模型预测的总体正确性,而精确度量化了模型做出的所有正面预测中真正积极预测的比例。回想一下,也称为灵敏度,计算数据集中所有实际积极实例中真正积极预测的比例。F1-score is the harmonic mean of precision and recall, providing a balanced measure of a modelâs performance across both classes.These metrics were computed for each SDoH category individually, allowing us to assess the effectiveness of each model in extracting relevant features from the clinical notes.
To quantify the relationship between extracted SDoH and pregnancy complications, we conducted logistic regression and chi-square tests on the MIMIC-IV cohort.Using the statsmodels45library in Python, we modeled the log-odds of experiencing pregnancy complications (binary outcome: 1â=âcomplication, 0â=ânormal) as a function of the SDoH predictors (substance use, social support, occupation).This approach allowed us to estimate coefficients for each predictor and evaluate their statistical significance with confidence interval in relation to pregnancy complications.
The code for the model development, and evaluation can be found here [Please cite the github repo: https://github.com/tirilab/SDoH-Pregnancy-NLP-MIMIC]。We used Python 3.10 to perform all analysis.Google Colabâs Jupyter notebook was used as the coding platform.The annotated MIMIC-III and MIMIC-IV datasets are currently under review as a project submitted to PhysioNet46- Waiting for editor to publish submission, its been accepted., and is expected to be available by the time of publication.
Walker, S. L. et al.Examining the relationship between social determinants of health and adverse pregnancy outcomes in Black women.是。J. Perinatol. https://doi.org/10.1055/s-0043-1771256(2023)。
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Osterman, M., Hamilton, B., Martin, J. A., Driscoll, A. K. & Valenzuela, C. P. Births: Final data for 2020.纳特。Vital Stat.代表。 70, 1â50 (2021).
PubMed一个 Google Scholar一个
Yee, L. M., Miller, E. C. & Greenland, P. Mitigating the long-term health risks of adverse pregnancy outcomes.贾马 327, 421â422 (2022).
PubMed一个 Google Scholar一个
Kramer, M. S. The epidemiology of adverse pregnancy outcomes: An overview.J. Nutr。 133, 1592S-1596S (2003).
PubMed一个 Google Scholar一个
US Office of Disease Prevention and Health Promotion.Social determinants of health.https://www.healthypeople.gov/2020/topics-objectives/topic/social-determinants-of-health?topicid=39(2022)。
世界卫生组织。A conceptual framework for action on the social determinants of health.可用网址:https://apps.who.int/iris/handle/10665/44489(2007)。
Lituiev, D. S. et al.Automatic extraction of social determinants of health from medical notes of chronic lower back pain patients.J. Am。医学通知。联合。 30, 1438â1447 (2023).
Feller, D. J. et al.Detecting social and behavioral determinants of health with structured and free-text clinical data.应用。Clin.通知。 11, 172â181 (2020).
Han, S. et al.Classifying social determinants of health from unstructured electronic health records using deep learning-based natural language processing.J. Biomed.通知。 127, 103984 (2022).
PubMed一个 Google Scholar一个
Guevara, M. et al.Large language models to identify social determinants of health in electronic health records.NPJ数字。医学 7, 6 (2024).
Stemerman, R. et al.Identification of social determinants of health using multi-label classification of electronic health record clinical notes.JAMIA Open 4, ooaa069 (2021).
Lybarger, K., Yetisgen, M. & Uzuner, Ã.The 2022 n2c2/UW shared task on extracting social determinants of health.J. Am。医学通知。联合。 30, 1367â1378 (2023).
Richie, R., Ruiz, V. M., Han, S., Shi, L. & Tsui, F. R. Extracting social determinants of health events with transformer-based multitask, multilabel named entity recognition.J. Am。医学通知。联合。 30, 1379â1388 (2023).
Patra, B. G. et al.Extracting social determinants of health from electronic health records using natural language processing: a systematic review.J. Am。医学通知。联合。 28, 2716â2727 (2021).
Girardi, G., Longo, M. & Bremer, A. A. Social determinants of health in pregnant individuals from underrepresented, understudied, and underreported populations in the United States.int。J. Equity Health 22, 186 (2023).
Keloth, V. K. et al.Social determinants of health extraction from clinical notes across institutions using large language models.NPJ数字。医学 8, 287.https://doi.org/10.1038/s41746-025-01645-8(2025)。
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
McHugh, M. L. Interrater reliability: the kappa statistic.生物化学。医学 22, 276â282 (2012).
Nkansah-Amankra, S. et al.Maternal social support and neighborhood income inequality as predictors of low birth weight and preterm birth outcome disparities.Matern.Child Health J. 14, 774â785 (2010).
PubMed一个 Google Scholar一个
Schell, L. M. et al.Social support and adverse pregnancy outcome in a high-risk population.J.公共卫生管理。Pract. 3, 13â26 (1997).
PubMed一个 Google Scholar一个
Appleton, A. A., Kiley, K., Holdsworth, E. A. & Schell, L. M. Social support during pregnancy modifies the association between maternal adverse childhood experiences and infant birth size.Matern.Child Health J. 23, 408â415 (2019).
PubMed一个 Google Scholar一个
Grote, N. K. et al.A meta-analysis of depression during pregnancy and the risk of preterm birth, low birth weight, and intrauterine growth restriction.拱。Gen. Psychiatry 67, 1012â1024 (2010).
Mozurkewich, E. L. et al.Working conditions and adverse pregnancy outcome: a meta-analysis.Obstet.妇科。 95, 623â635 (2000).
PubMed一个 Google Scholar一个
Behnke, M. et al.Prenatal substance abuse: Short- and long-term effects on the exposed fetus.儿科 131, e1009âe1024 (2013).
PubMed一个 Google Scholar一个
Forray, A. Substance use during pregnancy.F1000研究 5, 887 (2016).
Baer, R. J. et al.Risk of preterm birth among women using drugs during pregnancy with elevated α-fetoprotein.J. Perinatol. 37, 220â225 (2017).
PubMed一个 Google Scholar一个
Klebanoff, M. A., Wilkins, D. G. & Keim, S. A. Marijuana use during pregnancy and preterm birth: A prospective cohort study.是。J. Perinatol. 38, e146âe154 (2021).
PubMed一个 Google Scholar一个
疾病控制与预防中心。Pregnancy substance abuse.可用网址:https://www.cdc.gov/maternal-infant-health/pregnancy-substance-abuse/index.html。Campbell, A. G. et al.
The concordance of electronic health record diagnoses and substance use self-reports among reproductive-aged women enrolled in a community-based addiction reduction program.询问 61, 469580241237051 (2024).
PubMed一个 Google Scholar一个
Blackley, S. V. et al.Using natural language processing and machine learning to identify hospitalized patients with opioid use disorder.AMIA Annu.SYMP。Proc。 2021, 233â242 (2021).
Prince, M. K., Daley, S. F. & Ayers, D. Substance use in pregnancy.在StatPearls。(StatPearls Publishing, 2025).Updated 2023 Jul 21. Available at:https://www.ncbi.nlm.nih.gov/books/NBK542330/。Ong, J. C. L. et al.
Artificial intelligence, ChatGPT, and other large language models for social determinants of health: current state and future directions.细胞众议院医学。 5, 101356 (2024).
Ralevski, A. et al.Using large language models to abstract complex social determinants of health from original and deidentified medical notes: Development and validation study.J. Med。Internet Res. 26, e63445.https://doi.org/10.2196/63445(2024)。
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Bhate, N. J., Mittal, A., He, Z. & Luo, X. Zero-shot learning with minimum instruction to extract social determinants and family history from clinical notes using GPT model.在2023 IEEE International Conference on Big Data (BigData)1476â1480.(IEEE, 2023).
Consoli, B., Wu, X., Wang, S., Zhao, X., Wang, Y., Rousseau, J., Hartvigsen, T., Shen, L., Wu, H., Peng, Y., Long, Q., Chen, T. & Ding, Y. (2024).SDoH-GPT: Using Large Language Models to Extract Social Determinants of Health (SDoH).arXiv preprintarXiv:2407.17126。Springernature.
SDG3.可用网址:https://www.springernature.com/gp/researchers/sdg-programme/sdg3。Johnson, A. et al.
MIMIC-III, a freely accessible critical care database.科学。数据 3, 160035 (2016).
Johnson, A. E. W. et al.MIMIC-IV, a freely accessible electronic health record dataset.科学。数据 10, 1 (2023).
AAPC.ICD-9 codes.可用网址:https://www.aapc.com/codes/icd9-codes-range/89/。Dunkel Schetter, C. Psychological science on pregnancy: Stress processes, biopsychosocial models, and emerging research issues.
Annu.Rev. Psychol. 62, 531â558 (2011).
PubMed一个 Google Scholar一个
Chapman, W. W., Bridewell, W., Hanbury, P., Cooper, G. F. & Buchanan, B. G. A simple algorithm for identifying negated findings and diseases in discharge summaries.J. Biomed.通知。 34, 301â310 (2001).
PubMed一个 Google Scholar一个
Tanushi, H., Dalianis, H., Duneld, M., Kvist, M., Skeppstedt, M. & Velupillai, S. Negation scope delimitation in clinical text using three approaches: NegEx, PyConTextNLP and SynNeg.在Proceedings of 19th Nordic Conference on Computational Linguistics (NODALIDA 2013), 387â397 (2013).
FlashText Documentation.Keyword Processor.可用网址:https://flashtext.readthedocs.io/en/latest/keyword_processor.html。Gensim models.word2vecâWord2vec embeddings.
可用网址:https://radimrehurek.com/gensim/models/word2vec.html。Hugging Face Model Hub.
Bio ClinicalBERT.可用网址:https://huggingface.co/emilyalsentzer/Bio_ClinicalBERT。Seabold, S. & Perktold, J. Statsmodels: Econometric and statistical modeling with Python.
在Proceedings of 9th Python in Science Conference(2010)。
Soley, N., Bentil, M., Shah, J., Rouhizadeh, M. & Taylor, C. (2025).Annotated SDoH Dataset for Adverse Pregnancy Outcomes (version 1.0.0).PhysioNet (accepted, in the process of copyediting and publication).RRID:SCR_007345.https://doi.org/10.13026/qk2y-wx30
作者没有宣称没有竞争利益。
The protocol is under review at the Institutional Review Board at the Johns Hopkins University School of Medicine [IRB00467867].
关于已发表的地图和机构隶属关系中的管辖权主张,Springer自然仍然是中立的。
开放访问This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License, which permits any non-commercial use, sharing, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if you modified the licensed material.您没有根据本许可证的许可来共享本文或部分内容的改编材料。The images or other third party material in this article are included in the articleâs Creative Commons licence, unless indicated otherwise in a credit line to the material.If material is not included in the articleâs Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder.To view a copy of this licence, visithttp://creativecommons.org/licenses/by-nc-nd/4.0/。Reprints and permissions
等。Unveiling social determinants of health impact on adverse pregnancy outcomes through natural language processing.Sci代表15 , 29183 (2025).https://doi.org/10.1038/s41598-025-13542-x
已收到:
公认:
出版:
doi:https://doi.org/10.1038/s41598-025-13542-x