高效提取细胞标记的自然语言处理系统 |科学报告 - Nature.com

2024-09-11 04:53:44 英文原文

摘要

单细胞 RNA 测序 (scRNA-seq) 已成为探索不同物种和组织细胞景观的关键工具。细胞类型的精确注释对于理解这些景观至关重要,这在很大程度上依赖于经验知识和精心策划的细胞标记数据库。在这项研究中,我们介绍了 MarkerGeneBERT,这是一种自然语言处理 (NLP) 系统,旨在从单细胞测序研究背景下的有关物种、组织、细胞类型和细胞标记基因的文献中提取关键信息。利用 MarkerGeneBERT,我们系统地解析了 3702 篇单细胞测序相关研究的全文文章,生成了代表 425 个人体组织/亚组织中 1606 种细胞类型的 7901 个细胞标记物的全面集合,以及代表 482 只小鼠中 1674 种细胞类型的 8223 个细胞标记物组织/亚组织。与手动管理的数据库的比较分析表明,我们的方法实现了 76% 的完整性和 75% 的准确性,同时还揭示了现有数据库中缺少的 89 种细胞类型和 183 种标记基因。此外,我们成功应用 MarkerGeneBERT 编译的脑组织标记基因列表来注释 scRNA-seq 数据,产生与原始研究一致的结果。结论:我们的研究结果强调了基于 NLP 的方法在加速和增强 scRNA-seq 数据注释和解释方面的功效,系统地证明了该方法的变革潜力。用于训练 MarkerGeneBERT 的 27323 个人工审核句子及其源代码托管在 https://github.com/hengpeng1116/MarkerGeneBERT。

其他人正在查看的类似内容

简介

单细胞测序技术因其在单细胞水平上的卓越分辨率而开创了众多物种和组织的新兴研究领域1。这一进展为全面探索细胞景观奠定了基础,可以精确描绘不同组织和器官内的所有细胞类型。要实现对不同细胞类型的彻底注释,需要识别组织内潜在的细胞类型,并随后通过综合文献综述或参考现有数据库来聚合相应的细胞类型标记基因。值得注意的是,CellAssign2 和 scCATCH3 等现有工具通过利用此类数据库提供粗粒度注释4、5、6。此外,还建立了CellMarker2.07、PanglaoDB8、singleCellBase9、PCMDB10和CancerSEA11等各种数据库,为不同物种和组织类型提供了广泛的细胞标记物集合。这些数据库主要来自人工审查和科学文章的整理,从而能够获得高度准确的标记基因;然而,这种方法需要大量的人力和时间。

许多基于文本挖掘的方法已在各个研究领域中实施,用于通过解析文本中的句法依赖关系来识别感兴趣的实体并辨别这些实体之间的关系。例如,谢蒂等人。开发了一种名为 MaterialsBERT 的语言模型,该模型接受了 240 万份聚合物文献摘要的训练,可以从文献摘要中自主提取有机和聚合物材料的各种属性12。顾等人。使用名为 MarkerGenie 的预训练 NLP 文本挖掘系统来识别文本中提到的感兴趣的实体,例如疾病、微生物组、基因和代谢物。实体识别后,系统解析文本的句法结构并提取每个单词的上下文特征,从而区分疾病、微生物组、基因和代谢物之间的关系类型——诊断、预测、预后、诱发或治疗相关13。纳塞里等人。利用 NLP 流程从大部分非结构化和非标准化的临床咨询笔记中识别与疼痛相关的医学术语,随后根据识别的疼痛术语预测疼痛评分14。多达霍内亚等人。利用预编译的细胞类型和基因词汇表,通过计算基因和细胞类型实体在超过 2600 万份生物医学文档中的共现频率来评估基因和细胞类型实体之间的相关性15。总之,这些已发表的方法通过帮助识别罕见或新颖的感兴趣实体及其相互关系,提供了比手动管理更有效、更全面的研究文章分析。

在这项研究中,我们提出了 MarkerGeneBERT,一个基于 NLP 的系统,设计用于从单细胞测序研究中自动提取细胞标记基因。MarkerGeneBERT 利用 CRAFT16、JNLPBA17 和 BIONLP13CG18 等生物医学语料库以及在 27323 个句子的手动管理数据集上训练的文本分类模型,旨在自动识别细胞和基因实体,同时消除误报关联。我们从自由文本 PubMed 和 PubMed Central 收集了 2017 年 1 月至 2023 年 6 月发表的 3702 篇单细胞测序文章,然后将它们放入 MarkerGeneBERT 中提取细胞标记基因,随后根据手动管理的数据库验证我们的发现。此外,我们使用 scCATCH 应用我们的标记基因列表来注释脑组织样本中的细胞簇,得到的结果与之前的研究一致。MarkerGeneBERT 的概述如图 1 所示,它由四个主要部分组成:文献检索、标记相关句子的提取、细胞标记关联的建立以及文章中物种、组织和疾病信息的推断。

方法

数据收集

单细胞RNA测序研究的主要文本是从自由文本PubMed和PubMed Central下载并解析的。具体来说,我们使用 R 包“RISmed”19 在指定时间内使用搜索词“Animals”[MeSHTerms] AND“Single-Cell Analysis”[MeSHTerms] OR“single-cell”AND“express”来检索文献框架。这些严格的规则使我们能够从单细胞研究相关的研究中获得全面的 PMID 集合。随后,使用R包“easyPubMed”20,我们获取了每个PMID的标题、摘要和文献来源等基本信息。对于来自PMC的文献,我们利用R包“europepmc”检索主要文本文档并系统地提取部分,包括引言、方法和结果。对于其他手动收集的 PDF 格式文献,我们使用 python 库“scipdf_parser”来解析 PDF 文件,并根据解析结果提取相关部分,如简介、方法和结果。

Marker-相关句子分类模型

标记相关句子分类的监督训练数据生成

识别文献正文中的标记相关句子,特别是同时包含细胞和基因的句子具有特定句法结构的名称,例如“基因 A 是细胞 B 的标记”或“基因 A(特定于细胞 B)”,我们构建了基于 spaCy21 和“textcat”模式的文本分类模型,并在由我们团队策划的手动注释的标记相关数据集。

具体来说,最初从大约 900 个单细胞 RNA 测序研究中收集了总共 62,000 个主要文本句子。随后,十多名具有单细胞研究专业知识的生物信息学工程师手动筛选这些句子,从包含细胞和基因的原始句子中分离出包含细胞标记基因的句子。此处理步骤将 62000 个初始句子缩小为 27323 个剩余句子。随后,这27323个句子进行了随机洗牌,并根据预先定义的规则(表1)和他们的个人专业知识重新分配给上述生物信息学工程师进行手动标记。注释句子的整理和审查由两位高级生物信息学工程师进行。任何带有争议注释的句子都会受到讨论和可能的重新注释。

标记相关句子的文本预处理

文本预处理一直是 NLP 任务的传统重要步骤。它将文本转换为更易于理解的形式,以便机器学习算法可以更好地执行。具体来说,最初将 27323 个句子输入到 SciBERT 模型22中,并使用 SciBERT 模型的分词器和解析器组件对句子进行词性标注和句法依存解析。此过程生成了连续的标记范围,包括单词、标点符号和空格。非基因实体标记随后被词形化并转换为小写字符。此外,分类为停用词、标点符号(不包括括号)或数值的标记也被过滤掉。最后,基于先验知识,仅当括号内或括号前的标记构成基因名称时,我们才选择性地保留括号。

我们对每个句子进行文本预处理,清理后的句子专门用于训练文本分类模型。

与标记相关的句子分类模型构建

spaCy 自然语言处理库中的 TextCategorizer (TextCat) 模块是我们开发创新标记的有力工具相关句子分类模型。结合词袋方法和神经网络模型,我们将“vector”参数配置为“en_core_web_trf”,这意味着为英语文本分类量身定制的转换器管道,同时保留其他参数的默认值。利用剩余的 27323 个句子作为我们的标记相关句子分类模型的训练数据集,我们的训练模型在其输出中生成概率值,有助于评估有关细胞类型和标记基因的句子可信度。

确定为了区分标记相关句子的适当概率阈值,将原始训练数据集均匀分为10部分,确保每个子集中标签0和标签1的比例为1:1。随后,采用十倍交叉验证方法,其中原始训练集的9部分作为新的训练集来训练文本分类模型,而其余1部分作为验证集来评估模型性能。将验证集中的句子输入到模型中,产生与该句子是标记相关句子的可能性相对应的预测概率。我们评估了模型在不同概率阈值下的精确率和召回率,并计算了 F1 分数。最后,根据不同阈值下F1得分的变化,选择合适的阈值。

实体提取

命名实体识别(NER)

如图在表 2 中,每个 scispacy23 NER 模型最初都是为了识别不同的实体类型而构建的。使用 spaCy Python 包,我们将这四个 NER 模型与默认参数无缝集成,以全面提取细胞、物种、组织和疾病实体。在我们的研究中,我们的主要关注点并不是优化文本到令牌的转换效率。例如,在提取细胞实体时,我们合并了各种 NER 模型的标记化结果,而不是依赖部分输出来增强实体提取的完整性。因此,我们禁用了 NER 模型中的“标记器”、“解析器”、“attribute_ruler”和“词形还原器”组件,以提高处理速度。平均而言,处理单个句子大约需要 4 秒。我们模型的总运行时间与文章数量直接相关,它们之间呈现线性关系。执行过程中资源消耗峰值达到21GB左右。

基因词汇的生成

从Cell Ranger中的GTF文件中获取完整的人类和小鼠蛋白质编码基因集v5.0.1,使用精确字符串匹配提取基因实体。

细胞实体识别

首先解析每个句子,并使用三个NER模型独立提取细胞名称(图2)。具体来说,“en_ner_craft_md”模型识别实体类型“CL”作为单元名称的实体,“en_ner_jnlpba_md”模型识别实体类型“CELL_TYPE”和“CELL_LINE”作为单元名称的实体,“en_ner_bionlp13cg_md”模型识别实体。使用实体类型“CELL”作为单元名称。随后,我们使用从细胞本体数据库获得的综合细胞名称对同一个句子进行精确的字符串匹配。最后,我们保留了至少两个来源提取的细胞名称作为各自句子中存在的细胞名称。

为了减轻全面捕获所有细胞名称的潜在限制,特别是关于“CD4 + T细胞”,其中三个模型可能提取不同的细胞实体,我们对文本中相同位置的不同模型识别的细胞名称进行了比较和补全。在两个模型在同一位置提取“CD4+T细胞”和“T细胞”作为细胞实体的情况下,我们将“T细胞”完成为“CD4+T细胞”。

全文基于物种和组织实体的提取策略

我们采用基于全文的策略,将文献分为摘要、方法和结果等部分,并使用NER模型进行实体识别

物种实体识别。物种实体的提取主要依赖于 MeSH(医学主题词)术语,这些术语是国家医学图书馆 (NLM) 用于索引 PubMed 文章的受控词汇词库。对于每项研究,我们都利用“en_ner_craft_md”模型从 MeSH 术语中识别物种实体。如果从PubMed提供的MeSH术语文本中没有识别出物种实体,我们进一步根据全文的整体结构进行物种实体识别。具体来说,我们采用“en_ner_craft_md”模型来识别与标题部分、方法部分和结果部分第一段中的文本分开的物种实体。选择最常出现的物种实体作为相应文献中研究的物种类型。

组织实体识别。我们利用“en_ner_bionlp13cg_md”模型来识别组织实体。具体来说,对于每项研究,我们分别从 MeSH 术语文本、标题部分的文本以及全文中包含与单细胞测序相关的关键词的句子(例如“单细胞”和“解离”。如果在文献的所有三个文本部分中都识别出了组织实体,则它被认为是正确的组织类型。除此之外,我们通过分析文章结果部分第一段和方法部分的文本来补充组织实体的识别。我们计算了从不同文本源提取的每个实体的频率,并对它们进行相应的排名。此外,我们还确定了同一句子中每个实体与单细胞测序相关关键词之间的共现频率,以及每个实体与文献中确定的所有细胞实体之间的共现频率。根据文献,根据这三个排名结果的累积排名,前两个组织类型被认为是候选组织类型。

疾病实体识别

我们采用“en_ner_bc5cdr_md”模型来识别疾病实体。从标题部分识别疾病实体,这些实体被认为是相应文献中研究的疾病类型。如果没有检测到疾病实体,则默认文献为“正常”。

细胞类型基因关系分类

为了从标记相关句子中提取细胞标记基因,我们发起了该过程通过保留同时包含通过实体识别识别的细胞和基因名称的句子来实现。随后,这些句子在输入到文本分类模型之前经过文本预处理。当超过预定的概率阈值时,原始句子进一步分为两类:有利于根据预定义规则提取细胞-基因关系对和需要手动提取细胞-基因关系对的两类(表3)。

对于符合基于预定义规则提取细胞-基因关系对的句子,采用SciBERT模型的标注器和解析组件解析句子的句法结构并生成句法依存树(图3)。每个句法依存树由许多子树组成,其中子树被定义为包含标记及其所有句法后代的序列。这个过程有效地描述了标记之间的关系,允许提取位于同一子树内的细胞-基因关系对。另外,值得一提的是,直接选择符合“细胞名称(基因名称)”模式的句子结构来提取细胞基因对。

统计

所有统计数据分析在 R(版本 4.1)中进行。使用预测实体标签与真实标签相比的精度、召回率和 F1 分数来评估标记相关句子分类模型的性能。

结果

识别使用 MarkerGeneBERT 进行基因和细胞实体

用于实体提取的预训练 NER 模型已被证明在各个研究领域都是有效的。MarkerGeneBERT 集成了三个基于不同生物医学语料库的预训练 NER 模型。此外,我们还纳入了从 Cell Ontology 数据库中整理的单元名称,以实现精确的字符串匹配。考虑到标准化的基因名称,MarkerGeneBERT 仅使用专门源自 Cell Ranger 中的 GTF 文件的基因符号 ID 来进行准确的基因实体识别。更多详细信息可以在“方法”部分中找到。

如“方法”部分中的详细信息,我们的团队最初标记了细胞和基因名称,并为标记相关的句子分类模型手动注释了 27323 个句子。用于验证“en_ner_bionlp13cg_md”、“en_ner_craft_md”、“en_ner_jnlpba_md”和 MarkerGeneBERT 在识别细胞和基因实体方面的性能。与单独使用的三个预训练 NER 模型相比,MarkerGeneBERT 在提取细胞和基因名称方面表现出更高的精确度和召回率(表 4)。具体来说,在基因名称识别方面,MarkerGeneBERT 的 F1 得分为 87%(精确度:89%,召回率:99%),比第二好的模型高出 20%。在细胞名称识别方面,MarkerGeneBERT 获得了 92% 的 F1 分数(精确度:86%,召回率:98%),比第二好的模型高出 8%,从而代表了精确度和召回率之间的最佳权衡。

细胞生物标记关联二元分类

我们引入了一种有监督的标记相关文本分类模型,以确定哪些句子不仅包含细胞实体和基因实体,还包含表明基因是基因的特定句法模式。细胞的标记。有关模型和训练数据集构建过程的更多详细信息,请参阅“方法”部分。

为了评估标记相关文本分类模型在区分表明基因是细胞标记的特定句法模式方面的性能,我们将训练数据集划分为 10 个子集,随机选择 9 个子集用于模型训练,保留 1 个子集用于验证。图4A所示的评估结果显示,平均精度(mAP)为0.876(范围为0.84至0.91),平均精度为0.844(范围为0.8至0.9),平均召回率为0.734(范围为0.56至0.91)。0.78)。

经过模型处理后,每个句子都可以获得一个预测概率值。如果预测概率值大于阈值,则句子被分类为标记相关句子,因此阈值设置对于我们模型的性能非常重要。我们计算了不同阈值的F1分数,如图4B所示,拟合阈值为0.7。在这些阈值设置下,F1分数在不同的验证集上取得了最佳性能。

对于预测概率大于0.7的剩余标记相关句子,我们在每个句子中采用基于句法结构的分析来识别并提取可靠的细胞标记关系对。提取标准在方法部分详细描述。

此外,我们采用了适当的 NER 模型(如表 2 所示)来评估每项研究中的物种、器官和疾病信息。方法部分提供了更多详细信息。

NLP系统提取结果的统计

我们使用MarkerGeneBERT从3702个文献来源中提取了3280个细胞类型和16124个基因(补充表1)。与多年来由领域专家手动管理的现有数据库相比,我们的模型取得了有竞争力的检索结果(表 5)。我们的系统(包括所有脚本和模型)的最大内存为 21 GB,一篇论文的解析和实体提取可以在 7 分钟内快速完成。

MarkerGeneBERT 与手动管理数据库之间的一致性

为了验证系统检测细胞实体、基因实体、细胞标记对、物种、组织和疾病信息的准确性,我们与被广泛认为是金标准的CellMarker2.0进行了比较用于手动管理。由于我们的方法主要从正文中提取基因标记,因此我们专门比较了 CellMarker2.0 和我们的数据库中存在的 1027 篇文章的基因标记。其他文章由于无法下载或标记来自补充材料等原因而被排除;更多详细信息请参见补充图 1。

MarkerGeneBERT 识别了数据库中记录的大多数细胞和基因实体

在这 1027 项研究中,CellMarker2.0 手册总共策划了 4646细胞类型有12,874个标记基因,正文部分涵盖3185个细胞类型和8683个标记基因;大约 84% 的有价值信息来自于正文(补充图 2)。MarkerGeneBERT 在这些常见研究中识别出了 90.8% 的标记基因实体 (7890/8683) 和 92.7% 的细胞类型实体 (2954/3185)(图 5A)。

通过系统比较结合从每个文献来源提取的结果以及 CellMarker2.0 的结果,MarkerGeneBERT 揭示了与标记基因相关的额外 1764 种细胞类型(图 5B)。在新鉴定的1764种细胞类型中,有1344种最初在相应文献中被CellMarker2.0排除;

值得注意的是,CellMarker2.0 中未对 89 种细胞类型进行编目,其中主要包括组织特异性细胞类型。这些细胞,包括来自肠道的肠间皮成纤维细胞和来自眼组织的视网膜祖细胞,表现出较低的频率。

此外,CellMarker2.0 检测到了 302 种细胞类型,但相应组织中未检测到。我们根据组织信息对这 89 种新记录的细胞类型和 302 种报告的细胞类型进行了分类(图 6)。这些细胞类型主要代表分布在不同组织中的功能细胞;例如,在与人类胃组织相关的文献中,癌症相关成纤维细胞(CAF)作为原发性和转移性肿瘤中肿瘤微环境的核心组成部分,深刻影响癌细胞的行为,并通过与癌细胞的广泛相互作用参与癌症进展。癌细胞和其他基质细胞25。我们的方法可用于直接记录癌症和胃组织中的 CAF。详细的细胞标记信息参见补充表2,MarkerGeneBERT识别的其他细胞类型和标记基因均经过人工审核。

MarkerGeneBERT与数据库之间的标记基因列表高度一致性

h4>

对于每项研究,我们评估了 CellMarker2.0 和 MarkerGeneBERT 之间识别的细胞标记基因的一致性。如图7所示,CellMarker2.0数据库和MarkerGeneBERT中大约47%的细胞类型及其相应的标记基因对是相同的。此外,对于大约23%的细胞类型,MarkerGeneBERT提取的标记基因存在于CellMarker2.0中,并且占CellMarker2.0中记录的相应标记基因的87%。提取结果未达到100%的原因主要是由于某些细胞类型在单个文档中记录了多个标记基因,并且MarkerGeneBERT可能根据预设条件过滤掉了一些标记基因(补充图3))。尽管如此,大多数此类细胞标记物也表现出很高的精确度,通常达到 100%。总体而言,MarkerGeneBERT 表现出很高的真阳性百分比,并且从 MarkerGeneBERT 和 CellMarker2.0 数据库提取的结果之间具有高度的一致性。

此外,大约 13% 的细胞及其标记物CellMarker2.0 报告的基因是 MarkerGeneBERT 发现的 100%,平均而言,MarkerGeneBERT 多获得了 CellMarker2.0 未记录的 25% 的标记基因。我们回溯了原文中一些新发现的标记基因,发现CellMarker2.0可能会忽略与论文主要研究主题不一致的标记基因,或者只提取了前半部分信息,而忽略了后半部分信息。

物种、组织和疾病的一致性

我们比较了NLP系统和CellMarker2.0从1540个研究中提取的物种、组织和疾病信息的一致性。总体而言,物种信息的一致性率为75%,组织信息的一致性率为77%,疾病信息的一致性率为66%(图8)。

一致性低于预期的主要原因是我们强调组织和分析从具体研究全文中提取的信息,总结所研究的主要物种、组织和疾病类型。相比之下,CellMarker2.0数据库使用文献ID作为索引来追踪其他文献来源引用的细胞标记,从参考文献和特定文献中捕获相关的物种、组织和疾病信息。因此,同一研究中这两种方法记录的信息存在差异。

通过多标记注释策略提高细胞类型注释效率

MarkerGeneBERT 收集了 166 种脑细胞类型大约 190 项研究,包括之前未在 CellMarker2.0 中分类的一些细胞类型,例如组织驻留记忆 T 细胞、神经母细胞和骨髓源性抑制细胞(补充表 3)。我们利用已发表的海马后部单细胞 RNA 数据上的这 166 种脑细胞类型及其编译的标记基因列表,通过使用 scCATCH(一种基于预设标记基因列表的细胞类型注释工具)进行细胞类型注释。如图9A所示,通过scCATCH直接获得的细胞类型注释与原始纸质标签中的细胞类型注释几乎相同26。值得注意的是,在scCATCH用于细胞类型注释的前5个差异表达基因(DEG)中,有7个是我们的数据库中新发现的,并且在CellMarker2.0中没有记录(图9B)。这表明,虽然许多细胞类型拥有代表性的标记基因,例如在许多文章中提到和使用的免疫细胞的CD3标记,但更全面的标记基因列表可以提高自动化细胞类型注释方法或工具的注释效率.

讨论

未来几年,单细胞测序技术预计将应用于更广泛的物种和组织类型。这要求研究人员具备注释和分析此类数据的有效能力。尽管有几种手动管理的标记基因数据库和构建相应数据库的方法,但手动管理仍然非常耗时并引入潜在的偏差,特别是在面对复杂的细胞类型注释时。

开发的用于提取的 NLP 模型文本中的实体关系已广泛应用于不同领域。多达霍内亚等人。利用共现理论计算了生物医学文献中预先选定的500个细胞名称和常见基因的共现频率,从而推断出细胞标记基因15。然而,正如他们在工作中讨论的以及相关研究中提到的,共现理论本身有几个局限性,因为一对共现频率较低的实体可能是可靠的,但可能未被发现。此外,小区名称的预选极大地限制了该方法的可扩展性。与共现方法相比,我们优化了基于 NLP 模型的依存分析方法,以捕获文本中所有提到的细胞名称并提取语法结构相关的细胞基因对。此外,利用我们团队创建的人工注释的标记相关句子,我们开发了标记相关文本分类模型,以确保包含细胞基因对的句子本质上是标记相关的,从而过滤掉仅在句子中同时出现的细胞基因对。

这项研究有几个局限性。首先,我们仅利用文献正文来提取细胞标记基因;然而,在一些相关研究中,某些细胞标记物出现在附图或补充材料中。此外,没有标准的组织命名法,例如在单细胞研究中使用“腹水”,它经常被提及但不被视为组织。我们目前为两种候选组织提供了一种模式,以尽可能满足自动提取需求。与识别细胞和基因实体不同,正确的组织信息通常依赖于对整个文本的全面理解。尽管我们试图从标题,摘要,结果和方法分开提取组织信息,但我们依靠不同组织的频率选择适当的真实组织。在某些情况下,提取的组织仍然是错误的,因此提取组织信息的准确性不是特别高。此外,为了平衡计算资源和时间,我们仅分析了人类和小鼠scrna-seq文献,因为不同物种的基因名称并不完全相同,现有的数据准备人类和小鼠不能直接应用于新的。物种。如果需要从其他物种的文献中提取细胞标记基因,则有必要组织和构建一个新的基因词典。最后,NLP系统的最明显优势是它能够快速提取包含关键术语(细胞和基因)并确定其关联关系的句子的能力,没有针对单元格的统一名称或分类系统,并且细胞名称在很大程度上受个人影响。写作习惯,例如T细胞,T细胞,B细胞,CD4 + T细胞,CD4 T细胞和CD8 + T细胞。为了更好地构建细胞标记数据库,根据真实细胞类型对不同的单元格进行分类仍然是人手册和NLP自动化方法的巨大挑战。

在比较细胞标记物Markergenebert和CellMarker2.0期间,在Cellmarker2.0和Markergenebert中检测到802个细胞类型,但由于模型预测的概率明显降低,因此被归类为非标记相关(补充图4)。另外,其他242种细胞类型的文本符合模型阈值。但是,这些细胞的复杂语法结构当前挑战了我们识别其中的细胞标志物对的方法。

singlecellbase先前是由我们的Team9发表的,所有913个细胞类型,它们的相应标记基因,即它们的相应标记基因,手动收集,提取和标准化关系证据甚至来源618单细胞分析出版物。鉴于基因标记和单细胞名中的标准化和重命名,可能存在与原始文本的某些差异。我们以一对一的文献比较了Markergenerbert的产量与618个出版物中的单核基因的细胞标记基因对。评估显示,完整性率为71%,精度得分为75%,略有落后于从Cellmarker2.0分析获得的比较结果。

与人工方法进行比较,Markergenebert模型已达到了可用的水平。,它可以显着加速提取细胞标记信息的效率。当然,随后手动审查结果会更好。我们将来的目标是为与标记相关的文本分类模型培训合并一个更多样化的培训数据集,以进一步适应与标记相关的文本的筛查。

结论

一个名为Markergenebert的基于NLP的文本挖掘系统,可从PubMed和PubMed Central中得出的文献中识别文本和表格中的细胞和标记基因。使用人为注释的标记相关句子,我们构建了一个有监督的文本分类模型,以最初筛选包含基因和细胞名称的文本。然后,根据与标记相关的模式从这些文本中提取细胞和标记基因。与Cellmarker2.0相比,我们的细胞标记基因鉴定管道可实现75%的准确性和76%的完整性,证明了NLP文本挖掘的细胞标记基因提取的成功和最新。

数据。可用性

本研究中生成或分析的所有数据都包含在本已发布的文章及其补充信息文件中。Markergenebert及其源代码托管在https://github.com/chengpeng1116/markergenebert.

references

<
    < <<<<<<<

    Jovic,D。等。单细胞RNA测序技术和应用:简要概述。临床。译。医学。12(3),e694(2022)。

  • Zhang,A。W.等。单细胞RNA-Seq的概率细胞类型分配肿瘤微环境分析。纳特。方法16(10),10071015(2019)。

  • shao,X.等。SCCATCH:来自单细胞RNA测序数据的簇类型的自动注释。Iscience 23(3),100882(2020)。

  • aran,D。等。基于参考的肺单细胞测序分析揭示了过渡性纤维化巨噬细胞。纳特。免疫学。20(2),163172(2019)。

  • pliner,H。A.,Shendure,J。

摘要

摘要单细胞 RNA 测序 (scRNA-seq) 已成为探索不同物种和组织细胞景观的关键工具。为了减轻全面捕获所有细胞名称的潜在限制,特别是对于“CD4 T 细胞”等三个模型可能提取不同细胞实体的情况,我们对不同模型在同一位置识别的细胞名称进行了比较和补全。文本。具体来说,我们采用“en_ner_craft_md”模型来识别与标题部分、方法部分和结果部分第一段中的文本分开的物种实体。在细胞标记MarkerGeneBERT和Cellmarker2.0的比较过程中,Cellmarker2.0和MarkerGeneBERT检测到了802种细胞类型,但由于模型预测的概率明显较低,它们被归类为非标记相关(补充图. 51(D1), D870D876 (2023).Franzen, O., Gan, L. M., Bjorkegren, J. L. M. PanglaoDB:用于探索小鼠和人类单细胞 RNA 测序数据的网络服务器。