2024-10-14 01:58:04 · 英文原文

一种用于检测死亡调查笔记中自杀情况不一致性的自然语言处理方法

作者：Peng, Yifan

介绍

近年来，美国自杀死亡人数出现了令人担忧的增长，在2000年至2021年间，自杀率上升了36%。¹了解自杀的情况对于有效的干预和预防自杀的政策制定是至关重要的。

国家暴力死亡报告系统（NVDRS）是一项全面的监测计划，从美国所有50个州、华盛顿特区和波多黎各收集暴力致死数据。²它详尽地记录了自杀受害者的相关信息，包括人口统计学特征和关键的社会决定因素（SDoH）。数据库还包含了每起事件的死亡调查笔记，描述了可能导致自杀的情境。NVDRS对一系列自杀情境变量进行了编码。³这些是由人工摘要者利用死亡调查记录中的信息手动标注的。⁴这些自杀情境变量表明了与自杀相关的社会因素的存在状态（例如，家庭关系危机、心理健康危机和身体健康危机）。NVDRS提供了一本标准化的编码手册以维持数据质量，并为注释员（即摘要提取人员）提供了常规编码培训。然而值得注意的是，只有5%的事件注释由两位独立的注释员进行了验证，而剩余的95%的数据则依赖于单一注释员的评估。⁴这种缺乏同行验证过程增加了在州级甚至州内级别上标注不一致的风险。此外，尽管标注人员遵守编码指南，但由于可能存在的专业知识差距和人为错误，仍存在标注不一致的潜在可能性。⁵.

在我们之前的研究中，我们开发了自然语言处理（NLP）方法从NVDRS叙述中提取自杀情况³我们的研究突出了各州之间表现的差异，并提出了对NVDRS数据注释不一致性的担忧。若干研究探讨了通过各种方法解决NLP中数据标注错误的问题。^{6,7,8,9,10,11,12,13}例如，利用传统的概率方法¹⁴训练机器学习模型（例如支持向量机）^{15,16,17,18,19,20,21,22}并通过主动学习开发生成模型²³然而，传统的概率方法无法处理罕见事件或比较概率相似的事件。这主要是因为这些概率难以高置信度地计算和比较。同时，传统的监督训练模式在训练过程中需要高质量的标注数据。这对于应用到NVDRS数据集时是一个限制，因为在该数据集中只有5%的数据由两位标注员进行了验证。然而，之前的努力主要集中在一般领域的NLP任务上，如词性标注（POS）和命名实体识别（NER）。这些方法不能直接应用于识别自由文本死亡调查记录中的错误标签。

本研究介绍了一种基于变压器模型的实证自然语言处理方法，用于检测死亡调查记录中潜在的数据标注不一致。在我们的评估中，我们测量了所有美国州份自杀情况下的注释差异。在这里，我们将被评估的州称为“目标州”，其他所有州称为“其他州”。对于每个自杀情况变量，我们都训练了一个基于变压器的二元分类器。³使用从目标状态和其他状态采样的数据。然后，我们通过在排除目标状态的训练数据后重新训练分类器来评估标注不一致性的变化，以此确定F-1分数的变化情况。我们还设计了一个类似交叉验证的框架以识别导致这些不一致的问题数据实例。这些问题实例经过人工修正之后，我们再次训练了分类器以评估修正的有效性。在这项工作中，我们使用F-1分数作为比较的基础评价指标。F-1分数是精度（真正例预测占所有正例预测的比例）和召回率（真正例预测占所有实际正例的比例）的调和平均值，它将精度和召回率综合为一个单一的数值。较高的F-1分数表明模型性能更好。最后，我们分析了不同人口亚群体（年龄、性别、种族）的比值比（OR），以更好地理解偏见风险。

我们的实验表明，我们的方法在识别NVDRS死亡调查记录中的潜在标注错误方面是有效的。此外，纠正这些错误可使平均F-1得分提高3.85%。总之，我们旨在增强对NVDRS中未结构化死亡调查笔记中存在的注释不一致性的理解。通过解决这些不一致性，我们希望促进使用NVDRS数据来发现自杀情况，从而进行纵向变化分析和趋势分析，并帮助制定国家级、州级和地方层面的针对性自杀预防策略。

方法

数据源

本研究使用了国家暴力死亡报告系统（NVDRS）的数据集，涵盖了从2003年到2020年间在美国所有50个州、波多黎各和哥伦比亚特区记录的267,804起自杀死亡事件。²为了访问NVDRS数据集，研究人员必须满足一定的资格要求，并采取措施确保保密性和数据安全。我们的研究获得了NVDRS受控访问数据库（RAD）提案的批准，该提案授予我们访问数据并开展此处描述的工作所需的权限。我们还获得了威尔康奈尔医学研究院机构审查委员会对研究项目23-12026810-01的批准，该项目名为“使用AI/ML应对自杀危机”。

每个事件实例都附带两份死亡调查记录，一份来自法医（CME）视角，另一份来自执法部门（LE）视角。NVDRS为每个事件包含超过600个独特的数据元素，包括识别自杀危机的要素——即发生在自杀身亡前两周内的导致自杀发生的诱发事件。⁴自杀危机的例子包括家庭关系、身体健康和心理健康危机。自杀危机是根据CME和LE报告的内容进行标注的。数据标注员（即摘要者）从预定义的危机列表中选择，并且必须为每次事件编码所有已知的相关危机。如果CME报告或LE报告中表明存在某种危机，标注员必须在数据库中确认并记录这一危机。⁴.

本研究有三个任务：验证跨状态注释不一致，识别导致这些不一致的具体数据实例，并在移除已识别的问题数据实例后验证注释一致性是否有所改善。我们介绍了我们的方法并使用三种危机作为示例进行实验：家庭关系危机、心理健康危机和身体健康危机（按状态统计的详细信息见表）1这些变量因其在NVDRS数据集中正例较多以及先前工作中显示的分类效果较差而被选中。³这些三种危机的定义和例子可以在补充表中找到。1我们也通过数据预处理解决了NVDRS数据集中的正负类不平衡问题。首先，排除了阳性实例少于10个的州，以确保有足够的训练数据。接下来，对于每个危机事件，我们为每个州创建了一个平衡的类别分布，保留所有的阳性实例，并对阴性实例进行下采样，确保两类数量相等。

表1 各州数据统计

验证标注不一致性

受曾等人的启发¹³我们的方法基于这样的假设，即如果两个数据集的标签标注一致，那么分别在这两个数据集上训练出来的模型在应用于对方数据集时应该表现出相同的预测能力。实际操作中，给定一个数据集D如果我们使用它的子集之一来训练模型以预测剩余部分，我们预计两个子集的评估性能将是相当的。

基于这一假设，我们首先探索目标状态下的标签标注是否成立s与所有其他州的一致（图中的步骤1）1具体来说，给定目标状态的标注数据$D_s \subset D$(哪里D_s大小为x我们采样m独占子集（每个子集的大小为）x从其他州的标注数据中，表示为D_其他值得注意的是$D_s \cap D_{其他} =$∅.

然后我们将其拆分D_s以及D_其他分别将数据集划分为训练集、验证集和测试集，比例为8:1:1，并构建三个相同大小的训练集：(1) PureOthers仅包含来自目标州以外的样本；(2) Others+Target结合其他州和目标州的样本；(3) Target+Others同样结合目标州和其他州的样本。对于每个训练集，我们使用基于变压器的二元分类器进行训练，具体采用的是来自Transformer的双向编码表示（BERT）模型。²⁴我们的目标是对比不同训练集组合之间的分类性能。具体来说，我们评估每个州与其他各州在身体健康、家庭关系和心理健康危机注释上的不一致情况。为了量化这种不一致性，我们计算了ΔF在目标状态和其他州的测试集上，不一致性被测量为使用混合训练数据（Others+Target和Target+Others）训练的模型的平均F-1得分与仅使用其他州的数据（PureOthers）训练的模型的F-1得分之间的差异。

$$\triangle F-1=({差异})\left({F-1}_{{混合}}-{F-1}_{{纯其他}}\right)$$

(1)

$${F-1}_{{混合}}=\text{平均值}\left({F-1}_{{其他}+{目标}},{F-1}_{{目标}+{其他}}\right)$$

(2)

当将目标状态的数据纳入训练时，使用更大的正样本ΔF在目标状态的测试集上为-1，伴随一个较小的负数ΔF在其他州的测试集上得分为-1，表示目标州与其他州之间的标注不一致更为明显。

识别有问题的实例

识别目标状态中可能导致标签不一致的问题数据实例D_s以及D_其他，我们介绍了一个k五折交叉验证方法（图中步骤2）1参考王等人方法的做法²¹我们的方法涉及以下步骤：我们将拼接D_s以及D_其他将其合并成一个数据集后，我们随机打乱数据以确保其充分混合，然后将打乱后的数据集划分成k折。每个独特的折被当作hold-out集处理，而其余的部分则作为剩余的数据集。k-1折用作训练集。我们为每个折训练独立的自杀情况分类器，以识别其中的问题实例。在整个过程中，每个单独的数据样本都会被分配到一个特定的折中，在交叉验证期间保持不变。这确保了每个数据样本在保留集中只使用一次，并且对模型的训练有所贡献。k-1次。对于hold-out集中的每个数据样本，我们将模型的预测与真实标签进行比较，并统计差异的数量。

为了减少随机性并增强研究结果的可靠性，我们重复了实验k-折交叉验证过程多次（即，n多次重复（根据给定的次数），在每次迭代中使用不同的随机数据分区和独立的随机种子。然后，对于数据集中的每个数据实例，我们得到n估计。我们用符号表示c_i (0 ≤ c_i≤n) 作为一个数据实例出现的次数x_i被标记为可能存在标签错误的n估计。这个数量c_i表示置信水平 rằngx_i可能包含标注错误。随后，我们对每个数据样本的预测错误计数应用阈值机制来处理这个问题。D_s这一阈值设定使我们能够有效识别并标记那些反复显示不一致性的数据实例。

验证标注一致性

一旦我们识别出有问题的数据实例在D_s我们的下一步是评估这些潜在错误是否对模型的性能产生负面影响。为此，我们将系统地从训练数据集中移除被识别为潜在错误的数据实例。通过移除这些实例并重新训练模型，我们可以评估这些潜在错误对模型性能的影响（图中的步骤3）。1为了衡量这些移除的有效性，我们引入了一个随机基线进行比较，该基线从训练集中随机移除了与那些被识别为有问题的实例相同数量的实例。

在另一个方面，我们的工作扩展到潜在错误的手动校正。在识别出潜在错误后，我们招募了两位标注员来手动识别和纠正实际的误标。实际的误标被定义为两位标注员将原始注释标记为不正确的实例。两名标注员接受了根据NVDRS编码手册进行标签标注的培训，并通过讨论解决了分歧。我们的目标是展示一致性的标注如何提高分类器的表现。我们采用了一种增量训练范式，使用四个训练集来演示这一点（图）。2): 其他州加目标州，包含其他州的数据和目标州的原始数据；其他州加修正后的目标州，包含其他州的数据和修正后的目标州的数据；目标州加其他州，包含目标州的原始数据和其他州的数据，以及修正后的目标州加其他州，包含修正后的目标州的数据和其他州的数据。

对于每个训练集，我们逐步以增量的方式并采用一定的步长加入更多的训练样本。T为了更细致地观察修正后的数据对模型性能的影响。我们训练分类模型并在测试集上分析其表现。这一过程有助于验证标签的一致性和修正数据的有效性。我们将所有实验重复进行n=5次使用不同的随机种子。

偏倚风险分析

为了更好地理解数据标注中的偏见风险，我们采用了逻辑回归模型来考察在剔除已识别错误后，自杀情况与人口统计变量（即种族、年龄和性别）之间的关系是否发生了变化。NVDRS根据死亡证明(DC)记录受害者事件发生时的性别。NVDRS遵循美国卫生与公众服务部(HHS)和管理与预算办公室(OBM)关于种族/族裔分类的标准，这些标准定义了联邦报告中收集和呈现有关种族和族裔数据的标准。在这项工作中，我们遵循HHS标准，并使用两个类别来划分族裔（西班牙裔或拉丁裔、非西班牙裔或拉丁裔），并根据OMB和HHS的标准使用五个类别来划分种族数据（美洲原住民或阿拉斯加土著人、亚洲人、黑人或非洲美国人、夏威夷原住民或其他太平洋岛民、白人）。为每种自杀情况开发了一个独立的逻辑回归模型。

具体来说，预测变量代表了特定的比较组（即黑人、年轻人（年龄在24岁以下）、女性），并被编码为1。然后将该比较组与参考组（即白人、成年人、男性）进行对比，后者被编码为0。我们使用从相应的逻辑回归模型中获得的预测变量系数估计值来计算每个比较组的比值比（OR）。OR量化了特定情况在比较组相对于参考组发生的可能性。OR的计算方法如下：$OR=e^{比较组系数估计}$OR大于1表示对照组的情况发生率高于参考组。我们进一步基于系数估计的标准误差和Z分数计算了每个OR的95%置信区间（CI）。

$${下限置信区间}={e}^{系数估计}-Z\times{标准误差},$$

$${较高CI界值}={e}^{系数估计}+Z\times {标准误差}$$

对于两个说明州（俄亥俄州和科罗拉多州），我们在三组标注中计算了每个情境变量的比值比：来自NVDRS的原始标注，去除我们方法识别出的错误后的标注，以及随机删除相同数量实例后的标注。通过比较不同标注集合中同一子组的比值比，我们可以检查自杀情境与人口统计学变量之间的关系是否发生了变化。

统计与可重复性

在这项研究中，我们使用了BioBERT²⁵作为我们的骨干模型，以其业界领先的表现而著称，如我们先前的研究所示。³BioBERT 可以处理最多包含 512 个令牌的序列，并生成 768 维的表示。大约有 5.1% 的 NVDRS 数据输入长度超过了 512 个令牌，在输入 BioBERT 前被截断了。我们将自杀危机检测视为一个文本分类问题，通过将 CME 和 LE 注释连接起来并馈送到 BioBERT 中进行训练，以判断文本中是否提到了感兴趣的自杀危机。我们在 BioBERT 上添加了一个完全连接的层用于分类。

对于每个危机，排除了阳性病例少于10例的州，以确保有足够的训练数据来验证标注的一致性。在实验中，我们进行了抽样m =从其他州的标注数据中抽取了4个独占子集。我们进行了五次实验（n= 5) 来在实现可靠评估和保持合理运行时间之间取得平衡。这也确保了训练集和测试集中包含足够的变化。每次迭代使用不同的随机种子，并报告微平均F-1分数的范围以及平均值。对于问题实例发现，我们选择了k= 5 для (此处上下文不全，不确定"for"后的具体含义，故保留原词)k-折交叉验证，遵循常见的机器学习实践。预测结果与真实标签之间的差异频率越高，错误的真实标签概率越大。我们将阈值设置为5，有效地将潜在错误的数量最小化。

在我们之前的研究中，我们将基于BERT的模型应用于NVDRS叙述中的危机分类。³我们在本研究中选择了身体健康、家庭关系和心理健康危机，因为与其他危机相比，这些危机的正面案例频率更高，且ROC曲线下的面积（AUC）评分较差（表）2和图。2在王等人的研究中³类似地，我们选择了俄亥俄州和科罗拉多州作为示例州，因为它们的阳性实例频率较高，并且在各州分类F-1分数方面优于其他州（表）A2并且A3在王等人的工作中³).

表2 识别出的问题数据实例统计

二元交叉熵损失和Adam优化器在模型训练中被使用。我们对所有模型进行了30个周期的训练，并根据它们在验证集上的表现来选择模型。框架是用PyTorch实现的。我们在Intel Xeon 6226 R 16核处理器和Nvidia RTX A6000 GPU上进行了实验。

报告摘要

有关研究设计的进一步信息可在以下位置获取：自然科研报道摘要与此文章相关联。