英语轻松读发新版了,欢迎下载、更新

您的DNA是一种机器学习模型:它已经在那里|迈向数据科学

2025-06-02 19:15:37 英文原文

作者:Shafeeq Ur Rahaman

避免脱氧核糖核酸23andMe或Ancestry之类的测试服务将帮助您保护最机密的数据。但是,实际上,这种控制逐渐减弱了。

借助当今的基因组数据和高级推理方法,人们可以在不需要输入的情况下重建您的遗传概况。这可能不会发生。它正在发生。这是机器学习用于大量与家庭相关数据的典型结果。

如今,基因组系统更像是团队合作而不是独立档案。当数据,遥远的表亲和二级亲戚中有足够的遗传亲密关系时,该模型可以猜测您的特征,您的风险甚至DNA的一部分。发生的不是数据的盗窃,而是数据对数据进行统计分组的方式。

本文解释了使之成为可能的技术变化,将它们链接到常见的ML方法,并讨论生物学与行为一样可预测的含义。

预测金州杀手,没有发现

当警察逮捕2018年的黄金州杀手,他们没有将他的DNA与数据库中的任何内容相匹配。作为替代方案,他们将犯罪现场DNA放在GedMatch上,并确定了一个亲戚,第三个表弟。之后,他们建立了一棵部分家谱,并使用遗传三角剖分和谱系推理发现了嫌疑人。

允许逮捕的不是存在数据,而是如何存储数据。当足够的亲戚共享他们的遗传数据时,研究人员就能重建目标基因组可能看起来像。本质上,这是一个图形搜索问题,其中生物网络几乎没有标签,并且搜索受重组和继承模式的限制。

该案件不是在寻找确切匹配的基础上建立的。它从最近的邻居分类中应用了这个想法,该想法认为相似性是基于共享的单倍型块和关系数据的概率谱系确定的。

取证并不是一个重大进步。它提醒您,您的DNA现在以您可能不同意的方式连接到其他人的数据。

DNA推断是在生物学约束的高维空间中最近的邻居搜索

在机器学习中,我们通常会描绘最近的邻居(K-NN)分类,其中具有清晰,数字特征的欧几里得空间中的点。基因组推断遵循相同的模式,除了特征空间还包括生物学连接。

人类基因组学中的每个人被表示为数百万个单核苷酸多态性(SNP)的清单,这些核苷酸多态性(SNP)通常被编码为0、1或2,以指示每个等位基因的数量。尽管原始数据可以包含超过100万个功能,但PCA和IBD用于减少数据,以确保保留遗传相似性。

实际上,该空间起着在生物学上重要的结构,受人群组织,共同的历史和进化压力的影响。遗传相似性得分,包括亲属系数,IBD段或F英石距离,现在替代欧几里得距离。

在这种情况下,研究人员在GedMatch的基因型空间上执行最近的邻居查询,通过检查共享的单倍型块和重组模式来测量相似性,而不是使用余弦距离或L2 Norm。

当发现第三个堂兄时,搜索使用生物学规则在家谱图上向后进行,以识别可能将亲戚与未知人联系起来的可能基因组。

该过程通过组合受约束的K-NN搜索,图形遍历和概率过滤来起作用。

  • k-nn找到最接近遗传学的节点
  • 血统图概述了搜索的局限性。
  • 统计插补模型取代了缺失的变体。

结果不是分类,而是一种新的基因型。

它不仅仅是标准推断。这种工程方法利用家庭关系来了解表型。这意味着您的DNA几乎可以完全重建,即使您以前没有对基因组进行测序,因为您周围的遗传区域充满了数据。

在数据科学中,这被称为由潜在图引起的特征泄漏。与密码或电子邮件地址相反,不可能重置您的基因组。

DNA推断:两种统计方法。(作者的图像)

多基因风险评分是基因组合的

我发现多基因风险评分(PRS)在我在预测模型上的工作中。当时,我的团队正在通过行为进行风险分类。尽管如此,我发现PR与我们的方法类似于我们的方法,而不是使用调查或可穿戴设备,它利用了大量的SNP分布在整个基因组中。

PR是来自一组较大但稀疏的特征的加权值的总和。在大多数情况下,这些分数是使用GWAS摘要统计数据使用套索或弹性净惩罚回归技术产生的。旨在解决SNP相关性问题的一些模型,例如贝叶斯收缩或方法(例如LDPRED或PRS-CS)的方法。

那些不从事遗传学的人经常忽略的是,训练有素的模型能够自行概括。如果您的亲戚基因组数据存在并与健康结果有关,则该模型将能够估算您的基因组风险,而无需检查它。

换句话说,PRS的工作就像是一组生物学家推荐音乐。遗传上相似的人用于帮助您在特质空间中找到自己的位置。如果该模型发现您周围的许多特定疾病的人都有相同的基因型,那么即使您不参加研究,它也会开始警告您这种风险。

但是,一旦预测进入循环,它就为科学见解而打开了大门,而是为了操纵。也可以利用告知模型的相同模型。

当对手参与者进入循环时会发生什么?

当我们将DNA数据库视为预测系统时,我们也继承了它们的脆弱性。一旦基因组变得可查询,可推断并在公共和商业平台之间建立了联系,对抗行为就会成为一种建模风险,而不仅仅是一种道德风险。

基因组后溶剂作为反模型

假设您的亲戚中有足够的基因组上传到打开数据库。在这种情况下,攻击者可以根据共享的单倍型和已知的继承模式来重建DNA的可能段。这不是假设的:研究人员已经证明,使用第三级级别的数据,有可能近似具有> 60%精度的人的基因组。

与机器学习中的模型反转攻击相距不远,有人从模型输出中重建培训数据。仅在这里,模型才是人口的关系结构。

影子评分和风险定价

保险公司和数据经纪人可能无法访问您的原始DNA,但是通过访问人口统计数据和公共亲属关系,他们可以通过代理建模来预测您的多基因风险评分。即使不违反GINA(美国遗传信息非歧视法案),他们也可以使用外部推论来默默地重新排列您,从而影响信用,健康产品或资格概况。

这是算法红线的基因组知情版本,并且可以看不见。

对抗亲戚和基因组中毒

如果有人故意上传操纵的基因组毒害目标的概况怎么办?由于这些系统依靠亲戚之间的统计一致性,因此改变或伪造的细分可能会偏向推理引擎。想象一下,有人轻推您的推断基因组来增加您患病的风险,或者错误地使您与犯罪现场序列保持一致。

跨推理,评分和数据完整性的对抗性建模风险。(作者的图像)

结论

本文的编写是为了打开一个容易错过的现实,即使对于我们从事机器学习的人来说:基因组数据也不需要直接收集以准确地建模。

在整个作品中,我探讨了基因组推断如何像最近的邻居分类一样运行,多基因风险评分如何类似于集合回归,以及关系图结构如何使用统计接近度重建您的DNA。如果您曾经建立过协作过滤系统,那么您已经了解了这些方法背后的逻辑,但可能并不希望它适用于像您的基因组这样的个人。

这是更深的观点。这不是一个隐私故事。这是一个建模故事,讲述了生物数据的结构如何使推理不仅成为可能,而且是不可避免的。无论您是否对DNA进行了测序,您现在都是模型的一部分,因为与您联系的人已经足够了。

在大规模推理系统的时代,它不再足够询问谁拥有数据。我们必须询问谁拥有模式,因为模式概括,并且概括不需要许可。

关于《您的DNA是一种机器学习模型:它已经在那里|迈向数据科学》的评论


暂无评论

发表评论

摘要

避免DNA测试服务似乎是一种保护您的隐私的一种方式,但是通过先进的机器学习技术,现在可以从与公开可用的家庭相关基因组数据中推断出您的遗传概况。这不是投机性的;今天,通过在生物学上受约束的高维空间中以及使用来自大型SNP数据集的多基因风险评分中的最接近邻居搜索。由于足够多的亲戚在GedMatch等平台上共享其DNA,研究人员可以预测基因组未直接测序的个体的特征和健康风险。随着基因组数据变得越来越互连并且容易受到对抗操纵的影响,这引起了重大隐私和道德问题。