您体内的每个细胞都包含相同的遗传序列,但每个细胞仅表示这些基因的一个子集。这些细胞特异性的基因表达模式确保脑细胞与皮肤细胞不同,部分取决于遗传物质的三维结构,该结构控制着每个基因的可及性。
现在,麻省理工学院的化学家提出了一种新的方法来使用生成人工智能来确定这些3D基因组结构。他们的技术可以在短短几分钟内预测数千种结构,从而比现有的实验方法快得多,用于分析结构。
使用这种技术,研究人员可以更轻松地研究基因组的3D组织如何影响单个细胞基因的表达模式和功能。
我们的目标是试图从基础DNA序列中预测三维基因组结构。现在,我们可以做到这一点,这使得这项技术与尖端的实验技术相提并论,它确实可以打开很多有趣的机会。”
麻省理工学院的研究生Greg Schuette和Zhuohan Lao是该论文的主要作者今天出现科学进步。
从序列到结构
在细胞核内,DNA和蛋白质形成一种称为染色质的复合物,该复合蛋白具有多种组织,使细胞可以将2米的DNA塞入一个核中,而直径仅为一毫米的100毫米。DNA在蛋白质周围的一长串被称为组蛋白,从而产生了某种类似于弦上的珠子的结构。
被称为表观遗传修饰的化学标签可以连接到特定位置的DNA,这些标签因细胞类型而变化,会影响染色质的折叠和附近基因的可及性。染色质构象的这些差异有助于确定哪些基因在不同的细胞类型中或在给定细胞内的不同时间表达。
在过去的20年中,科学家开发了用于确定染色质结构的实验技术。一种被称为HI-C的广泛使用的技术通过将细胞核中的相邻DNA链连接在一起。然后,研究人员可以通过将DNA切成许多小块并对其进行排序来确定哪些片段相互靠近。
该方法可用于大量细胞种群,以计算一部分染色质或单个细胞的平均结构,以确定该特定细胞内的结构。但是,HI-C和类似技术是劳动密集型的,从一个单元格生成数据可能需要大约一周的时间。
为了克服这些局限性,张和他的学生开发了一个模型,该模型利用了生成AI的最新进展,从而创建了一种快速,准确的方法来预测单个细胞中的染色质结构。他们设计的AI模型可以快速分析DNA序列并预测这些序列可能在细胞中产生的染色质结构。
张说,深度学习确实擅长模式识别。”它使我们能够分析非常长的DNA片段,数千个碱基对,并弄清楚这些DNA碱基对编码的重要信息是什么。
研究人员创建的模型Chomogen具有两个组成部分。第一个组件是一个深入学习的模型,教导了读取基因组,分析了基础DNA序列和染色质可访问性数据中编码的信息,后者广泛可用且特定于细胞类型。
第二个成分是一种生成的AI模型,该模型可以预测物理上精确的染色质构象,已接受超过1100万个染色质构象的训练。这些数据是通过使用DIP-C(HI-C的变体)从16个细胞中的人类B淋巴细胞上的16个细胞上产生的。
集成后,第一个组件会为生成模型提供特定于特定于细胞类型的环境如何影响不同染色质结构的形成,并且该方案有效地捕获了序列结构关系。对于每个序列,研究人员都会使用其模型生成许多可能的结构。这是因为DNA是一个非常无序的分子,因此单个DNA序列会产生许多不同可能的构象。
预测基因组结构的一个主要复杂因素是,我们没有一种解决方案。无论您看的基因组的哪一部分,结构的分布。Schuette说,预测非常复杂,高维统计分布是极具挑战性的事情。”
快速分析
一旦受过训练,该模型就可以比HI-C或其他实验技术在更快的时间表上产生预测。
``虽然您可能会花六个月的时间在给定的单元格中获得几十个结构,但您可以在20分钟内使用一个GPU在20分钟内使用我们的模型在特定区域生成一千个结构,” Schuette说。”
在训练他们的模型之后,研究人员使用它来生成2,000多个DNA序列的结构预测,然后将它们与这些序列的实验确定的结构进行了比较。他们发现,该模型产生的结构与实验数据中看到的结构相同或非常相似。
张说,我们通常会查看每个序列的数百或数千种构象,这使您可以合理地表示特定地区可以拥有的结构的多样性。”如果您多次重复实验,在不同的单元格中,您很可能会以截然不同的构象。这就是我们的模型试图预测的。
研究人员还发现,该模型可以从培训培训的细胞类型的数据中对数据进行准确的预测。这表明该模型对于分析细胞类型之间的染色质结构如何差异以及这些差异如何影响其功能很有用。该模型还可以用于探索单个细胞中可能存在的不同染色质状态,以及这些变化如何影响基因表达。
另一个可能的应用是探索特定DNA序列中的突变如何改变染色质构象,这可能会阐明这种突变如何引起疾病。
张说,我认为我们可以通过这种模型解决了很多有趣的问题。”
研究人员制作了所有数据和模型可用的给其他希望使用它的人。
该研究由美国国立卫生研究院资助。