作者:Meghan Heintz
它们在欧几里得 (x, y) 空间中的建模都很差,并且需要对复杂、大型和异构的图进行编码才能真正理解。
图表是表示金融网络和蛋白质结构中关系数据的自然方式。它们捕捉实体之间的关系和相互作用,例如金融系统或债券中账户之间的交易以及蛋白质中氨基酸之间的空间邻近性。然而,更广为人知的深度学习架构(如 RNN/CNN 和 Transformer)无法有效地对图进行建模。
您可能会问自己为什么我们不能将这些图形映射到 3D 空间?如果我们强迫它们进入 3D 网格:
鉴于这些限制,图神经网络 (GNN)作为一个强大的替代方案。在我们的系列的延续中生物学应用的机器学习,我们将探讨 GNN 如何应对这些挑战。
与往常一样,我们将从更熟悉的欺诈检测主题开始,然后了解如何在生物学中应用类似的概念。
为了一目了然,我们首先定义什么是图表。我们记得小学时在 x、y 轴上绘制图表,但我们真正做的是绘制函数图我们绘制了 f(x)=y 的点。当我们在 GNN 的背景下谈论“图”时,我们的意思是对对象之间的成对关系进行建模,其中每个对象是一个节点,关系是边。
在金融网络中,节点是账户,边缘是交易。该图表将根据关联方交易 (RPT) 构建,并可通过属性(例如时间、金额、货币)进行丰富。
传统的基于规则的机器学习方法通常在单个交易或实体上运行。这种限制无法解释交易如何连接到更广泛的网络。由于欺诈者经常跨多个交易或实体进行操作,因此欺诈行为可能不会被发现。
通过分析图表,我们可以捕获直接邻居和更远的连接之间的依赖关系和模式。这对于检测资金通过多次交易转移以掩盖其来源的洗钱行为至关重要。GNN 阐明了洗钱方法创建的密集子图。
与其他深度学习方法一样,目标是从数据集中创建表示或嵌入。在 GNN 中,这些节点嵌入是使用消息传递框架创建的。消息在节点之间迭代传递,使模型能够学习图的局部和全局结构。每个节点嵌入都根据其邻居特征的聚合进行更新。
该框架的概括如下:
学习节点嵌入后,可以通过几种不同的方式计算欺诈分数:
现在我们对 GNN 对于一个熟悉的问题有了基本的了解,我们可以转向 GNN 的另一个应用:预测蛋白质的功能。
我们已经通过 AlphaFold 看到了蛋白质折叠预测方面的巨大进步2和3和蛋白质设计通过射频扩散。然而,蛋白质功能预测仍然具有挑战性。出于多种原因,功能预测至关重要,但在生物安全领域尤其重要,可以在测序前预测 DNA 是否会孤雌生殖。传统方法如爆炸依赖序列相似性搜索并且不结合任何结构数据。
如今,GNN 开始利用蛋白质的图形表示来模拟残基及其相互作用之间的关系,从而在这一领域取得有意义的进展。它们被认为非常适合蛋白质功能预测以及识别小分子或其他蛋白质的结合位点并根据活性位点几何形状对酶家族进行分类。
在很多例子中:
这种方法背后的原理是图的固有能力,可以捕获序列中距离较远但折叠结构中距离较近的残基之间的长程相互作用。这类似于为什么 Transformer 架构对 AlphaFold 2 如此有帮助,它允许跨序列中的所有对进行并行计算。
为了使图信息密集,每个节点都可以通过残基类型、化学性质或进化保守分数等特征来丰富。边缘可以选择性地丰富属性,如化学键类型、3D 空间中的接近度以及静电或疏水相互作用。
深部FRI是一种根据结构预测蛋白质功能的 GNN 方法(特别是图卷积网络 (GCN))。GCN 是一种特定类型的 GNN,它将卷积的概念(在 CNN 中使用)扩展到图形数据。
在 DeepFRI 中,每个氨基酸残基都是一个富含以下属性的节点:
每个边缘被定义为捕获蛋白质结构中氨基酸残基之间的空间关系。如果两个节点(残差)的距离低于某个阈值(通常为 10 ×),则它们之间存在边。在此应用程序中,边缘没有属性,充当未加权连接。
该图使用 LSTM 生成的序列嵌入的节点特征以及从残基接触图创建的残基特定特征和边缘信息进行初始化。
定义图后,消息传递将通过三层中每一层的基于邻接的卷积进行。节点特征是使用图的邻接矩阵从邻居聚合的。堆叠多个 GCN 层允许嵌入从越来越大的邻域捕获信息,从直接邻居开始,扩展到邻居的邻居等。
最终的节点嵌入被全局汇集以创建蛋白质级嵌入,然后用于将蛋白质分类为层次相关的功能类别(GO 术语)。分类是通过将蛋白质级嵌入传递到具有 sigmoid 激活函数的完全连接层(密集层)来执行的,并使用二元交叉熵损失函数进行优化。分类模型根据来自蛋白质结构(例如来自蛋白质数据库)的数据和来自 UniProt 或 Gene Ontology 等数据库的功能注释进行训练。
干杯,如果您喜欢这篇文章,请查看我的其他文章机器学习和生物学。