英语轻松读发新版了,欢迎下载、更新

图神经网络:欺诈检测和蛋白质功能预测

2024-11-22 03:37:22 英文原文

作者:Meghan Heintz

机器学习工程师了解人工智能在生物领域的应用

Meghan Heintz

Towards Data Science

摄影:康尼·施奈德在未飞溅金融交易网络和蛋白质结构有什么共同点?

它们在欧几里得 (x, y) 空间中的建模都很差,并且需要对复杂、大型和异构的图进行编码才能真正理解。

左:欧几里得空间中的图像。右:非欧几里得空间中的图。来自图神经网络:方法和应用回顾

图表是表示金融网络和蛋白质结构中关系数据的自然方式。它们捕捉实体之间的关系和相互作用,例如金融系统或债券中账户之间的交易以及蛋白质中氨基酸之间的空间邻近性。然而,更广为人知的深度学习架构(如 RNN/CNN 和 Transformer)无法有效地对图进行建模。

您可能会问自己为什么我们不能将这些图形映射到 3D 空间?如果我们强迫它们进入 3D 网格:

  • 我们会丢失边缘信息,例如分子图中的键类型或交易类型。
  • 映射需要填充或调整大小,从而导致扭曲。
  • 稀疏的 3D 数据结果会导致许多未使用的网格单元,浪费内存和处理能力。

鉴于这些限制,图神经网络 (GNN)作为一个强大的替代方案。在我们的系列的延续中生物学应用的机器学习,我们将探讨 GNN 如何应对这些挑战。

与往常一样,我们将从更熟悉的欺诈检测主题开始,然后了解如何在生物学中应用类似的概念。

为了一目了然,我们首先定义什么是图表。我们记得小学时在 x、y 轴上绘制图表,但我们真正做的是绘制函数图我们绘制了 f(x)=y 的点。当我们在 GNN 的背景下谈论“图”时,我们的意思是对对象之间的成对关系进行建模,其中每个对象是一个节点,关系是边。

在金融网络中,节点是账户,边缘是交易。该图表将根据关联方交易 (RPT) 构建,并可通过属性(例如时间、金额、货币)进行丰富。

传统的基于规则的机器学习方法通​​常在单个交易或实体上运行。这种限制无法解释交易如何连接到更广泛的网络。由于欺诈者经常跨多个交易或实体进行操作,因此欺诈行为可能不会被发现。

通过分析图表,我们可以捕获直接邻居和更远的连接之间的依赖关系和模式。这对于检测资金通过多次交易转移以掩盖其来源的洗钱行为至关重要。GNN 阐明了洗钱方法创建的密集子图。

关联方转移网络的示例利用GNN检测基于关联交易网络的金融欺诈

消息传递框架

与其他深度学习方法一样,目标是从数据集中创建表示或嵌入。在 GNN 中,这些节点嵌入是使用消息传递框架创建的。消息在节点之间迭代传递,使模型能够学习图的局部和全局结构。每个节点嵌入都根据其邻居特征的聚合进行更新。

该框架的概括如下:

  • 初始化:嵌入高压(0)使用关于节点的基于特征的嵌入、随机嵌入或预先训练的嵌入(例如帐户名称的单词嵌入)进行初始化。
  • 消息传递:在每一层t,节点与其邻居交换消息。消息被定义为发送方节点的特征、接收方节点的特征以及连接它们的边的特征,这些特征组合在一个函数中。组合函数可以是具有固定权重方案的简单串联(由图卷积网络,GCN)或注意力加权,其中权重是根据发送者和接收者的特征(以及可选的边缘特征)学习的(由图注意力网络、关贸总协定)。
  • 聚合:在消息传递步骤之后,每个节点聚合接收到的消息(就像平均值、最大值、总和一样简单)。
  • 更新:然后,聚合的消息通过更新函数(可能是 MLP(多层感知器),如 ReLU、GRU(门控循环单元)或注意机制)更新节点的嵌入。
  • 最终确定:与其他深度学习方法一样,当表示稳定或达到最大迭代次数时,嵌入就会最终确定。
消息传递神经网络 (MPNN) 层中的节点表示更新。节点接收其所有直接邻居发送到 的消息。消息是通过消息函数进行计算的,消息函数考虑了发送者和接收者的特征。图神经网络。(2024 年,11 月 14 日)。在维基百科https://en.wikipedia.org/wiki/Graph_neural_network

学习节点嵌入后,可以通过几种不同的方式计算欺诈分数:

  • 分类:最终的嵌入被传递到像多层感知器这样的分类器中,这需要一个全面的标记历史训练集。
  • 异常检测:根据嵌入与其他嵌入的区别程度,该嵌入被分类为异常。基于距离的分数或重建误差可用于无监督方法。
  • 图级评分:其中嵌入被汇集到子图中,然后输入到分类器中以检测欺诈环。(再次需要标签历史数据集)
  • 标签传播:一种半监督方法,其中标签信息根据边权重或图连接性进行传播,从而对未标记的节点进行预测。

现在我们对 GNN 对于一个熟悉的问题有了基本的了解,我们可以转向 GNN 的另一个应用:预测蛋白质的功能。

我们已经通过 AlphaFold 看到了蛋白质折叠预测方面的巨大进步23和蛋白质设计通过射频扩散。然而,蛋白质功能预测仍然具有挑战性。出于多种原因,功能预测至关重要,但在生物安全领域尤其重要,可以在测序前预测 DNA 是否会孤雌生殖。传统方法如爆炸依赖序列相似性搜索并且不结合任何结构数据。

如今,GNN 开始利用蛋白质的图形表示来模拟残基及其相互作用之间的关系,从而在这一领域取得有意义的进展。它们被认为非常适合蛋白质功能预测以及识别小分子或其他蛋白质的结合位点并根据活性位点几何形状对酶家族进行分类。

在很多例子中:

  • 节点被建模为氨基酸残基
  • 边作为它们之间的相互作用

这种方法背后的原理是图的固有能力,可以捕获序列中距离较远但折叠结构中距离较近的残基之间的长程相互作用。这类似于为什么 Transformer 架构对 AlphaFold 2 如此有帮助,它允许跨序列中的所有对进行并行计算。

为了使图信息密集,每个节点都可以通过残基类型、化学性质或进化保守分数等特征来丰富。边缘可以选择性地丰富属性,如化学键类型、3D 空间中的接近度以及静电或疏水相互作用。

深部FRI是一种根据结构预测蛋白质功能的 GNN 方法(特别是图卷积网络 (GCN))。GCN 是一种特定类型的 GNN,它将卷积的概念(在 CNN 中使用)扩展到图形数据。

DeepFRI 图:LSTM 语言模型,在约 200 万个 Pfam 蛋白序列上进行预训练,用于提取 PDB 序列的残基级别特征。(B) 具有 3 个图卷积层的 GCN,用于学习复杂的结构与函数关系。从使用图卷积网络进行基于结构的函数预测

在 DeepFRI 中,每个氨基酸残基都是一个富含以下属性的节点:

  • 氨基酸类型
  • 理化性质
  • 进化信息来自MSA
  • 来自预训练 LSTM 的序列嵌入
  • 结构背景,例如溶剂可及性。

每个边缘被定义为捕获蛋白质结构中氨基酸残基之间的空间关系。如果两个节点(残差)的距离低于某个阈值(通常为 10 ×),则它们之间存在边。在此应用程序中,边缘没有属性,充当未加权连接。

该图使用 LSTM 生成的序列嵌入的节点特征以及从残基接触图创建的残基特定特征和边缘信息进行初始化。

定义图后,消息传递将通过三层中每一层的基于邻接的卷积进行。节点特征是使用图的邻接矩阵从邻居聚合的。堆叠多个 GCN 层允许嵌入从越来越大的邻域捕获信息,从直接邻居开始,扩展到邻居的邻居等。

最终的节点嵌入被全局汇集以创建蛋白质级嵌入,然后用于将蛋白质分类为层次相关的功能类别(GO 术语)。分类是通过将蛋白质级嵌入传递到具有 sigmoid 激活函数的完全连接层(密集层)来执行的,并使用二元交叉熵损失函数进行优化。分类模型根据来自蛋白质结构(例如来自蛋白质数据库)的数据和来自 UniProt 或 Gene Ontology 等数据库的功能注释进行训练。

  • 图对于对许多非线性系统进行建模非常有用。
  • GNN 通过结合本地和全局信息来捕获传统方法难以建模的关系和模式。
  • GNN 有很多变体,但(目前)最重要的是图卷积网络和图注意力网络。
  • GNN 可以使用有监督和无监督的方法高效且有效地识别洗钱计划中存在的多跳关系。
  • GNN 可以通过整合结构数据来改进仅基于序列的蛋白质功能预测工具(例如 BLAST)。这使得研究人员能够预测与已知蛋白质具有最小序列相似性的新蛋白质的功能,这是了解生物安全威胁和实现药物发现的关键一步。

干杯,如果您喜欢这篇文章,请查看我的其他文章机器学习和生物学。

关于《图神经网络:欺诈检测和蛋白质功能预测》的评论


暂无评论

发表评论

摘要

图神经网络 (GNN) 被认为是对金融网络和蛋白质结构等生物系统中复杂关系数据进行建模的强大工具。与 CNN 或 RNN 等传统深度学习方法不同,GNN 擅长捕获远程交互和多跳关系,这对于检测洗钱计划和根据结构信息预测蛋白质功能至关重要。GNN 的变体,包括图卷积网络 (GCN) 和图注意力网络 (GAT),提供了不同的方法来聚合邻域信息。像 DeepFRI 这样的 GCN 通过利用富含残基特征和空间关系的图形表示来预测蛋白质功能,从而在生物安全应用和药物发现方面超越了 BLAST 等基于序列的方法。GNN 代表了跨领域非线性系统建模的重大进步。