“可解释”的AI破解了粘蛋白的秘密语言

"Explainable" AI cracks secret language of sticky proteins — 使用荧光技术标记的细胞内部淀粉样蛋白聚集。学分：Benedetta Bolognesi/IBEC

AI工具已向翻译语言蛋白的使用迈出了一步，以决定它们是否形成类似于与阿尔茨海默氏病和其他五十种其他类型的人类疾病相似的粘性团块。在与典型的“ Black-Box” AI模型背道而驰的情况下，新工具Canya旨在解释其决策，揭示驱动或防止有害蛋白质折叠的特定化学模式。

发现，出版在日记中科学进步由于迄今为止创建的蛋白质聚合有史以来最大的数据集，这是可能的。这项研究给出了有关粘性蛋白质支撑的分子机制的新见解，这些蛋白质与影响全世界十亿人的疾病有关。

蛋白质团块或淀粉样蛋白聚集是一种破坏正常细胞功能的健康危害。当蛋白质中的某些斑块彼此粘附时，蛋白质会生长成具有病理后果的致密纤维肿块。

尽管该研究对加速神经退行性疾病的研究工作具有一些影响，但其对生物技术的影响更大。许多药物是蛋白质，通常会因不必要的结块而阻碍它们。

该研究的共同作者，加泰罗尼亚生物工程研究所（IBEC）的共同作者，蛋白质聚集是制药公司的主要头痛。”

她补充说：“如果治疗蛋白开始汇总，制造批次可能会失败，花费时间和金钱。Canya可以帮助指导努力来设计抗体和酶，这些抗体和酶不太可能凝聚在一起并减少此过程中昂贵的挫折。”

蛋白质结块是使用知识较低的语言形成的。蛋白质由二十种不同类型的氨基酸制成。蛋白质的语言不是构成DNA语言的通常的A，C，G，T字母，具有二十个不同的字母，其中形成“单词”或“图案”的不同组合。

长期以来，研究人员一直试图破译哪些基序的组合会导致结块，而其他基序则可以使蛋白质折叠而不会出错。治疗氨基酸（如神秘语言的字母）的人工智能工具可以帮助识别负责任的精确单词或图案，但是在历史上看，有关饲喂模型所需的蛋白质聚集的数据质量和数量一直很少或仅限于非常小的蛋白质片段。

该研究通过进行大规模实验来解决这一挑战。该研究的作者从头开始创造了超过100,000多个完全随机的蛋白质片段，每个氨基酸长。在活酵母细胞中测试了每个合成片段团块的能力。如果特定的碎片触发了团块的形成，酵母细胞研究人员可以以某种方式衡量以确定因果的生长。每五个蛋白质碎片（21,936/100,000）中大约有一个导致结块，而其余则没有。

尽管以前的研究可能已经跟踪了少数序列，但新的数据集捕获了不同蛋白质变体的更大的目录，这可能会导致淀粉样蛋白聚集。

“我们创建了真正随机的蛋白质碎片，包括自然界中未发现的许多版本。进化仅探索了所有可能的蛋白质序列的一小部分，而我们的方法有助于我们凝视更大的可能性星系，提供了许多数据点，以帮助了解更多的一般聚集行为法律，”该研究和后Doctoral研究的首先作者Mike Thompson，crg for Genomic for Genoric for Genoric for Genoric for Genoric for Genoric for Genoric for Genoric for Genoric for Genoric for Genoric（中心）。

从实验中产生的大量数据用于训练CANYA。研究人员决定使用“可解释的AI”原理来创建它，从而使其决策过程透明并且对人类来说是可以理解的。这意味着牺牲一点预测能力，通常在“黑盒” AIS中更高。尽管如此，Canya被证明比现有型号要准确15％。

具体而言，Canya是一种卷积注意模型，这是一种从AI的两个不同角落借用的混合工具。卷积模型，例如图像识别中使用的模型，扫描照片的照片或鼻子等特征，除非在这种情况下，坎雅通过蛋白质链掠过，以找到有意义的特征，例如主题或“单词”。

语言翻译工具使用注意力AI模型在决定最佳翻译之前，用语言翻译工具来识别句子中的关键短语。研究人员纳入了这项技术，以帮助Canya确定整个蛋白质的宏伟方案中哪些主题最重要。

这两种方法共同帮助Canya看到了当地的图案，同时还发现了它们更大的重要性。研究人员可以使用这些信息不仅预测蛋白质链中的哪些主题会鼓励凝结，阻止它或介于两者之间，还可以理解原因。

例如，Canya表明，少量的依赖水的氨基酸更可能激发凝结，而某些基序则对结块产生更大的影响，如果它们接近蛋白质序列的开始，而不是末尾。与先前发现的研究人员在显微镜下看到的观察结果在已知的淀粉样蛋白原纤维中已经看到。

但是Canya还发现了推动蛋白质聚集的新规则。例如，通常认为蛋白质的某些构成块，即所谓的带电氨基酸，可以防止结块。但是事实证明，在其他特定的构件中，它们实际上可以促进结块。

Canya以目前的形式主要解释了蛋白质的聚集，即或否术语，即它是所谓的“分类器”。接下来，研究人员希望完善系统，以便可以预测和比较聚合速度，而不仅仅是聚集的可能性。

这可能有助于预测哪些蛋白质变体迅速形成团块，哪些蛋白质变体更慢，这是神经退行性疾病的重要因素，其中淀粉样蛋白形成的时机与完全发生的事实至关重要。

“有1,024个五亿五亿个方法来创建长20个氨基酸的蛋白质碎片。到目前为止，我们已经培训了一个只有100,000个碎片的AI。我们希望通过制造越来越多的碎片来改进它。这只是第一步。这只是第一步，但我们的工作表明，我们的蛋白质综合语言也可以使人的疾病统计。

ICREA研究教授Ben Lehner说：“这个项目是将大规模数据生成与AI结合在一起的一个很好的例子。这也是生成数据的一种非常有效的方法。”

他补充说：“使用DNA合成和测序，我们可以在单个管中执行数十万个实验，生成我们需要训练AI模型的数据。这是我们应用于生物学上许多困难问题的一种方法。目标是使生物学可预测且可编程。”

这项研究是基因组监管中心（CRG）（CRG）和Benedetta Bolognesi的实验室的ICREA研究教授Ben Lehner实验室的共同合作，在加泰罗尼亚生物工程研究所（IBEC）。该研究也合作，来自冷泉港实验室（CSHL）和惠康桑格研究所的研究人员也合作。

更多信息：Mike Thompson等人，大量的实验定量允许对蛋白质聚集的可解释深度学习，科学进步（2025）。doi：10.1126/sciadv.adt5111。www.science.org/doi/10.1126/sciadv.adt5111引用

：“可解释的” AI破解了粘性蛋白质的秘密语言（2025年，4月30日）检索2025年5月3日摘自https://phys.org/news/2025-04-ai-secret-secret-secret-secret-sticky-proteins.html

该文档具有版权。除了为私人研究或研究目的的任何公平交易外，没有未经书面许可，可以复制部分。内容仅用于信息目的。

OC

“可解释”的AI破解了粘蛋白的秘密语言

关于《“可解释”的AI破解了粘蛋白的秘密语言》的评论

发表评论

摘要

相关新闻

相关讨论