Evo 是一种人工智能模型,可以以“无与伦比的准确性”预测基因突变的影响

2024-11-17 11:00:00 英文原文

作者:Skyler WareSocial Links NavigationLive Science Contributor

An image of digitalized DNA with different sequences in bright colours.
机器学习模型 Evo 可以从最小的组成部分预测并生成 DNA 和 RNA 序列。 (图片来源:Getty Images/Yuichiro Chino)

科学家开发了一种新型机器学习模型,可以理解和设计遗传指令。

这个被称为 Evo 的模型可以预测基因突变的影响并生成新的 DNA 序列——尽管这些 DNA 序列与生物体的 DNA 并不紧密匹配。

然而,研究人员在 11 月 15 日发表在该杂志上的一项新研究中写道,通过时间和训练,Evo 和类似模型可以帮助科学家了解各种 DNA 和 RNA 序列的功能并减轻疾病科学

Evo 是一种人工智能(AI)系统称为大语言模型(LLM),类似于 OpenAI 的 GPT-4 或 Google 的双子座。研究人员和开发人员使用来自互联网等公开资源的大量数据来培训法学硕士,法学硕士会寻找常见短语或典型句子结构等模式,并使用这些模式一一提供句子中的单词。

有关的:“人工智能教父”约书亚·本吉奥表示,如果我们不监管人工智能,人类将面临“灾难性”的未来

与更常见的法学硕士不同,Evo 没有接受过单词训练。相反,它是针对数百万微生物(古细菌、细菌和感染它们的病毒)的基因组进行训练,而不是像植物和动物这样的真核生物。这些基因组中的每个碱基对(构成 DNA 的基本化学单位)在模型中充当一个“单词”。然后,Evo 将碱基对序列与其训练集进行比较,以预测 DNA 链如何发挥作用,或生成新的遗传物质。

其他模型已经使用机器学习甚至法学硕士来检查遗传信息。但科学家在研究中写道,到目前为止,它们仅限于专门的功能或受到高计算成本的阻碍。相比之下,Evo 使用快速、高分辨率的模型来处理长串信息,使其能够分析基因组规模的模式,并捕获更专业的模型可能会错过的大规模相互作用的信息。

将世界上最迷人的发现直接发送到您的收件箱。

作者在一系列任务上对 Evo 进行了测试。Evo 预测了基因突变将如何影响蛋白质结构,其表现与专门针对该任务训练的模型相当。它还生成了一组蛋白质和 RNA 成分,可以在实验室测试中防止病毒感染。

Evo 甚至生成了整个基因组大小的 DNA 序列,但该 DNA 不一定能让某些东西保持活力。一些遗传指令与现有生物体中的 DNA 相似。其他的乍一看很相似,但仔细观察却没有意义,类似于人工智能生成的手指太多的人的图像。例如,Evo 生成的 DNA 中编码的许多蛋白质结构与天然存在的蛋白质不匹配。

研究人员在研究中写道:“这些样本代表了基因组的‘模糊图像’,其中包含关键特征,但缺乏自然基因组典型的更精细的细节。”

他们还只对 Evo 进行微生物基因组训练,因此预测人类基因突变的影响仍然无法掌握。至关重要的是,该团队强调需要制定安全和道德准则,以防止 Evo 等工具在性能提高时被滥用。特别是,该团队排除了感染病毒基因组的数据真核宿主

研究人员写道:“科学界、安全专家和政策制定者参与的积极讨论对于防止滥用并促进减轻现有和新兴威胁的有效战略至关重要。”

Skyler Ware 是一名自由科学记者,报道化学、生物学、古生物学和地球科学。她是《科学新闻》2023 年 AAAS 大众媒体科学与工程研究员。她的作品还出现在 Science News Explores、ZME Science 和 Chembites 等杂志上。斯凯勒拥有博士学位。加州理工学院化学博士。

关于《Evo 是一种人工智能模型,可以以“无与伦比的准确性”预测基因突变的影响》的评论


暂无评论

发表评论

摘要

科学家们创建了 Evo,这是一种机器学习模型,可以通过分析微生物基因组中的碱基对来预测和生成 DNA 和 RNA 序列。尽管最初的输出与自然遗传物质并不十分相似,但该模型显示了理解遗传功能的潜力,并且可以通过进一步发展帮助减轻疾病。与典型的语言模型不同,Evo 使用基因组数据而不是文本,提供基因组规模的快速分析。研究人员强调,随着其能力的发展,需要制定安全指南。