我通过艰难的方式学到的关于生物领域人工智能的知识

2024 年 12 月 12 日

Tallapragada 是 Tessel Bio 的首席执行官。

随着 2024 年底的临近，First Opinion 发布了一系列有关人工智能在医学和生物制药领域现状的文章。

生命不仅仅是蛋白质折叠。

根据最近的新闻，如果你有不同的看法，也情有可原。阿尔法折叠只是获得诺贝尔奖，几乎每天都会有另一个基金会模型首次亮相，引起广泛关注并获得风险投资。

我明白了。从序列预测蛋白质结构为从酶工程到合理药物设计的一切铺平了道路。当我向 Folding@home 项目捐赠康柏电脑上的备用机时，这些目标还只是白日梦。感谢人工智能，现在这些目标变得更加容易实现。

但生物学绝不是解决了。AlphaFold 无法回答所有问题。例如：您是否选择了安全有效的药物靶点？那么，您感兴趣的蛋白质位于细胞和身体的哪个位置？它在信号通路中发挥什么作用？它如何驱动组织功能（从液体流动到纤维化）？祝你好运，让一台计算机告诉你这些。

目前，没有任何基础模型可以预测细胞、组织或整个有机体会做什么。我们今天所说的生物学中的人工智能主要是关于化学– 分子如何弯曲成形并相互结合。

如果您首先想知道哪些分子很重要，您需要自己回答这个问题。您需要的数据尚不存在。期望为实验付费——甚至可能拿起移液器。我已经看到足够多的人（包括我）迟来地认识到人工智能在生物学中的局限性，我想我应该总结一下这段旅程，为每个人节省一些时间。我们称之为悲伤的五个阶段（techbio 的版本）。

请允许我介绍一下场景。我们的悲剧英雄是一个数字人物——物理学家？程序员？– 对计算机能为他们做的事情充满希望和傲慢。

第一阶段就是否认。“我只需要花哨的数学就能找到生命的意义。”
在第二阶段，愤怒爆发。– 生物学家知道什么是神经网络吗？无法根据合理请求提供数据？如果我不想对蛋白质建模怎么办？！ -
第三阶段我们的英雄与生物之神讨价还价。——好吧，好吧——我来做个实验。或者，我的合作者会的。一旦我找到一个……
在第四阶段，我们的主角因实验室一次又一次的失败而陷入深深的沮丧。– 生物没有规律或理由。也许我过得更好思考如何让人们点击广告。Ø
最后，第五阶段是接受。“在对生活进行建模之前，您必须先对其进行测量。”

人工智能需要真实的数据。AlphaFold 背后的无名英雄是蛋白质数据库，或PDB。自 1971 年以来，世界各地的博士后煞费苦心地对近 250,000 个蛋白质的结构进行了结晶和编目，在此过程中为当今的神经网络组装了理想的训练语料库。不幸的是，PDB 是这个规则的一个例外。而且你对整个器官和生物体的研究越深入，就越不可能有公共数据库来利用。

因此，一些初创公司自己积累了整个数据库。动物生物相信我们可以从冬眠动物身上学到很多关于肥胖的知识，因为它们从盛宴到饥荒。Fauna 已经进行了多组学测量数百种哺乳动物揭示其非凡恢复能力的分子基础。通过将这些数据输入图神经网络，Fauna 可以预测并探索疾病与药物靶点之间的新联系。如果动物群没有仔细描述生物的新陈代谢，那么所有这些人工智能都是不可能实现的。13线地松鼠。我确信很多人认为这是一个过于学术化的金钱坑。五亿美元礼来公司的biobucks不敢苟同。

事实上，向自然学习似乎是一种制胜策略。恩韦达将人工智能与民间智慧相结合，破译药用植物的化学成分。Enveda 的化学基础模型，棱镜，建立在基础语言模型 BERT 的基础上，用质谱中的峰值代替句子中的单词。Enveda 从未幻想过可以纯粹根据公共数据来训练 PRISM。该公司收集了 12 亿个质谱来为其 GPU 提供数据，并自行生成了 6 亿个训练样本。这类数据并不便宜，但投资似乎已经得到了回报。Enveda 有一种药物已进入临床阶段，还有九种候选药物正在开发中 — 对于一家五年前白手起家的公司来说，其生产力非常出色。

（旁注：植物学充满了价值数十亿美元的想法。没有柳树就不会有阿司匹林，没有柳树就不会有 Alnylam）紫色矮牵牛.)

此时，如果您没有数亿美元或数据点，您可能会觉得所有希望都破灭了。这当然是知情人士的共识：不幸的是，受到数据的限制，生物学领域的人工智能注定会受到数据的限制。进化性多于革命性。

幸运的是，你还有脑子。如果更简单的东西可以帮助您进行正确的实验来找到答案，那么您就不需要一个神秘而壮观的基础模型。称之为“增强智能”——一台计算机作为您的副驾驶。

这就是我们在 Tessel Bio 公司所说的人工智能的含义。Tessel 我们的目标是逆转组织重塑并炎症记忆在慢性疾病中。我们优先考虑预测效度：我们测量源自患者的“器官型”培养物中的组织功能，以模拟原始器官中的损坏情况，我的意思是真正的生物物理表型，例如克罗恩病肠道和粘液中的组织硬度COPD 肺部的转运。这类检测的通量并不是超高。现有的基础模型无法解决我们的问题。但我们可以用我们的 –主动学习– Tesselogic 平台，用于确定扰动的优先级并节省宝贵的时间、金钱和材料。（根据一个基准，只需 3% 的努力就能击败强力屏幕。）简单地说，Tesselogic 从我们已经完成的工作中学习，以建议下一步要测试的内容。

我看好人类与人工智能的混合体能够以正确的规模收集正确的数据。这种方法出现在实验成本高昂的地方，从目标发现到小分子设计。

你并不总是需要煮沸海洋来提炼生命的意义。

Naren Tallapragada 是 Tessel Bio 的首席执行官，Tessel Bio 是一家人工智能辅助药物发现公司，利用组织生理学的预测能力来开发慢性疾病的治疗方法。

OC

我通过艰难的方式学到的关于生物领域人工智能的知识

关于《我通过艰难的方式学到的关于生物领域人工智能的知识》的评论

发表评论

摘要

相关新闻

相关讨论