作者:Deane, Charlotte M.
马库韦特,F. D. 生物制剂与小分子药物:药品成本和患者获取。医药发现 9, 100075 (2021).
Midlam, C.生物药物在现代治疗学中的地位——靶向疗法与小分子药物的比较31–46 ( Wiley, 2020 ).
刘泽等。PROTACs综述:一种有前景的药物发现范式。分子生物医学 3, 46 (2022).
董广,丁毅,何松,盛春燕. 靶向蛋白降解的分子胶:从偶然发现到理性设计。J. 医药化学杂志 64, 10606–10620 (2021).
Scannell, J. W., Blanckley, A., Boldon, H. & Warrington, B. 药物研发效率下降的原因诊断。自然·药物发现评审杂志 11, 191–200 (2012).
泰勒,D. 药业与药物开发的未来。药学环境 https://doi.org/10.1039/9781782622345-00001 (2015).
Wouters, O. J., McKee, M. & Luyten, J. 估算将新药推向市场所需的研究和开发投资,2009-2018年。JAMA 323, 844–853 (2020).
Blanco-Gonzalez, A. 等人. 人工智能在药物发现中的作用:挑战、机遇和策略。药品 16, 891 (2023).
Ramesh, A. 等人。零样本文本到图像生成。在国际机器学习大会8821–8831 (PMLR, 2021).
Croitoru, F.-A., Hondru, V., Ionescu, R. T. 和 Shah, M. 视觉领域中的扩散模型综述。IEEE Transactions on Pattern Analysis and Machine Intelligence 45, 10850–10869 (2023).
Bubeck, S. 等。人工智能通用智能的火花:GPT-4早期实验。预印本于https://arxiv.org/abs/2303.12712 (2023).
戈扎洛-布里胡埃拉,R. & 加里多-梅汉,E. C. ChatGPT 不是你所需要的全部。大型生成式AI模型现状回顾。GRACE 1, 1 (2023).
Jumper, J. 等人。使用 AlphaFold 进行高精度蛋白质结构预测。自然 596, 583–589 (2021).
伯特奥利尼,L. M.,利马,A. N.,克里格,J. E. & 泰谢拉,S. K. AlphaFold2前后:蛋白质结构预测综述。前沿生物信息学 3, 1120370 (2023).
Lipinski, C. F., Maltarollo, V. G., Oliveira, P. R., da Silva, A. B. 和 Honorio, K. M. 药物设计和发现中深度学习应用的进展与展望。机器人与人工智能前沿 6, 108 (2019).
雷蒙德,J.-L. 化学空间项目。 Acc. Chem. Res. 48, 722–730 (2015).
梅耶斯,J.,费比安,B.及布朗,N. 从头分子设计和生成模型。药物发现今日快报 26, 2707–2715 (2021).
江,Y. 等人。用于逆合成预测的人工智能。工程学 https://doi.org/10.1016/j.eng.2022.04.021 (2022).
桑切斯-克鲁兹,N. 深度图学习在分子对接中的进展与机遇。人工智能与生命科学 3, 100062 (2023).
米切尔,约翰B.O. 化学生物信息学中的机器学习方法。威利跨学科评论计算分子科学 4, 468–481 (2014).
麦纳特,A. T. 等人。GNINA 1.0:基于深度学习的分子对接。J. Cheminformatics 13, 43 (2021).
朱慧,杨俊及黄宁. 基于结构的虚拟筛选中机器学习评分函数泛化能力的评估。J. Chem. Inf. Model. 62, 5485–5502 (2022).
沃尔拉克,I. & 海费茨,A. 基于配体的分类基准测试更倾向于奖励记忆而不是泛化。J. Chem. Inf. Model. 58, 916–932 (2018).
Buttenschoen, M., Morris, G. M. & Deane, C. M. 结构破坏者:基于AI的对接方法无法生成物理上有效的构象或泛化到新型序列。化学科学 15, 3130–3139 (2024).
Mokaya, M. 等人。使用课程学习和深度强化学习测试基于SMILES的从头分子生成的极限。自然机器智能 5, 386–394 (2023).
Tran-Nguyen, V.-K., Jacquemard, C. & Rognan, D. LIT-PCBA:一个用于机器学习和虚拟筛选的无偏数据集。J. 化学信息与模模型杂志 60, 4263–4273 (2020).
托伦-佩拉尔,P. 等。模型至关重要:单步逆合成对合成规划的影响。数字发现 3, 558–572 (2024).
伊万诺夫, Y. 等人. 深度学习驱动的生成化学指南。 ACS Medicinal Chemistry Letters 14, 901–915 (2023).
韩达,K.,汤普森,M. C.,金永马,K.,伊井岛,T. 和本德,A. 关于现实地验证分子生成模型的难度:一项关于公开和专有数据的案例研究。J. Cheminformatics 15, 112 (2023).
哈里斯等。PoseCheck:基于3D结构的药物设计生成模型产生不现实的姿态。在2023年神经信息处理系统大会生成AI与生物学(GenBio) workshop (2023).
Neves, B. J. 等人。基于QSAR的虚拟筛选:在药物发现中的进展与应用。 Front. Pharmacol. 9, 1275 (2018).
颜小川等. 基于配体的虚拟筛选中的化学结构相似性搜索:方法和计算资源。当前药物靶点期刊 17, 1580–1585 (2016).
阿布拉姆森 J. 等人。使用AlphaFold 3精确预测生物分子相互作用的结构。自然 630, 493–500 (2024).
佩雷拉,J. 等人在CASP14中实现了高精度的蛋白质结构预测。蛋白质 89, 1687–1699 (2021).
苏,M. 等人. 分数函数比较评估:CASF-2016 更新。化学信息与模建杂志 59, 895–913 (2019).
Lowe, D. M.从文献中提取化学结构和反应式博士学位论文,剑桥大学(2012年)。
吴,Z.等。MoleculeNet:分子机器学习的基准。化学科学 9, 513–530 (2018).
Mysinger, M. M., Carchia, M., Irwin, J. J. & Shoichet, B. K. 有用的假阳性目录增强版(DUD-E):更好的配体和假阳性以实现更好的基准测试。J. 医药化学杂志 55, 6582–6594 (2012).
弗朗科尔,P. G. 等人。基于结构的药物设计的三维卷积神经网络和一个交叉对接数据集。J. Chem. Inf. Model. 60, 4200–4215 (2020).
瓦斯旺尼,A. 等人。注意力就是你所需要的。在第31届神经信息处理系统国际会议论文集6000–6010 (ACM,2017).
Kipf, T. N. & Welling, M. 基于图卷积神经网络的半监督分类。国际学习表征会议(ICLR) (2017).
商家,A.等.用于材料发现的大规模深度学习。自然 624, 80–85 (2023).
斯托克斯,J. M. 等人。抗生素发现的深度学习方法。细胞 180, 688–702.e13 (2020).
黄,F.等.利用可解释深度学习发现一类结构抗生素。自然 626, 177–185 (2023).
江,D. 等。图神经网络能否为药物发现学习更好的分子表示?基于描述符和基于图模型的比较研究。J. Cheminformatics 13, 12 (2021).
科罗廖夫,V.,米特罗法诺夫,A.,科罗托科夫,A. & 特卡奇enko,V. 图卷积神经网络作为“通用”性质预测器:普遍性及其适用性的限制。J. Chem. Inf. Model. 60, 22–28 (2020).
Geiger, M. & Smidt, T. e3nn:欧几里得神经网络。预印本于https://arxiv.org/abs/2207.09453 (2022).
萨托拉,V. G., 侯吉博姆,E. & 威灵,M. E.n-equivariant 图神经网络。PLMR 139, 9323–9332 (2021).
斯坎特利伯里,J. 等。迈向通用性的一小步:训练基于结构虚拟筛选的机器学习评分函数。J. Chem. Inf. Model. 63, 2960–2974 (2023).
Corso, G. 等人. DiffDock:分子对接的扩散步骤、扭曲和转折. 在国际学习表征大会 (2023).
伊加舍夫,I. 等人。用于分子连接体设计的等变三维条件扩散模型。自然机器智能 6, 417–427 (2024).
Jing B., Corso G., Chang J., Barzilay R. & Jaakkola T. 扭转扩散分子构象生成方法. 在第36届神经信息处理系统会议 proceedings文章编号 1760, 24240–24253 (ACM, 2022).
Schneuing, A. 等人。基于结构的药物设计与等变扩散模型。预印本于https://arxiv.org/abs/2210.13695v2 (2022).
霍,J.,贾因,A. & 阿贝尔,P. 去噪扩散概率模型。神经信息处理系统会议 33, 6840–6851 (2020).
里德,J.,阿尔特里奥,B.,科布伦茨,H.,奥利尔,T.及梅茨,T. 护理教育中作为教学策略的AI图像生成。交互学习研究杂志 34, 369–399 (2023).
伊尔迪里姆, E. 在艺术与建筑:理论、实践与体验 97 (2022).
Azuaje, G. 等。探索在表达性写作应用程序中使用AI文本转图像生成技术来下调负面情绪的方法。英国皇家学会开放科学期刊 10, 220238 (2023).
Fishman, N., Klarner, L., Mathieu, E., Hutchinson, M. & De Bortoli, V. 约束扩散模型的Metropolis采样方法。在第37届神经信息处理系统国际会议论文集文章编号 2721, 62296–6233(ACM, 2024)。
宋,Y., Dhariwal, P., 陈,M. & Sutskever, I. 一致性模型. 在国际机器学习大会32211–32252(PMLR,2023).
Lipman, Y., 陈瑞廷, Ben-Hamu, H., Nickel, M. & Le, M. 流匹配在生成模型中的应用。发表于第十一届国际学习表征会议 (2022).
孙,C., Shrivastava,A., Singh,S. & Gupta,A. 重新审视深度学习时代数据的不合理有效性。在IEEE国际计算机视觉大会论文集843–852 (IEEE, 2017).
贝特克尔,J. 等人。用更好的描述改善图像生成。开放人工智能基金会 https://cdn.openai.com/papers/dall-e-3.pdf (2023).
刘,Z.等。PDB中结合数据的广泛收集:PDBbind数据库的当前状态。生物信息学 31, 405–412 (2014).
罗斯,P. W. 等人。RCSB蛋白质数据银行:蛋白质、基因和三维结构信息的综合视图。核酸研究杂志 45D271–D281 (2016).
Zdrazil, B. 等人。ChEMBL 数据库在 2023 年:一个涵盖多种生物活性数据类型和时间跨度的药物发现平台。核酸研究杂志 52D1180–D1192 (2024)
Ramesh, A., Dhariwal, P., Nichol, A., Chu, C. 和 Chen, M. 基于CLIP潜在变量的层次文本条件图像生成。预印本位于https://arxiv.org/abs/2204.06125 (2022).
Touvron, H. 等人。Llama 2:开源基础和微调聊天模型。预印本于https://arxiv.org/abs/2307.09288 (2023).
白明等。利用三轨神经网络精确预测蛋白质结构和相互作用。科学 373, 871–876 (2021).
林锌等。用语言模型预测蛋白质原子级别的结构(进化尺度)科学 379, 1123–1130 (2023).
Mitchell, A. L. 等人. MGnify:2020年的微生物组分析资源。核酸研究 48D570–D578 (2019).
苏泽克 B. E., 黄 H., 麦加维 P., 玛朱默德 R. & 吴 C. H. UniRef:全面且非冗余的UniProt参考簇。生物信息学 23, 1282–1288 (2007).
唐俊等. 解读大规模蛋白激酶抑制剂生物活性数据集:比较和整合分析。J. Chem. Inf. Model. 54, 735–743 (2014).
黄瑞等。Tox21挑战:通过暴露于环境化学物质和药物来构建预测核受体和应激反应途径的模型。环境科学前沿 3, 85 (2016).
沃伊茨ィ斯基(Voitsitskyi, T.)等。通过人工结合口袋增强分子对接的生成扩散模型训练数据集。RSC Adv. 14, 1341–1353 (2024).
沃尔科夫 M. 等人。用深度神经网络从蛋白质-配体结构预测结合亲和力的挫败感。J. 医药化学 65, 7946–7958 (2022).
布伦德尔,T. L. & 帕特尔,S. 高通量X射线晶体学在药物发现中的应用。药理学当前意见期刊 4, 490–496 (2004).
Polizzi, N. F. & DeGrado, W. F. 一个确定的结构单元使得从头设计的小分子结合蛋白成为可能。科学 369, 1227–1233 (2020).
斯托克,H.,景,B.,巴日莱,R.及雅科拉,T. 和谐先验自条件流匹配在多配体对接和结合位点设计中的应用。在NeurIPS 2023 科学领域的AI workshop (2023).
Corso, G., 邓,A., Polizzi, N., Barzilay, R. & Jaakkola, T. 绑定模式的发现需要重新思考对接泛化。在NeurIPS 2023 生成AI与生物学(GenBio)研讨会 (2023).
刘, L. 等。使用helixdock对大规模生成的对接构象进行预训练,以解锁蛋白质-配体结构预测模型的潜力。预印本发表于https://arxiv.org/abs/2310.13913 (2023).
麦菲,M. & 金,P. M. GDockScore:一种基于图的蛋白质-蛋白质对接评分函数。生物信息学进展 3vbad072 (2023).
Réau, M., Langenfeld, F., Zagury, J.-F., Lagarde, N. & Montes, M. 基准数据集中诱饵选择:综述与展望。药理学前沿 9, 11 (2018).
斯特里特-卡尔托夫,F. 等。机器学习在化学反应活性中的应用:失败实验的重要性。应用化学国际版 61, 29 (2022).
Mlinarić, A., Horvat, M. & Šupak Smolčić, V. 如何应对积极的出版偏见:为什么你应该真正发表你的负面结果。生物化学与医学 27, 447–452 (2017).
麦科洛斯基,K. 等人。基于DNA编码库的机器学习:一种新的命中发现范式。J. 医药化学杂志 63, 8857–8866 (2020).
马洛尼,M. P. 等人。机器学习训练数据集中的负数据。 Org. Lett. 25, 2945–2947 (2023).
麦库文,L. & 姆斯塔法,F. 世界博览会化学:使IUPAC资产公平。化学国际期刊 45, 14–17 (2023).
斯坦贝克 C. 等人。NFDI4chem——迈向德国化学研究数据基础设施全国网络。决议 结果 思路 6,吴55852(2020)。
塞格勒,M. H.,普鲁斯,M. & 墙尔,M. P. 使用深度神经网络和符号人工智能规划化学合成。自然 555, 604–610 (2018).
鲍尔,P. 计算机从实验室笔记本中的失败中获取化学洞察。自然 https://doi.org/10.1038/nature.2016.19866 (2016).
斯威恩,M. C. &科尔,J. M. ChemDataExtractor:从科学文献中自动提取化学信息的工具包。J. 化学信息与模建 56, 1894–1904 (2016).
Rajan, K., Brinkhaus, H. O., Agea, M. I., Zielesny, A. & Steinbeck, C. DECIMER.ai:一个用于在科学出版物中自动识别、分割和光学化学结构识别的开放平台。自然通讯 14, 5045 (2023).
Blecher, L., Cucurull, G., Scialom, T. & Stojnic, R. Nougat:学术文档的神经光学理解。预印本位于https://arxiv.org/abs/2308.13418 (2023).
chodera, j., lee, a. a., london, n. & von delft, f. 疫情下的 crowdsourcing 药物发现。 Nat. Chem. 12, 581 (2020).
COVID月球计划联盟。COVID月球计划:通过结合众包、高通量实验、计算模拟和机器学习,公开发现针对SARS-CoV-2主要蛋白酶的抑制剂。预印本在 bioRxiv https://doi.org/10.1101/2020.10.29.339317 (2020).
鲍比,M. L. 等人。开放科学发现的强大非共价SARS-CoV-2主要蛋白酶抑制剂。科学 382吴博7201 (2023).
汉斯尔,T. 联邦学习在分子发现中的应用。结构生物学当前意见期刊 79, 102545 (2023).
汉斯尔,T. 等。利用隐私保护的联邦学习实现跨行业预竞争知识共享并改进QSAR模型。在毒理学会(SOT)年会 (2022).
王瑞、普拉米勒·查达里亚、科斯蒂斯·戴瓦茨伊科斯。通过仔细训练可以显著减轻机器学习模型中的偏见:来自神经影像学研究的证据。 Proc. Natl Acad. Sci. USA 120,e2211613120 (2023).
范吉芬,B.,赫尔豪森,D. &法斯,T. 克服算法的陷阱和危险:机器学习偏见及缓解方法的分类。J. 商业研究 144, 93–106 (2022).
Leavy, S. 人工智能中的性别偏见:机器学习中对多样性和性别理论的需求。在第1届软件工程性别平等国际 workshop 记录 14–16 (2018).
李,N. T. 检测算法和机器学习中的种族偏见。信息与通信伦理社会期刊 16, 252–260 (2018).
苏布拉马尼安,G.,拉姆桑达尔,B.,潘德,V.及丹尼,R. A. 利用基于配体的方法计算模拟β-分泌酶1(BACE-1)抑制剂。J. 化学信息与模模型杂志 56, 1936–1949 (2016).
马丁斯 I. F., 泰谢拉 A. L., 皮尼艾罗 L. 和法劳奥 A. O. 基于贝叶斯方法的计算机模拟血脑屏障穿透模型。J. Chem. Inf. Model. 52, 1686–1697 (2012).
德兰尼,J. S. ESOL:直接从分子结构估算水溶性。化学信息与计算机科学杂志 44, 1000–1005 (2004).
谢毅,徐钊,马俊及梅俏. 已经探索了多少空间?测量数据库和机器生成分子所覆盖的化学空间. 在第十一届国际学习表征会议 (2022).
塔克尔,A. 等。用断键提示去偏置逆合成语言模型。ACS中心科学 журнал 9, 1488–1498 (2023).
克莱夫斯,A. E. & 贾因,A. N. 归纳偏置对基于配体的建模计算评价及药物发现的影响。计算辅助分子设计杂志 22, 147–159 (2008).
陈, L. 等人。DUD-E 数据集中的隐藏偏见导致基于结构的虚拟筛选中深度学习性能误导。PLOS一刊 14吴0220113 (2019).
西格,J.,弗拉斯滕贝格尔,F. & 罕雷,M. 控制偏置的需求:基于结构的虚拟筛选中化学数据的机器学习评估。J. Chem. Inf. Model. 59, 947–961 (2019).
雅各布松, M. & 卡尔伦, A. 基于结构的虚拟筛选中评分函数的配体偏倚。J. Chem. Inf. Mod. 计算机模型应该是“模型”,所以正确翻译是: J. Chem. Inf. 模型 46, 1334–1343 (2006).
Chaput, L., Martinez-Sanz, J., Saettel, N. 和 Mouawad, L. 四种流行虚拟筛选程序的基准测试:活性化合物/对照化合物数据集的构建仍然是测量性能的主要决定因素。J. Cheminformatics 8, 56 (2016).
江,D.等。InteractionGraphNet:一种新颖且高效的深度图表示学习框架,用于准确的蛋白质-配体相互作用预测。J. 医药化学杂志 64, 18209–18232 (2021).
沈等人。等。一种具有平衡评分、对接、排序和筛选能力的蛋白质-配体评分框架。化学科学 14, 8129–8146 (2023).
法拉hani, A., 韦霍伊, S., 拉希德, K. & 阿拉布尼亚, H. R. 域适应简述。数据科学与信息工程进展:ICDATA 2020和IKE 2020会议 proceedings 877–894 (2021).
韩旭,巴尔德温特.&科恩T.通过对抗学习实现机会平等的公平性。预印本于https://arxiv.org/abs/2203.06317 (2022).
邵,S., Ziser, Y. & Cohen, S. B. 金光并非总闪烁:线性与非线性受保护属性信息的光谱移除。在第十七届计算语言学欧洲分会会议1611–1622(计算语言学协会,2023)。
克拉纳尔,L. 等。基于领域信息的函数先验分布下的协变量变化药物发现。在第40届国际机器学习大会论文集文章号 706, 17176–17197 (ACM, 2023).
Kramer, C., Beck, B., Kriegl, J. M. & Clark, T. hERG阻断的综合模型。化学药学杂志 3, 254–265 (2008).
考萨尔,S. & 法拉奥,A. O. 用于QSAR模型构建的自动化框架。J. Cheminform. https://jcheminf.biomedcentral.com/articles/10.1186/s13321-017-0256-5 (2018).
西蒙,S. & 崔恭俊,N. 构建定量结构活性关系(QSAR)模型以预测结构多样的Janus激酶2抑制剂的效力。分子 24, 4393 (2019).
卡利奥科斯基,T., 克雷默,C., 伏佩蒂,A. & 格德克,P. 混合IC的可比性50数据—统计分析。PLOS一刊 8,E61007 (2013).
Kramer, C., Kalliokoski, T., Gedeck, P. & Vulpetti, A. 异质性公共数据的实验不确定性Ki数据。J. 医药化学杂志 55, 5165–5173 (2012).
兰德鲁姆,G. A. & 里尼克尔,S. 结合IC50或Ki来自不同来源的数据是显著噪音的一个来源。化学信息与模建杂志 64, 1560–1567 (2024).
赫尔南德斯-加里多,C. A. & 桑切斯-克鲁兹,N. 蛋白质-配体结合亲和力预测模型训练数据的实验不确定性。人工智能与生命科学 4, 100087 (2023).
Speck-Planche, A. & Kleandrova, V. V. 具有广谱抗病毒和抗细胞因子风暴特征的化学品虚拟设计的多条件QSAR模型。ACS Omega 7, 32119–32130 (2022).
Baell, J. B. & Nissink, J. W. M. 七年之痒:2017年泛检测试剂干扰化合物(PAINs)的用途和限制。 ACS化学生物学 13, 36–44 (2018).
Brenk, R. 等人。为被忽视疾病药物发现组装筛选库的经验教训。化学药学杂志 3, 435–444 (2008).
贾德哈夫,A. 等。在硫蛋白酶抑制剂筛选中聚集、自发荧光和反应性伪影的定量分析。J. 医药化学 журнал 53, 37–51 (2010).
沃尔特斯,P. 我们需要更好的基准来评估药物发现中的机器学习。实用化学信息学博客 https://practicalcheminformatics.blogspot.com/2023/08/我们需要更好的机器学习基准.html (2023).
Klarner, L., Reutlinger, M., Schindler, T., Deane, C. & Morris, G. 基准中的偏见:生物活性数据库中的系统实验误差使多任务和元学习算法复杂化。在ICML 2022 第二届科学人工智能 workshop (2022).
Wigh, D. S., Arrowsmith, J., Pomberger, A., Felton, K. C. & Lapkin, A. A. Orderly:化学反应数据的数据集和基准。J. Chem. Inf. Model. 64, 3790–3798 (2024).
Durant, G., Boyles, F., Birchall, K., Marsden, B. & Deane, C. 基于机器学习的评分函数的稳健性探究:它们在学习什么?预印本论文位于bioRxiv https://doi.org/10.1101/2023.10.30.564251 (2023).
李,S. 等人。结构感知交互图神经网络在预测蛋白质-配体结合亲和力中的应用。在KDD21:第27届ACM SIGKDD知识发现与数据挖掘大会论文集 https://doi.org/10.1145/3447548.3467311(ACM, 2021).
Wójcikowski, M., Kukiełka, M., Stepniewska-Dziubinska, M. M. & Siedlecki, P. 蛋白质-配体扩展连接(PLEC)指纹的开发及其在结合亲和力预测中的应用。生物信息学 35, 1334–1341 (2019).
王泽等. OnionNet-2:一种基于残基-原子接触壳的预测蛋白质-配体结合亲和力的卷积神经网络模型。 Front. Chem. 9, 913 (2021).
布朗,C. B. 等人。蒙特卡洛树搜索方法调查。IEEE Transactions on Computational Intelligence and AI in Games 4, 1–43 (2012).
黄,K.等.治疗学数据公共领域:药物发现和开发的机器学习数据集和任务。预印本于https://arxiv.org/abs/2102.09548v2 (2021).
甘锦林等. D3RGrandChallenge4中组装对接方法的基准测试。计算辅助分子设计杂志 36, 87–99 (2022).
Ackloo, S. 等人。CACHE(计算命中发现实验关键评估):一项公私合作的基准测试计划,旨在促进用于发现命中的计算方法的发展。自然·化学评论 6, 287–295 (2022).