OC

Knowledge OS
鹦鹉螺口语
科学正淹没在人工智能的泥沼中
2026-01-22 13:49:21 · 英文原文

科学正淹没在人工智能的泥沼中

作者:Ross Andersen

本月早些时候,挪威一个寒冷的下午,奥斯陆大学心理学教授丹·金塔纳 (Dan Quintana) 决定留在家里完成一项他拖延了数周的乏味任务。他所在领域的一家知名期刊的一位编辑请他审阅他们正在考虑发表的一篇论文。这似乎是一门简单的科学。一切都没有引起任何警钟,直到金塔纳查看参考文献并看到了他自己的名字。他的作品的引用看起来是正确的——它包含一个看似合理的标题,并包括他过去曾合作过的作者——但它引用的论文并不存在。

每天,金塔纳都会在 Bluesky 和 ​​LinkedIn 上看到学者们发布关于在科学论文中发现这些“虚假引用”的帖子。(特朗普政府去年春天发布的关于儿童健康的“MAHA 报告”的初始版本包含超过六个但直到昆塔纳发现他所审阅的期刊中引用了一篇假的“昆塔纳”论文,他才认为问题仅限于标准较低的出版物。“当这种情况发生在你所尊重的期刊上时,你就会意识到这个问题有多普遍,”他告诉我。

一个多世纪以来,科学期刊一直是自然世界知识流入我们文化的管道。现在他们被人工智能污水堵塞了。


科学出版一直存在管道问题。甚至在 ChatGPT 出现之前,期刊编辑就很难控制提交作品的数量和质量。哈佛大学的科学史学家亚历克斯·西萨尔 (Alex Csiszar) 告诉我,他发现了 19 世纪初编辑们的来信,他们在信中抱怨收到的手稿数量难以管理。这种过剩是同行评审最初出现的部分原因。编辑们可以通过将文章发送给外部专家来减轻工作量。当冷战时期科学经费激增期间期刊激增时,这种做法首先变得普遍。如今,它几乎已普及。

但作为科学文献守护者的编辑和无薪审稿人最近又受到了围攻。几乎在大型语言模型成为主流之后,手稿就开始以前所未有的数量涌入期刊收件箱。这种效应的部分原因可以归因于人工智能提高生产力的能力,尤其是对于需要帮助展示其研究的非英语科学家来说。但剑桥大学出版社与评估部学术出版部总经理曼迪·希尔 (Mandy Hill) 表示,ChatGPT 及其同类产品也被用来为欺诈或劣质作品披上新的可信外衣。这使得编辑和审稿人从谷壳中筛选小麦的任务变得更加耗时,而且技术上也更加困难。“从现在开始,这将是一场持续的军备竞赛,”希尔告诉我。

Adam Day 在英国经营一家名为 Clear Skies 的公司,该公司利用人工智能帮助科学出版商领先于骗子。他告诉我,与金融欺诈等调查人员相比,他有相当大的优势,因为他所追捕的人发布他们的不当行为的证据很多人都可以看到。Day 知道个别科学家可能会变得无赖,让 ChatGPT 生成一两篇论文,但他对这些案例并不感兴趣。就像一名想要打倒贩毒集团的缉毒侦探一样,他专注于从事以下活动的公司:工业化作弊通过出售论文大量给科学家客户。

这些“造纸厂”必须大规模地开展工作,因此他们倾向于回收自己的材料,甚至推出多篇文本紧密匹配的论文。戴告诉我,他通过查看被科学出版商标记为欺诈的论文来找到这些模板。当他发现特定模板上的撤稿率很高时,他会训练他的工具来寻找可能以相同方式生成的其他未标记的论文。

一些科学学科已成为污水的温床。剑桥大学出版社研究诚信和出版道德负责人詹妮弗·赖特 (Jennifer Wright) 表示,出版商正在分享有关最恶劣行为的情报。不幸的是,社会非常希望在许多领域拥有真正合格的科学家,其中之一就是癌症研究。戴告诉我,工厂找到了一个非常有效的癌症论文模板。有人可以声称已经测试了肿瘤细胞与现有的数千种蛋白质中的一种之间的相互作用,只要他们没有报告一项引人注目的发现,就没有人有太多理由重复他们的结果。

人工智能还可以生成假论文的图像。现已撤回的 2024 年评论论文细胞和发育生物学前沿展示了人工智能生成的插图睾丸不成比例的老鼠,它不仅通过了同行评审,而且在人们注意到之前就发表了。尽管这对期刊来说很尴尬,但并没有造成什么伤害。更令人担忧的是生成式人工智能的召唤能力令人信服的薄切片组织、显微镜视野或电泳凝胶的图片,通常用作生物医学研究的证据。

戴告诉我,法学硕士协助的欺诈浪潮最近袭击了学术界流行的技术相关领域,包括区块链研究。现在,有点讽刺的是,问题是影响人工智能研究本身。原因很容易理解:那些能够可信地声称在机器学习或机器人技术领域发表过原创研究的人的就业市场与癌症生物学家的就业市场一样强大,甚至更强。对于人工智能研究人员来说,还有一个欺诈模板:他们所要做的就是声称已经对某种数据运行了机器学习算法,并说它产生了有趣的结果。再说一遍,只要结果不是有趣的是,很少有人(如果有的话)会费心去审查它。

会议论文集是人工智能和其他计算机科学领域文章的主要发布场所,近年来,会议论文集的投稿量已经爆满。顶级人工智能会议之一 NeurIPS 见证了它们五年内。ICLR 是深度学习领域的领先会议,其数量也有所增加,并且似乎包含相当多的内容:一家法学硕士检测初创公司分析了即将在巴西举行的会议的提交内容,以及找到了超过50个其中包括幻觉引用。大多数人在同行评审期间没有被发现。

这可能是因为许多同行评审本身是由人工智能完成的。Pangram 实验室最近分析了数千条同行评审提交给 ICLR,发现其中一半以上是在法学硕士的帮助下编写的,其中约五分之一是完全地人工智能生成。在整个学术科学领域,论文作者甚至开始使用微小的白色字体嵌入秘密消息给LLM审稿人。他们敦促人工智能对他们正在阅读的论文赞不绝口,将其描述为“开创性”和“变革性”,并通过仅建议简单的修复来省去他们进行艰难修改的麻烦。


人工智能科学的废话现在已经超出了期刊的范围,也超越了其他传播研究的场所。1991年,时任洛斯阿拉莫斯国家实验室物理学家的保罗·金斯帕格(Paul Ginsparg)建立了一个特殊的服务器,他的同事们可以在写完论文后立即上传他们即将发表的论文。这样,他们就可以在众所周知的缓慢同行评审过程中立即获得有关这些“预印本”的反馈。的arXiv,随着服务器的出现,迅速增长并产生妹妹 网站在其他学科中。现在,它们共同构成了有史以来传播最快的新科学知识的源泉。但在 ChatGPT 发布后的几个月里,预印本服务器经历了提交量同样激增期刊做到了。

金斯帕格现在是康奈尔大学信息科学教授,他告诉我,他希望这将是一个短暂的趋势,但提交率仍在持续上升。现在,每个 arXiv 预印本在发布之前至少都会经过科学家的简短浏览,以确保它至少是一项看似合理的科学成果,但模型在清除这一障碍方面正在变得越来越好。2025 年,Ginsparg 与几位同事合作分析最近发布到 arXiv 的提交内容。他们发现,使用法学硕士的科学家发表的论文比未使用法学硕士的研究人员多出约 33%。

类似的人工智能辅助提交内容也涌入了 bioRxiv 和 medRxiv(生物学和医学预印本服务器)。负责运营这些研究的非营利组织的首席科学和战略官理查德·塞弗 (Richard Sever) 告诉我,在 2024 年和 2025 年,他看到过一些研究人员从未在一年内提交过 50 篇论文的例子。研究界总是不得不在预印本服务器上筛选出一些垃圾,但这种做法只有在信噪比很高时才有意义。“如果 100 篇论文中有 99 篇是伪造的或伪造的,情况就不会是这样,”塞弗说。“这可能是一场生存危机。”

鉴于在预印本服务器上发布是如此容易,它们可能是人工智能对科学话语稀释作用最强大的地方。在科学期刊上,尤其是顶级期刊,像金塔纳这样的同行评审员会仔细审查论文。但这种工作已经繁重的对于科学家来说,甚至在他们不得不面对聊天机器人提交的大量论文之前,人工智能本身也在不断改进。简单的赠品,例如金塔纳发现的虚假引用,可能会完全消失。自动倾斜检测器也可能会失败。如果这些工具变得太好,所有的科学出版都可能被颠覆。

当我打电话给默里州立大学 (Murray State University) 教授 A. J. 波士顿 (A. J. Boston) 时,他曾撰写过有关此问题的文章,他问我是否听说过死亡互联网阴谋论。它的追随者认为,在社交媒体和其他在线空间中,只有少数真实的人创建帖子、评论和图像。其余的则是由竞争的机器人网络产生和放大的。波士顿表示,在最坏的情况下,科学文献可能会变成这样。人工智能会撰写大部分论文,也会审阅其中大部分论文。这种空洞的来回将被用来训练新的人工智能模型。欺诈性图像和虚假引用将越来越深地嵌入我们的知识体系中。它们已经成为一种永远无法过滤掉的永久性认识论污染。

关于《科学正淹没在人工智能的泥沼中》的评论

暂无评论

发表评论

摘要

奥斯陆大学心理学教授 Dan Quintana 在他为一家受人尊敬的期刊审稿的一篇科学论文中发现了虚假引用,揭示了人工智能生成的“虚假引用”在学术界的广泛使用。ChatGPT 等大型语言模型加剧了这个问题,这些模型不仅提高了生产力,而且还使欺诈性或不合格的工作能够伪装成合法的研究。科学出版商和同行评审员在区分真实贡献和人工智能生成内容方面面临着越来越多的挑战。这个问题不仅限于期刊,还延伸到预印本服务器和会议记录,如果大多数论文被伪造或伪造,可能会导致“生存危机”。