作者:Isaac Schultz
AI拖网互联网的大量期刊文章存储库已重现了一个错误,该错误已进入数十篇研究论文,现在一组研究人员发现了问题的来源。
这是每个人的舌头上的问题:植物电子显微镜到底是什么?事实证明,该术语是荒谬的。
听起来甚至是可信的,但它是完全胡说八道的。然而,它在科学论文,人工智能响应甚至是同行评审的期刊中都出现了。因此,这个幻影短语如何成为我们集体知识的一部分?
辛苦地报告通过2月的回缩观察,该术语可能是从平行文本列中拉出的1959年纸在细菌细胞壁上。AI似乎跳了列,读了两条无关的文本行,是一个连续的句子,根据一名调查员。
Farkakte文本是研究人员所说的数字化石的教科书案例:在AI培训数据层中保存的错误,并在未来的输出中意外弹出。根据AI研究人员的一组,数字化石几乎不可能从我们的知识存储库中删除,他们追溯了奇怪的植物电子显微镜案例,如对话。
正如团队所报道的那样,化石过程始于一个简单的错误。早在1950年代,两篇论文就在细菌学评论中发表,后来被扫描和数字化。
这些文章中出现的列的布局混淆了数字化软件,该软件将untron -electronâ€的一列中的一词捣碎了。融合是一种所谓的折磨的短语•,它隐藏在肉眼上,但对于阅读文本的软件和语言模型显而易见。
正如缩回手表所记载的那样,在发表生物学论文将近70年后,€€'的植物电子显微镜开始在伊朗的研究论文中弹出。
那里,波尔西翻译故障可能有助于重新引入该术语:营养€¢â€â€和n¢scanningâ€的单词仅在波斯文字中差异而差异,而扫描电子显微镜在波斯文字中的点数是非常真实的。这可能是错误的术语溜回科学记录所花费的全部。
但是,据描述他们在谈话中的发现的团队说,即使错误始于人类翻译,AI还是在网络上复制了它。研究人员促使AI模型摘录了原始论文的摘录,实际上,AI模型可靠地完成了BS术语,而不是科学有效的短语。旧模型,例如OpenAI的GPT-2和BERT,并未产生错误,这使研究人员表明何时发生了模型训练数据的污染。
该小组在其帖子中写道。这表明,废话术语现在可以永久嵌入AI知识库中。”
该小组确定了CommonCrawl数据集的gargantuan存储库,该存储库是刮擦的Internet页面的gargantuan存储库,这可能是不幸的术语的可能来源,该术语最终被AI模型所吸引。但是,发现错误的根源很棘手,消除它们甚至更难。CommonCrawl由数据量组成,这使得最大的科技公司以外的研究人员很难解决大规模问题。除了领先的AI公司是著名的抵抗力分享他们的培训数据。
但是,AI公司只是问题的一部分,渴望期刊出版商是另一只野兽。正如Retraction Watch报道的,出版巨头Elsevier试图证明是合理的在最终发出更正。
去年,《期刊边境》被迫缩回文章其中包括荒谬的大鼠生殖器和生物途径的AI生成的图像。突出显示Google Scholar上所谓的“垃圾科学”的恶化问题,本质上是不科学的旁观者,它被引擎拖到了。
AI在整个科学中都有真正的用例,但是对于研究人员和科学倾向的公众来说,它的笨拙部署都充满了错误信息的危害。一旦错误的数字化遗物嵌入了互联网的化石记录中,最近的研究表明,它们很难击倒。