英语轻松读发新版了,欢迎下载、更新

大规模研究检测到数百万个科学论文中的AI指纹

2025-07-06 12:00:01 英文原文

作者:by Charles Blue, Phys.org

Researchers uncover how AI has been influencing word choice in scholarly publications
单词显示2024年的频率增加。(a)2024年的频率和频率比(R)。两个轴都在日志刻度上。仅将点子集标记为视觉清晰度。虚线显示了定义多余单词的阈值(请参阅文本)。带有r> 90的单词以r = 90显示。多余的单词被手动注释为内容词(蓝色)和样式单词(橙色)。(b)相同但带有频率差距()与垂直轴一样。带有> 0.05的单词显示为= 0.05。信用:科学进步(2025)。doi:10.1126/sciadv.adt3813

您可能在不知不觉中遇到了通过某种大型语言模型(LLM)完全或部分创建的引人注目的在线内容。随着这些AI资源(如Chatgpt和Google Gemini)变得更加精通近乎人类的质量写作,因此将纯粹的人写作与LLMS修改或完全产生的内容区分开来变得更加困难。

这一对可疑作者身份的激增引起了人们的关注AI生成的内容已悄悄地蔓延到同行评审的出版物中。

阐明llm内容的广泛性,一支由美国和德国研究人员组成的团队分析了超过1500万个生物医学摘要PubMed确定LLM是否对期刊文章中的特定单词选择产生了可检测的影响。

他们的调查表明,自LLM的出现以来,学术文献中某些造型师单词选择的频率有相应的增加。这些数据表明,在2024年发表的论文中,至少有13.5%的文章是用一定数量的LLM处理编写的。这结果出现在开放式日记中科学进步

自从不到三年前发行Chatgpt以来,人工智能(AI)和LLM内容的流行率爆炸,引起人们对某些研究的准确性和完整性的担忧。

然而,过去量化学术写作中LLM的上升的努力受到了对人类和LLM生成的文本集的依赖的限制。作者指出,这种设置说:“可以引入偏见,因为它需要在哪些模型中使用科学家使用LLM辅助写作的假设,以及它们如何促使他们。”

为了避免这些局限性,最新研究的作者反而研究了在公开发行Chatgpt之前和之后过度使用某些单词的变化,以发现任何明显的趋势。

研究人员对他们对先前的Covid-19公共卫生进行了建模研究,它能够通过比较大流行前后的过量死亡来推断Covid-19对死亡率的影响。通过采用相同的前后方法,新研究分析了LLMS出现之前和之后的多余单词使用模式。

研究人员发现,在LLM发行后,从过量使用“内容词”到过多使用“风格和花朵”单词选择,例如“展示”,“ Pivotal”和“ Grappling”。

通过手动将语音部分分配给每个多余的单词,作者确定在2024年之前,有79.2%的多余单词选择是名词。在2024年期间,有一个明显的转变。多余的单词选择中有66%是动词,14%是形容词。

该小组还确定了研究领域,国家和场地之间LLM使用情况的显着差异。

我们作者为您写的查尔斯·蓝,,,,编辑安德鲁·齐宁(Andrew Zinin)本文是仔细人类工作的结果。我们依靠像您这样的读者来使独立科学新闻业保持活力。如果此报告对您很重要,请考虑捐款(尤其是每月)。你会得到一个无广告表示感谢。

更多信息:Dmitry Kobak等人,通过过多的词汇量在生物医学出版物中深入研究LLM辅助写作,科学进步(2025)。doi:10.1126/sciadv.adt3813

©2025科学X网络

引用:大规模研究检测到数百万个科学论文中的AI指纹(2025年7月6日)检索2025年7月9日摘自https://phys.org/news/2025-07-massive-ai-fingerprints-millions-scientific.html

该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。

关于《大规模研究检测到数百万个科学论文中的AI指纹》的评论


暂无评论

发表评论