作者:Northeastern University
您是否曾经看过一篇文章并认为某些内容可能“不对劲”?可能很难准确地确定它是什么。形容词可能太多,或者句子结构可能过于重复。这可能会让你思考,“这是人类写的还是人工智能生成的?”
在一篇新论文中,东北大学的研究人员着手通过分析语法来更容易地回答这个问题,或者句法,在人工智能生成的文本中。他们发现,人工智能模型比人类更容易产生特定模式的名词、动词和形容词。
工作是发表于arXiv预印本服务器。
东北大学数据科学项目主任、Sy 和 Laurie Sternberg 跨学科副教授拜伦·华莱士 (Byron Wallace) 表示:“它从经验上证实了这样一种感觉,即这些世代中的许多人都是公式化的。”“从字面上看,它们是公式化的。”
众所周知,人工智能模型倾向于重复某些单词——ChatGPT 经历了一个总是“深入研究”的时期,华莱士说。但华莱士表示,在识别人工智能生成的文本时,这“并没有真正捕捉到整个故事”。华莱士和尚塔尔·沙伊布(Wallace and Chantal Shaib),博士。东北大学的一名学生负责这项研究,决定超越哪些单词来研究人工智能模型正在选择并关注语法。研究人员促使各种人工智能模型生成某些类型的文本,例如电影评论和新闻文章的摘要或
生物医学研究。然后,他们分析了所有人工智能生成的文本,并确定了所谓的句法模板,即人工智能模型重复的某些词性序列。
文本中产生的句法模式类型因 AI 模型而异。华莱士说,这几乎就像“每个模特都有自己的签名”。在某些情况下,这看起来像是一组双形容词。《旧金山最后一个黑人》的影评摘要将这部电影描述为“独特而强烈的观看体验”,对导演来说是“高度原创且令人印象深刻的处女作”,“神奇且发人深省”。两个段落的跨度。
“人类也可以生成这些模板,”沙伊卜说。“他们的写作中可以有重复的语法,但其速度比模型产生的速度要低得多。”
Shaib 补充说,人工智能模型的大小不会影响生成这些模板的可能性。他们分析的每个模型都倾向于以比人类更高的速度重复句法模式。
然而,根据他们检查的写作风格,人工智能模型和人类使用这些模式的频率之间的差异是不同的。生物医学写作中的差距要小得多,因为生物医学写作有特定的风格指南。与此同时,沙伊卜说,在电影评论和新闻文章等作家可以发挥更多创意的类型中,人工智能模型在产生相同模式方面远远超过了人类。
这些模板从哪里来?沙伊卜说。
“我们发现,实际上,这并不是模型在生成过程中构建的东西,”Shaib 说。“我们能够在其中找到大约 75% 的模板训练数据”。
沙伊布承认,这项研究并不是要创建一种万无一失的方法来确定一段文本是否是人工智能生成的。然而,它为人们如何谈论人工智能生成提供了一种新模式文本,拓宽框架,不仅要考虑特定的单词,还要考虑整个写作风格。“这最大的收获是,它为我们提供了一个工具,让我们能够准确地讨论为什么某些文本对我们来说似乎有点陌生,尤其是当我们连续看到很多文本时,”沙伊卜说。
“它为我们提供了一种方法来实际分析这里发生的事情,而不是仅仅依靠感觉。”
更多信息:Chantal Shaib 等人,生成文本中句法模板的检测和测量,arXiv(2024)。DOI:10.48550/arxiv.2407.00211
期刊信息: arXiv
本文由东北环球新闻转载东北新闻网。引文
:如何判断文本是否是人工智能生成的?研究人员找到了一种新方法(2024年10月30日)检索日期:2024 年 10 月 31 日来自 https://techxplore.com/news/2024-10-text-ai- generated-figured-method.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。