作者:Decrypt / Jason Nelson
注意了,作弊者——AI检测器来了,要当场揭穿你和你的聊天机器人。
或者至少,这就是AI开发人员用来作为卖点并希望我们相信的内容。当ChatGPT在2022年进入文化潮流时,教师和教授对人工智能生成的研究论文和家庭作业的数量激增感到震惊。为了遏制课堂上使用AI的情况,教育工作者一直在使用AI检测工具。索赔区分AI生成的文本和人类撰写的文本。
这些工具的准确性如何?根据克里斯托弗·潘恩,位于波士顿的营销分析公司Trust Insights的数据科学家,“AI检测器是一场笑话。”他测试的一款AI检测器声称,美国宪法序言中有97.75%的部分是由AI生成的。独立宣言是AI生成的。
“促使我对AI检测工具进行测试的是看到同事们互相争论,辩论某段内容是否是由AI生成的,”彭告诉……解密“我在LinkedIn上看到了这个;有些人互相指责某人是个懒惰的营销者,走捷径,只是在使用AI。”
战斗宣言?也许吧。彭恩说:“我们或许应该进行测试以了解这是否真的成立。”
penn决定使用《独立宣言》测试几种AI检测器,他对结果感到失望:“我认为它们是危险的,”他说这些检测器“简单粗暴且有害。”
“这些工具被用来做一些事情,比如取消学生的资格,让他们面临学业警告或停学的后果,”他说。在美国,“这种应用风险非常高,因为大学教育每年要花费数万美元。”
我们决定自己做一个测试,来看看这些网站的表现如何。在第一次测试中,我们使用了宾州使用的《独立宣言》的同一段落来确定哪些检测器错误地认为该文本是由AI生成的。第二次测试中,我们选取了E.M. Forster于1909年发表的科幻短篇小说《机器停止》中的一个片段。机器停止运转“并让ChatGPT重写它,以查看哪个检测器将该段落识别为AI撰写。以下是我们的结果:”
使用Penn使用的同一段文字,我们比较了几种AI检测器:语法.ly(注意:"Grammarly"通常被直接音译或意译为“语法ly”,没有官方标准中文名,此处采用常见表达方式)GPTZero、QuillBot和ZeroGPT,宾在领英帖子中展示的AI检测工具。
从最好到最差:检测人工撰写的文章
在接下来的测试中,我们运行了“机器停止转动通过ChatGPT-4到重写文本看看AI检测器是否能发现伪造的文字。
从最好到最差:检测AI撰写的文章
“Grammarly继续深化其在评估文本原创性和负责任地使用人工智能方面的专业知识,”Grammarly的一位发言人表示。解密,指向一家公司帖子关于其AI检测软件。
“作为我们承诺负责任地使用人工智能的一部分,我们将添加AI检测到我们的原创性功能中,”该公司表示。“尽管该技术存在固有的局限性,但我们优先考虑向用户,特别是学生群体提供尽可能透明的信息。”
Grammarly的发言人还强调了公司的最新更新——Grammarly Authorship,这是一个Google Chrome插件,允许用户展示文档中哪些部分是由人类创作的、由AI生成的或由AI编辑过的。
“我们不建议直接使用AI检测结果来惩戒学生,”GPTZero首席技术官Alex Cui表示。解密“我认为它作为一个诊断工具是有用的,但需要我们的作者工具来实现真正的解决方案。”
像Grammarly一样,GPTZero也提供了一个“作者身份”工具,Cui建议使用该工具来验证未来的内容提交是由人类撰写的。
“我们在Google Docs和我们自己的编辑器中编写报告,并分析文档中的打字模式,以判断文档是否为人工撰写,从而大幅降低得出错误结论的风险,”他说。
崔强调了在多样化的数据集上持续训练人工智能模型的重要性。
“我们使用大规模的自然语言处理(NLP)和机器学习模型,这些模型是在包含数百万份人工智能生成和人类编写文档的数据集上训练出来的,并且在发布前经过测试确保错误率很低,”他说。“我们在正式推出之前将检测器调优到误报率低于1%,以降低误报的风险。”
潘恩指出,盲目依赖AI检测器来发现抄袭和作弊与依赖AI撰写基于事实的报告一样危险。
“我对任何考虑使用这些工具的人的警告是,它们在任何任务关键型或高风险应用中的误报率过高,”彭说。“如果误报率——如果你要开除某人或者撤销他们的博士学位——必须为零。完全结束。如果机构进行了严格的测试,他们很快就会发现市场上根本没有一种工具可以购买。但这就是需要发生的事情。”
幸好事文章中只有5%被识别为AI生成的。
ZeroGPT和Quillbot尚未对评论请求作出回应。
编辑由安德鲁·海沃德
由生成式AI模型Gen讲述的一周人工智能之旅。