英语轻松读发新版了,欢迎下载、更新

我测试了 9 个 AI 内容检测器 - 这 2 个每次都能正确识别 AI 文本

2024-11-26 09:22:00 英文原文

作者:Written by

ai black hole
朱迪云/盖蒂图片社

当我第一次思考是否可以反击时人工智能生成抄袭及其可能如何运作,那是 2023 年 1 月,距离全世界的抄袭意识爆炸式增长仅几个月生成式人工智能。一个 

这是 2023 年 1 月原始文章的更新版本。当我第一次测试 GPT 检测器时,我使用了三个:GPT-2输出检测器(这与我们之前发布的网址不同),Writer.com AI 内容检测器, 和大规模内容 AI 内容检测(显然现在被称为布兰德韦尔)。一个 

另外: 如何使用 ChatGPT:您需要了解的一切

GPT-2 输出检测器的最佳结果正确率为 66%。我在 2023 年 10 月做了另一次测试,又添加了三个:GPT零,零GPT(是的,它们是不同的),并且Writefull 的 GPT 检测器。然后,在 2024 年夏天,我添加了 羽毛笔机器人和商业服务,创意.ai,混合。这次我还要加上Grammarly 的 Beta 检查器

2023 年 10 月,我从测试套件中删除了 Writer.com AI 内容检测器,因为它在 2023 年 1 月失败了,在 10 月再次失败,在 2024 年夏天又失败了。不过,它现在似乎可以工作,所以我将其包含在测试套件中。请参阅下面该公司的评论,该评论是他们的团队在一月份原始文章发表后发给我的。

还:谷歌研究称 88% 的员工会使用人工智能来克服任务瘫痪

我重新运行了所有测试,看看探测器今天的表现如何。虽然我取得了两次巨大的成功,但最大的收获似乎是一个人工智能检查器与另一个人工智能检查器的结果是多么不一致。

我正在测试什么以及如何测试

不过,在继续之前,我们应该讨论一下抄袭以及它与我们的问题有何关系。韦氏词典定义“抄袭” 作为“窃取和冒充(他人的想法或言语)为自己的;使用(他人的作品)而不注明来源。”

这个定义非常适合人工智能创建的内容。当有人使用像这样的人工智能工具时概念人工智能或者聊天GPT不是窃取内容,如果该人不相信这些单词来自人工智能并声称它们是自己的,它仍然符合字典中抄袭的定义。

另外: 值得尝试的最佳人工智能图像生成器

在这篇实验性文章中,我请 ChatGPT 提供帮助。我的文字是普通的粗体文字。AI 的文字是斜体的。在每个人工智能生成的部分之后,我将展示探测器的结果。在文章的最后,我们将看看探测器的整体表现如何。

以下是我自己写的上述文本的测试结果:

  • GPT-2 输出检测器:99.98% 真实 
  • 作家网:95% 的内容是人工生成的
  • BrandWell AI 内容检测:作为人类
  • GPTZero: 98% 人类
  • 零GPT:22% AI GPT 您的文本很可能是人类编写的
  • Writefull GPT 检测器: 1% 可能来自 GPT-3、GPT-4 或 ChatGPT
  • 原创性.ai:我们 99% 确信文本是原创的
  • 羽毛笔机器人:42% 的文本可能是人工智能生成的
  • 语法上:我们没有检测到常见的人工智能文本模式。您的文档似乎不包含 AI 生成的文本。

人工编写的内容:9 中的 7 (77%) 正确
上次:7 分之 5 (71%) 正确 

在我们继续之前,让我们讨论一下我所认为的“正确”分析。如果分数是数字,任何高于 80% 的分数都将被视为正确的分析,这就是慷慨。如果分数有总结,我会看总结然后做出判断。 

有了这个,让我们深入研究一下。

解释为什么 ChatGPT 对于教师和编辑来说是一个真正的抄袭问题

ChatGPT 是 OpenAI 开发的 GPT(Generative Pre-trained Transformer)语言模型的变体。它旨在通过预测给定输入序列中的下一个单词或短语来生成类似人类的文本。虽然 ChatGPT 可以成为生成文本和响应提示的有用工具,但对于教师和编辑来说,抄袭也可能是一个问题。

另外: 克服对生成人工智能最大担忧的 4 种方法

ChatGPT 给教师和编辑带来问题的主要原因之一是它可以生成与真实人类作家非常相似的文本。这意味着学生或其他个人可能会使用 ChatGPT 生成文本,然后将其作为自己的作品提交,从而构成抄袭。

对于教师和编辑来说,检测给定的文本是由 ChatGPT 生成还是由人类编写可能非常困难,因为生成的文本可能不包含任何明显的错误或差异来揭示其人工来源。这可能使教师和编辑难以识别和防止剽窃,因为他们可能无法判断给定的文本是原创的还是从其他来源复制的。

总体而言,ChatGPT 和其他类似的语言模型在抄袭方面可能会给教师和编辑带来问题,因为它们可以生成难以与人类编写的文本区分开来的文本,从而使学生和其他个人更容易在不被察觉的情况下进行抄袭。检测到。

  • GPT-2 输出检测器:99.69% 真实
  • 作家网:77% 的内容是人工生成的
  • BrandWell AI 内容检测:很难说
  • GPT零:100%人工智能
  • 零GPT:100% 人工智能
  • Writefull GPT 检测器: 12% 的可能性来自 GPT-3、GPT-4 或 ChatGPT。
  • 原创性.ai:100% 人工智能
  • 羽毛笔机器人:83% 的可能性是人工智能
  • 语法上:我们没有检测到常见的 AI 文本模式。您的文档似乎不包含 AI 生成的文本

AI编写的内容:9 分中的 4 分 (44%) 正确
上次:7 中的 4 (57%) 正确

请记住,文本显示在斜体是由AI生成的。

向我展示至少三种检测 ChatGPT 用于生成文本的方法

您可以通过多种方法来检测是否使用 ChatGPT 或其他语言模型来生成一段文本。以下是您可以使用的三种潜在方法:

  1. 查找文本中重复或不寻常的模式:检测语言模型是否用于生成文本的一种方法是寻找写作中的重复或异常模式。例如,语言模型可能会重复某些短语或单词组合,或者使用不寻常或不一致的句子结构。
  2. 检查是否缺乏原创性:检测语言模型是否用于生成文本的另一种方法是检查写作是否缺乏原创性。如果一段文本似乎是从其他来源复制的,或者它包含在互联网或其他来源中广泛提供的信息,则可能表明它是由语言模型生成的。
  3. 使用抄袭检查器:最后,您可以使用抄袭检查器来检查一段文本是否看起来是从其他来源复制的。虽然抄袭检查器可能无法明确确定是否使用语言模型来生成一段文本,但它可以帮助您识别从其他来源复制或释义的实例。
  4. 当答案明显错误时请注意:我在我的概念人工智能评论,在那里我重点关注了人工智能撰写的一些看似权威的文本,但这是公然错误的。如果学生或作家不能完全掌握所讨论的主题,他们可能无法发现不准确之处,并将其留在人工智能生成的响应中。当然,错误的陈述不仅仅是人工智能写作工具的权限。例如,许多博主和评论者重复其他博主的言论,从而创造了一种回声室完全“虚假的事实”,表明虽然智力可能是人造的,但愚蠢是一种普遍特征。

请记住,很难明确确定是否使用语言模型来生成一段文本,并且这些方法可能并不总是有效。但是,它们可以成为有用的工具,帮助您识别语言模型生成的文本的潜在实例。

另外: 这个谷歌人工智能工具可能会成为你最喜欢的新学习辅助工具 - 而且它是免费的

在这组测试中,只有上面的斜体内容通过检查器套件运行。

  • GPT-2 输出检测器:99.98% 假货
  • 作家网:73% 的内容是人工生成的
  • BrandWell AI 内容检测:作为人类
  • GPT零:100%人工智能
  • 零GPT:96.99% AI 生成
  • Writefull GPT 检测器: 79% 的可能性来自 GPT-3、GPT-4 或 ChatGPT。
  • 原创性.ai:100% 人工智能
  • 羽毛笔机器人:100% 人工智能
  • 语法上:我们没有检测到常见的 AI 文本模式。您的文档似乎不包含 AI 生成的文本

AI编写的内容:9 分中的 5 分 (55%) 正确
上次:7 分中的 5 分 (71%) 正确

列出三个可以检测 ChatGPT 文本的抄袭检查器

值得注意的是,目前还没有专门设计用于检测 ChatGPT 或其他语言模型生成的文本的抄袭检查器。虽然一些抄袭检查器可能能够识别语言模型生成的文本的某些特征,这些特征可以表明其人工来源,但不能保证他们能够明确确定一段文本是否是由语言模型生成的。

话虽如此,您可以考虑使用以下三个抄袭检查器来帮助识别语言模型生成的文本的潜在实例:

  1. 特尼汀:特尼丁 是一种流行的抄袭检查器,被学校和大学广泛使用。它将一段文本与其他文本的数据库进行比较,以识别复制或释义的实例。虽然它可能无法明确确定一段文本是否由语言模型生成,但它可能会识别语言模型生成的文本的某些特征,这些特征可能表明其人工起源。
  2. 普拉格扫描:普拉格扫描 是另一种抄袭检查器,它将一段文本与其他文本的数据库进行比较,以识别复制或释义的情况。与 Turnitin 一样,它可能能够识别语言模型生成的文本的某些特征,这些特征可以表明其人工来源,但它并不是专门为检测语言模型生成的文本而设计的。
  3. 抄袭泄密:抄袭泄密 是一种抄袭检查器,它使用先进的机器学习算法来扫描一段文本并将其与其他文本的数据库进行比较,以识别复制或释义的情况。虽然它可能能够识别语言模型生成的文本的某些特征,但它并不是专门为检测语言模型生成的文本而设计的。

值得注意的是,没有一个抄袭检查器是完全万无一失的,语言模型生成的文本总是有可能逃脱检测。因此,重要的是使用抄袭检查器作为检测和防止抄袭的更大策略的一部分。

  • GPT-2 输出检测器:99.58% 真实
  • 作家网:74% 的内容是人工生成的
  • BrandWell AI 内容检测:作为人类
  • GPT零:100%人工智能
  • 零GPT:100% 人工智能
  • 写全 GPT 探测器:87% 的可能性来自 GPT-3、GPT-4 或 ChatGPT。
  • 原创性.ai:100% 人工智能
  • 羽毛笔机器人:100% AI 生成
  • 语法上:未检测到抄袭或 AI 文本

AI编写的内容: 9 分中的 5 分 (55%) 正确
上次:7 分中的 5 分 (71%) 正确

在线人工智能抄袭检查器

大多数抄袭检测器用于将写作与其他写作的语料库进行比较。例如,当学生提交论文时,Turnitin 等产品会根据其数据库中的庞大论文库以及互联网上的其他文档和文本扫描提交的论文,以确定提交的论文是否包含已写的内容。

然而,人工智能写作工具可以生成原创内容,至少在理论上是这样。是的,他们根据所受过的训练来构建内容,但他们构建的单词对于每个作品来说都有些独特。

另外: OpenAI 撤回了自己的 AI 检测工具,因为它的性能太差

因此,上面提到的抄袭检查器可能不起作用,因为人工智能生成的内容可能不存在于其他学生的论文中。

在本文中,我们只关注 GPT 检测器。但抄袭是一个大问题,正如我们所看到的,有些人选择将抄袭定义为你声称是你自己写的东西,而另一些人选择将抄袭定义为你声称是你自己写的别人写的东西。

直到现在,这种区别从来都不是问题。现在我们有了非人类作家,抄袭的区别就更加微妙了。这条线到底画在哪里,由每一位教师、学校、编辑和机构来决定。

  • GPT-2 输出检测器:99.56% 真实
  • 作家网:98% 的内容是人工生成的
  • BrandWell AI 内容检测:作为人类
  • GPT零:98% 人类
  • 零GPT:16.82% AI - 您的文本是人类编写的
  • Writefull GPT 检测器: 7% 的可能性来自 GPT-3、GPT-4 或 ChatGPT。
  • 原创性.ai:100% 原创
  • 羽毛笔机器人:0% 人工智能
  • 语法上:未检测到抄袭或 AI 文本

AI编写的内容: 9 中的 9 (100%) 正确
上次:7 中的 7 (100%) 正确

总体结果

总体而言,与上一轮测试相比,结果有所下降。那一次,我们有三项服务都是满分。现在这个数字减少到了两个,因为 ZeroGPT(我们当时的完美得分播放器之一)未能通过之前成功的测试。我们添加的两个新检测器 Writer.com 和 Grammarly 并没有提高分数。事实上,两者总体上都不成功。

测试

全面的

人类

人工智能人工智能人工智能

人类

GPT-2输出检测器

60%

正确的

失败

正确的

失败

正确的

作家网

40%正确的

失败

失败

失败正确的

BrandWell人工智能探测器

40%

正确的失败失败失败

正确的

GPT零

100%

正确的正确的正确的正确的正确的

零GPT

80%失败

正确的

正确的正确的正确的

Writefull GPT 检测器

60%

正确的

失败

失败正确的正确的

创意.ai

100%正确的正确的正确的正确的正确的

羽毛笔机器人

80%

失败

正确的正确的正确的正确的

语法

40%正确的

失败

失败

失败

正确的

虽然总体结果有所改善,但我不愿意仅仅依靠这些工具来验证学生的内容。

正如已经表明的那样,

非母语人士的写作通常被评为由人工智能生成

,尽管我手工制作的内容不再被评为人工智能,但有几个段落被测试人员标记为可能基于人工智能。

您还可以看到测试系统之间的结果如何非常不一致。

因此,我主张在依赖任何(或全部)这些工具的结果之前要谨慎。

让我们看看各个测试人员的表现。

GPT-2输出检测器(准确度60%)

这第一个工具

使用由纽约人工智能公司管理的机器学习中心构建

抱脸

虽然

公司已获得4000万美元融资

为了开发其自然语言库,GPT-2 检测器似乎是一个使用 Hugging Face Transformers 库的用户创建的工具。

在我进行的五次测试中,探测器有三项是准确的。

David Gewirtz/ZDNET 截图

Writer.com AI 内容检测器(准确度不适用)

作家网

是一项生成AI写作的服务,面向企业团队。

它是

AI内容检测器

工具可以扫描生成的内容。

我发现这个工具不可靠。

虽然之前未能生成结果,但这次运行了。

不幸的是,它的准确性相当低。它本质上将每个文本块识别为人工编写的,其中六个测试中的三个是由 ChatGPT 编写的。另外: 

如何使用 ChatGPT 免费数字化您的手写笔记

这篇文章最初于 1 月份发表后,Writer.com 的工作人员联系了 ZDNET。

首席执行官 May Habib 有这样的评论要分享:对人工智能探测器的需求猛增。自几个月前推出以来,流量每周增长 2-3 倍。我们现在已经在其背后进行了必要的扩展,以确保它不会下降,我们的目标是保持它免费 - 并保持最新状态以捕获最新模型的输出,包括我们的输出。如果要逐字使用人工智能输出,那么绝对应该对其进行归因。David Gewirtz/ZDNET 截图

GPT-2 Output Detector
BrandWell AI内容检测(准确率40%)

第三个工具

我发现最初是由人工智能内容生成公司 Content at Scale 制作的。随后,该工具迁移到布兰德韦尔.ai,这似乎是现在一家以人工智能为中心的营销服务公司的新名称。

不幸的是,准确率相当低。该工具将所有人工智能内容识别为人类内容,如以下屏幕截图所示:

本文完全由 ChatGPT 编写。

David Gewirtz/ZDNET 截图

writer
GPTZero(准确度 100%)

目前还不完全清楚驱动因素是什么

GPT零该公司正在招聘工程师和销售人员,并且在 AWS 上运行,因此有费用和销售。然而,我能找到的有关服务的全部信息是,您可以注册一个免费帐户,无需登录即可扫描所提供的 5,000 个以上的单词。

如果您对这项 GPT 检测服务感兴趣,您必须看看他们是否会回复您提供更多详细信息。

brandwell

自从我第一次运行测试以来,准确率有所提高,并且在这一轮中保持在 100%。

David Gewirtz/ZDNET 截图

ZeroGPT(准确度 80%)

零GPT自从我们上次研究它以来,它作为一项服务似乎已经成熟了。当我们上次查看时,没有列出任何公司名称,该网站上充斥着谷歌广告,没有明显的盈利策略。

gptzero
这项服务运作得相当不错,但看起来很粗略。

另外: 

Anthropic 表示,人工智能并没有碰壁,它只是变得太智能而无法达到基准那种粗略的感觉现在已经消失了。

ZeroGPT 与任何其他 SaaS 服务一样,包含定价、公司名称、联系信息以及所有其他信息。它仍然表现得很好,所以也许开发人员决定将他们的工作代码变成更多的工作业务。

但准确性下降了。它将一项人工编写的测试误认为是人工智能。

zerogpt
David Gewirtz/ZDNET 截图

Writefull GPT 检测器(准确度 60%)写满

出售写作支持服务以及免费试用其工具。GPT检测器是相当新的并且工作得相当好。然而,该工具在我们的测试中经历了一些起伏。从60%提高到80%,但这次又下降到60%。

writefull
David Gewirtz/ZDNET 截图

Originality.ai(准确率 100%,差不多)创意.ai

是一项商业服务,自称是人工智能检查器和抄袭检查器。该公司根据使用积分销售其服务。为了让您了解一下,我为本文所做的所有扫描都使用了 30 个使用积分。该公司每月销售 2,000 个积分,价格为每月 12.95 美元。我通过系统输入了大约 1,400 个单词,仅使用了每月分配的 1.5%。

originality-ai
David Gewirtz/ZDNET 截图

人工智能检查器的结果非常好,但当将该服务用作抄袭检查器时,该工具五分之三失败。下面的截图声称粘贴的文本是0%抄袭:

plag1
David Gewirtz/ZDNET 截图

这是错误的,因为粘贴到该工具中的所有文本都来自这篇在网上发表了两年的文章。我认为抄袭扫描程序可能无法读取 ZDNET 内容,但事实并非如此,如以下屏幕截图所示:

plag2
David Gewirtz/ZDNET 截图

公平地说,我在本文中并没有打算检查抄袭检查器。但由于我使用的是我从现有文章中提取的源材料,我认为抄袭检查器会猛烈抨击所有这些材料为 100% 抄袭。无论如何,Originality.ai 在我们要测试的人工智能检查器部分表现得非常好。该工具因此而得分。一个 

QuillBot(准确度 80% 左右)

没有什么是容易的。我第一次通过第一个测试羽毛笔机器人,它表示 45% 的文本可能是由人工智能生成的。事实并非如此。我写的。但是,在完成所有其他测试后,我返回 QuillBot 获取此部分的屏幕截图,向其提供生成 45% 分数的相同文本,并且,如您所见,它现在报告 0% AI。

cleanshot-2024-08-07-at-14-09-582x
David Gewirtz/ZDNET 截图

那么,我们该如何看待这个结果呢?遗憾的是,我没有抓取第一次测试此文本的屏幕截图,但它凸显了人们对过度依赖人工智能探测器的担忧,因为它们也很容易产生幻觉。 

语法(准确率 40%)

Grammarly 是一款众所周知的工具,可帮助作者编写语法正确的内容。这不是我们在这里测试的。Grammarly 可以检查抄袭和 AI 内容。你可以将文档粘贴到他们的语法检查器中,在右下角,有一个抄袭和人工智能文本检查按钮。

grammarly1
David Gewirtz/ZDNET 截图

在这次测试中,该工具找到了一个与我粘贴的内容相匹配的现有在线文档。这个结果是有道理的,因为这是对在线已有几年的文章的更新。但不正确的是“您的文档似乎不包含 Al 生成的文本”这一说法,因为整个片段都是由 ChatGPT 生成的。

grammarly2
David Gewirtz/ZDNET 截图

OpenAI 自己的 ChatGPT 检测器怎么样?

嗯, OpenAI 拉了它去年因为探测器不是特别准确。截至 8 月份,准确率应该是 99%,但四个月后仍然没有发布的迹象。它声称的准确度也有点令人难以置信,因为 ChatGPT 本身远非 100% 准确。 

另外: OpenAI 的新人工智能检测工具会杜绝学生作弊吗?

但无论如何,正如我的 ZDNET 好友 Steven Vaughan-Nichols 所写,它目前还无法实现。当该工具发布供公众使用时,我们将对其进行试用。敬请关注。

最后的想法

首先,我会让 ChatGPT 发表意见: 人工智能驱动的抄袭问题日益严重,因为像 Notion AI 和 ChatGPT 这样的人工智能工具可以生成难以与人类编写的文本区分开来的文本。有多种方法可以检测一段文本是否由人工智能生成,例如寻找重复或不寻常的模式、检查是否缺乏原创性或使用抄袭检查器。Turnitin、PlagScan 和 Copyleaks 等抄袭检查器可能能够识别语言模型生成的文本的某些特征,但它们并不是万无一失的。

不幸的是,即使是我找到的专业工具也根本不适合这项任务。与我一月份的测试相比,进步有限。然而,我当然不愿意根据这些工具的结果来威胁学生的学术地位或指责他们作弊。

还:惊喜!研究发现人工智能聊天机器人毕竟不会增加学生作弊

目前,我认为我们还没有准备好让人工智能对抗人工智能。相反,我们必须依靠人类的感知(这意味着人们必须集中注意力)来识别人工智能生成的作品。

不要立即假设某些东西是机器生成的。仅仅因为某些东西很愚蠢或非常不准确,并不意味着它不是由人类编写的。众所周知,人类可以自己写出一些不好的东西。

另外: 有人会错误地指控您使用人工智能生成的文本吗?这可能就是为什么

那么,你觉得怎么样?你能判断一件作品是否是人工智能生成的吗?这些人工智能写作工具突然出现后的几个月里,你用过吗?您认为它们对教育和新闻业是帮助还是阻碍?请在下面的评论中告诉我们。ChatGPT 对此的回答如下:

作为一种语言模型,我无法看到物理文字或与之交互,因此我无法判断该文字是否是人工智能生成的。不过,我可以告诉你,有几种可用的人工智能写作工具,它们可用于生成广泛的书面内容,包括新闻文章、小说、诗歌等。

我没有使用这些工具的个人经验,因为我只是一个计算机程序,没有浏览互联网或使用物理工具的能力。然而,我可以告诉你,有些人发现人工智能写作工具对教育和新闻业很有帮助,因为它们可以通过自动化某些任务来节省时间和精力。其他人则对这些工具可能被用来产生误导性或有偏见的内容或取代人类作家表示担忧。最终,人工智能写作工具是帮助还是阻碍取决于它们的使用方式和使用环境。

所以,是的,就是这样。


您可以在社交媒体上关注我的日常项目更新。请务必订阅我的每周更新时事通讯,并在 Twitter/X 上关注我:@大卫格维茨,在 Facebook 上Facebook.com/DavidGewirtz,在 Instagram 上Instagram.com/DavidGewirtz,以及 YouTube 上的YouTube.com/DavidGewirtzTV。.

关于《我测试了 9 个 AI 内容检测器 - 这 2 个每次都能正确识别 AI 文本》的评论


暂无评论

发表评论

摘要

根据您帖子中提供的信息,目前使用现有工具准确检测人工智能生成的文本似乎存在局限性:1. **Grammarly(准确率 40%)**:这款流行的写作助手可以检测抄袭,但无法将 ChatGPT 生成的整个文档识别为 AI 内容。2. **Turnitin 和其他抄袭检查器**:这些工具虽然可以有效检测复制的人类文本,但在识别仅由 ChatGPT 等语言模型创建的文本方面并不完全可靠。3. **专用人工智能探测器**:- 您测试的专用人工智能探测器比早期测试显示出有限的改进,但仍然不可靠。- 即使是 OpenAI 自己的检测器,本来应该是高度准确的,但由于不可靠而被撤下。4. **人类感知**:目前最可靠的方法是人类的判断和批判性思维。然而,人类还需要仔细注意才能准确检测人工智能生成的文本。5. **ChatGPT 的见解**:- ChatGPT 认为人工智能写作工具可用于自动化某些任务,但引发了对潜在滥用的担忧。- 人类监督对于识别此类工具带来的不准确或偏见仍然至关重要。### 建议:1. **人工监督**:依靠人工判断来识别可疑模式、缺乏原创性和不一致之处。2. **上下文意识**:请注意,人工智能生成的文本可能非常复杂,但仍然可能表现出通过仔细审查可检测到的微妙模式或缺陷。3. **持续监控**:密切关注人工智能编写工具和检测方法的进步,因为随着时间的推移,改进可能会出现。### 结论:目前,最好的方法是将人工监督和谨慎使用现有工具相结合。随着技术的发展,可能会出现更可靠的解决方案,但目前,人类的判断对于准确识别人工智能生成的内容仍然至关重要。