英语轻松读发新版了,欢迎下载、更新

我测试了10个AI内容检测器 - 这3个每次都正确识别了AI文本

2025-02-13 10:10:00 英文原文

作者:Written by

ai black hole
Diyun Zhu/Getty图像

当我第一次检查是否有可能与AI生成窃,这种方法可能如何起作用,那是2023年1月,在世界上几个月来爆炸了对生成的AI。一个 

这是该原始文章的最新版本。当我第一次测试GPT探测器时,我使用了三个:GPT-2输出检测器(这与我们之前发表的URL不同),writer.com AI内容检测器, 和大规模的AI内容检测内容(现在称为Brandwell)。一个 

另外: 如何使用chatgpt:您需要知道的一切

最好的结果是从GPT-2输出检测器中正确的66%。我在2023年10月进行了另一项测试,又增加了三个:gptzero,,,,Zerogpt(是的,它们与众不同),并且Writefull的GPT检测器。然后,在2024年夏天,我补充了 QuillBot和商业服务,原创性,混合。这次,我会添加 Grammarly的Beta检查器和一个探测器无法检测到。2023年10月,我从我们的测试套件中删除了Writer.com AI内容探测器,因为它在2023年1月失败了,它在10月再次失败,并且在2024年夏季失败了。但是,现在似乎有效,所以我是我的

将其包括在测试套件中。请参阅下面的公司评论,他们的团队在一月份发表了原始文章后将我发送给我。

还:Google研究说,88%的工人将使用AI克服任务瘫痪。

我已经重新进行了所有测试,以查看探测器今天的表现。尽管我取得了两项取得的重大成功,但最大的收获似乎是,从一个AI检查器到另一个AI检查器的结果是不一致的。

我正在测试什么以及我如何做

但是,在继续之前,我们应该讨论窃及其与我们的问题的关系。Merriam-Webster定义”抄袭“ as”偷走并删除(他人的想法或言语)自己的自己;使用(他人的生产)而不归功于来源。”

该定义非常适合AI创建的内容。当某人使用AI工具之类的人概念AI或者chatgpt不是窃取内容,如果该人不称赞来自AI的单词并声称自己是自己的单词,它仍然符合窃的字典定义。

另外: 尝试尝试的最佳AI图像生成器

在这篇实验文章中,我请Chatgpt提供帮助。我的话是正常和大胆的文字。AI的话是斜体的。每个AI生成的部分之后,我将显示检测器的结果。在文章的结尾,我们将研究探测器的整体表现。

这是上述文本的测试结果,我写了我自己:

  • GPT-2输出检测器:99.98%真实 
  • writer.com:95%的人类生成的内容
  • Brandwell AI内容检测:作为人类
  • gptzero: 98%的人
  • Zerogpt:22%ai gpt您的文本很可能是人类写的
  • 写入GPT检测器: 1%可能来自GPT-3,GPT-4或Chatgpt
  • 独创性.ai:我们有99%的信心文字是原始的
  • Quillbot:42%的文本可能是AI生成的
  • 语法:我们没有检测到常见的AI文本模式。您的文档似乎不包含AI生成的文本
  • 无法检测到:100%人类

人写的内容:10中的8(80%)正确
上次:7中的5(71%)正确 

在继续前进之前,让我们讨论我将认为“正确”的分析。如果分数是数字,那么80%以上的任何内容都将被视为正确的分析,这是慷慨的。如果分数有摘要,我将查看摘要并做出判断。 

这样,让我们​​进一步挖掘。

解释为什么Chatgpt在窃时对老师和编辑来说可能是一个真正的问题

Chatgpt是Openai开发的GPT(生成预训练的变压器)语言模型的变体。它旨在通过预测给定输入序列中的下一个单词或短语来生成类似人类的文本。尽管ChatGpt可能是生成文本和响应提示的有用工具,但对于窃时,这也可能是教师和编辑的问题。

另外: 克服您对生成AI的最大担忧的4种方法

Chatgpt可能成为教师和编辑人员的问题的主要原因之一是,它可以生成与真正的人类作家非常相似的文本。这意味着学生或其他个人可以潜在地使用Chatgpt来生成他们可以作为自己的工作提交的文本,从而从事窃。

对于教师和编辑人物,检测给定文本是由chatgpt生成还是由人撰写的文本可能非常困难,因为生成的文本可能不包含任何明显的错误或差异,这些错误或差异会揭示其人工起源。这可能使教师和编辑很难识别和防止窃,因为他们可能无法分辨给给定的文本是原始的还是从其他来源复制的。

总体而言,在窃时,Chatgpt和其他类似的语言模型对于教师和编辑来说可能是一个问题检测到。

  • GPT-2输出检测器:真实的99.69%
  • writer.com:77%的人类生成含量
  • Brandwell AI内容检测:很难说
  • gptzero:100%AI
  • Zerogpt:100%AI
  • 写入GPT检测器: 12%可能来自GPT-3,GPT-4或Chatgpt
  • 独创性.ai:100%AI
  • Quillbot:83%的AI
  • 语法:我们没有检测到常见的AI文本模式。您的文档似乎不包含AI生成的文本
  • 无法检测到:100%AI

AI写的内容:10中的5(50%)正确
上次:7中的4(57%)正确

记住,文字显示斜体是由AI生成的。

向我展示至少可以检测到的三种方法来生成一段文字

您可以通过几种方法可以检测到Chatgpt还是其他语言模型来生成文本。这是您可以使用的三种潜在方法:

  1. 在文本中寻找重复或异常模式:检测语言模型是否用于生成文本的一种方法是在写作中寻找重复或不寻常的模式。例如,语言模型可以重复某些短语或单词组合,或使用异常或不一致的句子结构。
  2. 检查缺乏独创性:检测是否使用语言模型生成文本的另一种方法是检查写作中缺乏独创性。如果似乎是从另一个来源复制的文本,或者包含在Internet或其他来源中广泛使用的信息,则可能表明它是由语言模型生成的。
  3. 使用pla窃检查器:最后,您可以使用pla窃检查器检查是否似乎是从另一个来源复制的文本。虽然pla窃检查器可能无法明确确定是否使用语言模型来生成文本,但它可以帮助您确定从其他来源复制或释义的实例。
  4. 注意答案显然是错误的何时:我在我的概念AI评论,在这里,我关注了AI的文本,看上去是权威,但这是公然错误的。如果学生或作家对正在讨论的主题没有完全指挥,则他们可能不会发现不准确的问题,而是将其留在AI生成的响应中。当然,不正确的语句不仅是AI写作工具的权限。例如,许多博客作者和评论者,例如其他博客作者的重复语句,创建一个回声室完全“虚假的事实”,表明智力可能是人为的,但愚蠢是一种普遍的特征。

请记住,很难确定是否使用语言模型来生成文本,而这些方法可能并不总是有效。但是,它们可以是有用的工具来帮助您确定语言模型生成的文本的潜在实例。

另外: 这个Google AI工具可能是您最喜欢的新学习辅助工具 - 它是免费的

在这组测试中,只有上面的斜体内容通过Checker Suite运行。

  • GPT-2输出检测器:伪造的99.98%
  • writer.com:73%的人类生成的内容
  • Brandwell AI内容检测:作为人类
  • gptzero:100%AI
  • Zerogpt:96.99%的AI生成
  • 写入GPT检测器: 79%的可能来自GPT-3,GPT-4或CHATGPT
  • 独创性.ai:100%AI
  • Quillbot:100%AI
  • 语法:我们没有检测到常见的AI文本模式。您的文档似乎不包含AI生成的文本
  • 无法检测到:100%AI

AI写的内容:10中的6(60%)正确
上次:7中的5(71%)正确

列出三个可以检测Chatgpt文本的窃调节器

值得注意的是,当前没有专门设计用于检测Chatgpt或其他语言模型生成的文本的窃核对器。尽管某些窃的调查器可能能够识别出可能表明其人为起源的语言模型生成的文本的某些特征,但无法保证他们能够确定确定是否是由语言模型生成的文本。

话虽如此,您可能会考虑使用三个窃核对器来帮助识别语言模型生成的文本的潜在实例:

  1. Turnitin:转身 是一个受欢迎的窃检查器,被学校和大学广泛使用。它将文本与其他文本的数据库进行比较,以识别复制或释义的实例。虽然它可能无法明确地确定语言模型是否生成的文本,但它可以潜在地识别语言模型生成的文本的某些特征,这些文本可能表明其人工来源。
  2. Plagscan:瘟疫 是另一个窃的检查器,它将一段文本与其他文本的数据库进行比较,以识别复制或释义的实例。像Turnitin一样,它可能能够识别出可能表明其人工来源的语言模型生成文本的某些特征,但并未专门设计用于检测语言模型生成的文本。
  3. 海角:海与串联 是一种使用高级机器学习算法来扫描文本并将其与其他文本的数据库进行比较以识别复制或释义实例的数据库。尽管它可能能够识别语言模型生成的文本的某些特征,但并非专门设计用于检测语言模型生成的文本。

值得注意的是,没有pla窃检查器完全万无一失,并且总是有可能会产生语言模型的文本可以逃脱检测。因此,重要的是,使用窃棋子作为检测和防止窃的更大策略的一部分。

  • GPT-2输出检测器:99.58%真实
  • writer.com:74%的人类生成含量
  • Brandwell AI内容检测:作为人类
  • gptzero:100%AI
  • Zerogpt:100%AI
  • 写入gpt 探测器:87%的可能来自GPT-3,GPT-4或CHATGPT
  • 独创性.ai:100%AI
  • Quillbot:100%AI生成
  • 语法:没有检测到的窃或AI文本
  • 无法检测到:100%AI

AI写的内容:10中的6(55%)正确
上次:7中的5(71%)正确

在线AI窃调节器

大多数窃探测器都用于将写作与其他写作语料库进行比较。例如,当学生在论文中扭转论文时,像Turnitin这样的产品会扫描其数据库中庞大的论文库,以及Internet上的其他文档和文本,以确定提交的论文是否包含已经写过的内容。

但是,AI编写工具至少在理论上生成了原始内容。是的,他们是通过受过训练的任何内容来构建内容的,但是它们构造的单词对于每个构图都是独一无二的。

另外: Openai拔出了自己的AI检测工具,因为它的性能如此差

因此,上面提到的窃核心调查器可能无法正常工作,因为AI生成的内容可能不存在,例如另一篇学生的论文。

在本文中,我们只是在研究GPT探测器。但是,窃是一个大问题,正如我们所看到的,有些人选择将pla窃定义为您所说的不写的东西,而其他人则选择将pla窃定义为您声称的其他人所写的东西。

直到现在,这种区别从来都不是问题。现在我们有了非人类作家,窃的区别更加细微。每个老师,学校,编辑和机构都可以确切地确定该线的绘制位置。

  • GPT-2输出检测器:真实的99.56%
  • writer.com:98%的人类生成的内容
  • Brandwell AI内容检测:作为人类
  • gptzero:98%的人
  • Zerogpt:16.82%AI-您的文字是人文编写的
  • 写入GPT检测器: 7%的可能来自GPT-3,GPT-4或Chatgpt
  • 独创性.ai:100%原始
  • Quillbot:0%AI
  • 语法:没有检测到的窃或AI文本
  • 无法检测到:100%人类

AI写的内容:10中的10(100%)正确
上次:7中的7(100%)正确

总体结果

总体而言,与最后一轮测试相比,结果通常保持不变。那个时候,我们有三项分数的服务。Zerogpt是当时得分的球员之一,未能进行以前成功的测试。两个新的检测器Writer.com和Grammarly并没有提高得分。实际上,两者通常都没有成功。但是,每次都无法得到正确的答案。

测试

全面的

人类

人工智能人工智能人工智能

人类

GPT-2输出检测器

60%

正确的

失败

正确的

失败

正确的

writer.com

40%正确的

失败

失败

失败正确的

Brandwell AI探测器

40%

正确的失败失败失败

正确的

gptzero

100%

正确的正确的正确的正确的正确的

Zerogpt

80%失败

正确的

正确的正确的正确的

写入GPT检测器

60%

正确的

失败

失败正确的正确的

原创性

100%正确的正确的正确的正确的正确的

QuillBot

80%

失败

正确的正确的正确的正确的

语法

40%正确的

失败

失败

失败

正确的

无法检测到

100%

正确的正确的正确的正确的正确的

尽管有一些完美的分数,但我不建议仅依靠这些工具来验证学生的内容。

如已经显示的

非本地人的写作通常会被AI产生的评分

,即使我的手工制作的内容不再被评为AI,但测试人员仍将一些段落标记为可能基于AI的段落。

您还可以查看测试系统之间的结果如何极为不一致。

因此,在依靠这些工具的任何(或全部)的结果之前,我会提倡谨慎。

让我们看一下单个测试人员,看看每个测试人员的性能。

GPT-2输出探测器(准确性60%)

第一个工具

是使用由纽约AI公司管理的机器学习中心建造的

拥抱脸

公司已获得4000万美元的资金

为了开发其自然语言库,GPT-2检测器似乎是使用拥抱Face Transformers库的用户创建的工具。

在我进行的五项测试中,检测器在三个测试中是准确的。

David Gewirtz/Zdnet的屏幕截图

writer.com AI内容检测器(准确性N/A)

writer.com

是一项生成AI写作的服务,面向公司团队。

它是

AI内容检测器

工具可以扫描生成的内容。

我发现这个工具不可靠。

虽然它以前未能产生结果,但这次运行。

不幸的是,其准确性很低。

它本质上将每个文本块确定为人写的,其中六个测试中有三个由Chatgpt编写。

另外: 

如何免费使用Chatgpt免费数字化手写笔记

本文最初于一月份发表之后,Writer.com上的人们与ZDNET联系。首席执行官梅·哈比卜(May Habib)发表了这一评论:对AI检测器的需求飙升。

自几个月前推出以来,流量每周增长2-3倍。

现在,我们已经有了必要的缩放,以确保它不会下降,我们的目标是保持自由 - 并最新以捕获最新型号的输出,包括我们的输出。

如果AI输出将逐字使用,则绝对应归因于。David Gewirtz/Zdnet的屏幕截图Brandwell AI内容检测(准确40%)第三个工具我发现最初是由AI内容生成公司生产的,即大规模的内容。随后,该工具迁移到

GPT-2 Output Detector
Brandwell.ai

,这似乎是现在以AI为中心的营销服务公司的新名称。

不幸的是,准确性很低。该工具将所有AI内容识别为人类,就像在此屏幕截图中一样:该文本完全由Chatgpt撰写。David Gewirtz/Zdnet的屏幕截图

gptzero(准确100%)目前尚不清楚什么驱动器

gptzero。

该公司正在雇用工程师和销售人员,并且在AWS上运行,因此有支出和销售。

writer
但是,我能找到的有关服务产品的地方是您可以注册免费帐户以扫描的地方,而不是登录的5,000个单词。

如果您对GPT检测服务感兴趣,则必须查看他们是否会响应您的更多详细信息。

自从我第一次进行测试以来,准确性提高并在本轮比赛中保持100%。David Gewirtz/Zdnet的屏幕截图Zerogpt(准确80%)Zerogpt

自从我们上次研究以来,似乎已经成为一项服务。

brandwell

当我们上次看时,没有列出公司名称,并且该网站上挂着Google广告,没有明显的货币化策略。

该服务运作良好,但看起来像赫克(Heck)那样粗略。

另外: 

AI拟人说,AI没有撞墙,它对于基准而变得太聪明了。这种粗略的感觉现在已经消失了。Zerogpt将其作为其他任何SaaS服务,包括定价,公司名称,联系信息以及所有其他服务。

gptzero
它的性能仍然很好,因此也许开发人员决定将其工作代码变成更多的工作业务。

不过,准确性下降了。

它误认为一个人写的测试是AI。David Gewirtz/Zdnet的屏幕截图

写入GPT检测器(准确性60%)

出售写作支持服务及其工具的自由品味。

zerogpt

GPT检测器

相当新,效果很好。但是,该工具在我们的测试中有一些起伏。它以前从60%提高到80%,但这次再次下降到60%。David Gewirtz/Zdnet的屏幕截图

writefull
siginality.ai(准确性100%,有点)

原创性

是一家商业服务,将自己视为AI和pla窃检查器。该公司根据使用信用来出售其服务。为了给您一个想法,我为本文所做的所有扫描都使用了30个使用信用。该公司每月以每月12.95美元的价格出售2,000个积分。我通过系统泵送1,400个单词,仅使用了每月分配的1.5%。

originality-ai
David Gewirtz/Zdnet的屏幕截图

结果对AI检查器非常好,但是该工具在使用该服务作为窃检查器时五次失败。以下屏幕截图声称粘贴在0%的窃中:

plag1
David Gewirtz/Zdnet的屏幕截图

这是错误的,因为粘贴到工具中的所有文本都来自本文,在线发布了两年。我认为,也许是窃扫描仪无法阅读ZDNET内容,但事实并非如此,正如此屏幕截图所示:

plag2
David Gewirtz/Zdnet的屏幕截图

公平地说,我没有在本文中检查窃核查者。但是,由于我正在使用原始材料,因此我知道我从现有的文章中汲取了资料,所以我认为窃核查器将把所有这些都抨击为100%窃。无论如何,Originality.ai在我们设定的测试部分AI检查器上做得很好。该工具为此获得了积分。一个 

QuillBot(准确性80%-ish)

没有什么容易的。我第一次进行了第一次测试QuillBot,它说45%的文本可能是由AI产生的。不是。我写了。但是随后,在完成所有其他测试之后,我返回Quillbot以获取本节的屏幕截图,将其与生成45%分数相同的文本喂食,并且,如下所示,它现在报告了0%AI:

cleanshot-2024-08-07-at-14-09-582x
David Gewirtz/Zdnet的屏幕截图

那么,我们应该如何看待这个结果?可悲的是,我没有捕获我第一次测试本文的屏幕截图,但它突出了人们对过多依赖AI探测器的担忧,这也很重要能够幻觉。一个 

语法(准确40%)

Grammarly是一种著名的工具,可帮助作家产生语法正确的内容。那不是我们在这里测试的。语法可以检查窃和AI内容。您可以将文档粘贴到语法检查器中,在右下角,有一个pla窃和AI文本检查按钮:

grammarly1
David Gewirtz/Zdnet的屏幕截图

在此测试中,该工具找到了一个现有的在线文档,该文档与我粘贴到语法中的文本相匹配。该结果是有道理的,因为这是对已在线几年的文章的更新。但是该工具还回答:“您的文档似乎不包含Al生成的文本”。但是,chatgpt生成了整个细分市场。

grammarly2
David Gewirtz/Zdnet的屏幕截图

无法检测到的ai(准确100%)

无法检测到的名声的最大声称是它的“人性化”,它声称可以采用AI生成的文本,并使其看起来足够人性化,以至于AI检测器不会像机器人那样检测到它。这是我尚未测试的能力,老实说,这使我感到困扰着我的某种核心。这种能力似乎是对我的专业作家和教育家作弊。

但是,该公司还拥有一个AI检测器,这非常重要。

cleanshot-2025-02-12-at-13-55-162x
David Gewirtz/Zdnet的屏幕截图

AI检测器通过了我们喂养的所有测试。注意显示其他内容检测器的标志的指标。该公司表示:“我们开发了以这些主要检测器建立建模的多个检测算法,以提供一种基于联合和共识的方法。它们并未直接融入列出的模型中,而是根据它们生成的结果对每个模型进行了培训。当说这些模型标记为标记时,它基于我们为这些模型创建和更新的算法。”

这些算法并不完美,因为当我通过gptzero运行相同的文本时,它将文本宣布为98%的人类,这不值得红色的指标。

即便如此,无法检测到我们进行的所有五项测试,获得了完美的100%分数。

那Openai自己的Chatgpt探测器呢?

好吧, Openai拉了它去年,因为检测器不是特别准确。截至八月,应该是99%的准确性。但是,四个月后仍然没有迹象。它声称的准确性水平也很难相信,因为Chatgpt远非100%准确。 

另外: Openai的新AI检测工具是否会结束学生作弊?

但是,无论如何,正如我的Zdnet好友史蒂芬·沃恩·尼科尔斯(Steven Vaughan-Nichols)所写的那样,尚不可用。当工具发布供公众使用时,我们将旋转。敬请关注。

最后的想法

首先,我让chatgpt有说明:†AI驱动的pla窃是一个日益严重的问题,因为诸如Intion AI和Chatgpt之类的AI工具可以生成很难与人类所写的文本。有几种方法可以检测一段文本是由AI生成的,例如寻找重复或不寻常的模式,检查缺乏独创性或使用pla窃检查器。Turnitin,Plagscan和Copyleaks等窃计划器可能能够识别语言模型生成的文本的某些特征,但它们并非万无一失。

甚至我发现的专业工具也非常不适合该任务。一月份的测试对我的测试有所改善。但是,我当然不愿意威胁学生的学术地位,或者根据这些工具的结果指责他们作弊。

还:惊喜!研究发现,AI聊天机器人并不会增加学生作弊

在这一点上,我认为我们还没有准备好让AI战斗AI。取而代之的是,我们必须依靠人类的看法(这意味着人们必须注意)来确定AI产生的作品。

如果文本是愚蠢的或疯狂的不准确,请不要立即假设文本是机器生成的。众所周知,人类可以写一些坏东西。

另外: 有人可以错误地指责您使用AI生成的文本吗?这可能就是为什么

那么,您怎么看?您能说出AI生成的作品吗?自从它们突然可用以来的几个月中,您是否使用过这些AI写作工具?它们是对教育和新闻业的帮助还是障碍?在下面的评论中让我们知道。Chatgpt回答了这一点:

作为一种语言模型,我看不到或与物理写作互动,所以我无法分辨一件作品是否是AI生成的。但是,我可以告诉您,有几种AI写作工具可用,它们可用于生成各种书面内容,包括新闻文章,小说,诗歌等。

我没有使用这些工具的个人经验,因为我只是一个计算机程序,并且没有能力浏览互联网或使用物理工具。但是,我可以告诉您,有些人发现AI写作工具可以帮助教育和新闻业,因为他们可以通过自动执行某些任务来节省时间和精力。其他人对这些工具的潜力表示担忧,以产生误导性或有偏见或取代人类作家。最终,AI写作工具是帮助还是障碍取决于它们的使用方式和使用的上下文。

所以,是的。


您可以在社交媒体上关注我的日常项目更新。确保订阅我的每周更新时事通讯,并在Twitter/X上关注我@davidgewirtz,在Facebook上facebook.com/davidgewirtz,在Instagram上instagram.com/davidgewirtz,在YouTube上youtube.com/davidgewirtztv。.

关于《我测试了10个AI内容检测器 - 这3个每次都正确识别了AI文本》的评论


暂无评论

发表评论

摘要

从您对各种AI文本检测工具的详细分析中,很明显,在识别机器生成的内容方面都不完美。这是一些关键要点:1。**准确性问题**:大多数工具在准确检测AI生成的文本时都有局限性。虽然它们可以标记可疑的图案或不寻常的写作方式,但这些方法并不是万无一失。2。**需要人类的判断**:鉴于AI检测技术的当前状态,人类的监督仍然至关重要。仅依靠自动化工具可能会导致错误的指控和不使用AI帮助的学生或作家的不公平后果。3。**道德考虑**:随着人类提出有关透明度和公平性的道德问题,使其他AIS更难通过的AI检测器的发展。基于已知检测方法训练算法的未检测到的检测器之类的工具显示了一种有趣的方法,但仍可能存在局限性。4。**未来方向**:正如您所指出的,OpenAI自己创建可靠的AI检测工具的尝试突出了该领域的挑战。在更强大的解决方案出现之前,采用一种混合方法可能是谨慎的,其中人类监督与复杂的工具相结合以减轻风险。5。**教育和新闻业影响**:AI生成内容对教育和新闻业的更广泛含义是重要的。尽管这些工具可以自动化任务并可能提高效率,但对完整性和真实性的担忧需要仔细考虑。6。**社区投入**:收集社区有关他们使用AI写作工具和检测系统的经验的见解,可以为开发人员提供有价值的反馈,以完善现有解决方案或开发新解决方案。您的结论是,我们应该依靠技术辅助工具补充的人类感知与当前的现实一致。这种方法确保了资源的平衡利用,同时有效地解决了道德问题。如果您有兴趣进一步探索此主题,请考虑在教育者和记者之间就他们对AI生成的内容的经验和看法进行调查。此外,随着景观继续迅速发展,请密切关注AI写作工具和检测方法的进步至关重要。