2024-11-25 11:30:00 · 英文原文

我尝试了 4 种人工智能检测工具，但它们（大多）令人失望

作者：Author: Ashley Biancuzzo, Associate Editor, PCWorld

作为一名每天撰写和编辑的科技记者，人工智能生成的内容是我真正关心的问题。人工智能最终会用人工智能生成的内容取代人类生成的内容，让我在这个我付出了多年生命的行业中变得毫无用处吗？

区分人工智能生成的内容和人造内容可能很困难。如果您不留意重复的短语或奇怪的语气变化等迹象，您可能会误以为这是真的。这就是人工智能检测工具的用武之地。

进一步阅读： 如何不被网络上的人工智能内容迷惑

为了领先人工智能生成的内容一步，我永不停歇地追求，尝试了四种不同的人工智能检测工具，看看结果是否不准确或不可靠。正如您可能已经从本文的标题中猜到的那样，大多数人工智能检测工具都会产生愚蠢的蹲下行为。

缩小范围

在我深入探讨之前，如果您在选择的浏览器中输入搜索词“人工智能检测工具”，您将被大量结果淹没。我知道必须有某种审查过程。

因此，我没有尝试所有能找到的工具，而是将范围缩小到四种。我根据易于访问（无需订阅）和强大的常见问题解答页面来选择每个工具，这些页面解释了该工具如何分析人工智能生成的内容。清晰而直接的语言是我的症结所在，所以我也会注意这一点。正如您在下面的示例中看到的，Grammarly 在首页上显示此类信息。

所有这些工具都具有相同的基于百分比的排名系统。百分比越高，内容由人工智能生成的可能性就越大。表面上看起来很简单，但在实践中却很困难。

☀测试参数☀

我将这一部分称为“测试参数”，但这只是我的一个实验，是我所追求的好奇心的核心。在本文中，我们需要明确的是，我在人工智能生成的文本上使用了这些工具，而不是图像或音频等其他形式的内容。人工智能生成的文本是这些工具旨在分析和解读的内容类型。

首先，我要求 Google Gemini 写一个关于巫师第一次发现笔记本电脑的小故事。我要求写一个短篇故事，因为一些人工智能检测工具只会分析一定量的内容。这是 Google Gemini 生成的故事：

老巫师阿拉里克以两件事而闻名：他那令人印象深刻的胡须，像银色的瀑布一样垂到膝盖，还有他永不满足的好奇心。因此，当一个奇怪的扁平物体出现在他的召唤圈中心时，他并没有感到惊慌。是的，很感兴趣，但并不惊慌。

他凝视着那个物体。它黑色而闪亮，背面有一个发光的符号，类似于被咬过的苹果。他小心翼翼地用手杖戳了戳它。该物体突然复活，发出柔和的嗡嗡声，并显示出一个明亮的矩形窗口，里面充满了奇怪的符号。

伟大的星界龙！”阿拉里克惊呼道，他的胡子因兴奋而竖起。“这是什么魔法？”

他小心翼翼地触摸窗户，符号移动变化。他继续戳，一幅动态的画面出现了——一只色彩缤纷的小鸟拍打着翅膀。阿拉里克吓了一跳，向后跳去。

“它……还活着吗？”他绕着物体转了一圈，大声问道。他尝试了一个咒语，低声说道：“揭露你的秘密！”但什么也没发生。他又尝试了一次，“芝麻开门！”但仍然一无所获。他沮丧地倒在凳子上，若有所思地抚着胡须。

突然，他注意到窗户下面有一个小而平坦的区域，上面有一排更小的符号。想起那张动人的画面，他试探性地用手指按下了其中一个符号。明亮的窗户上出现了这个符号！他又按了一个，又按了一个，很快，一个词就形成了：“魔法”。

阿拉里克睁大了眼睛。– 它对触摸有反应！但是……没有魔法气息……他想了想，眼中闪过一抹顽皮的光芒。他开始快速按下这些符号，脸上露出灿烂的笑容。

屏幕上，出现了一句话：“这是会说话的镜子吗？”我可以订购一条龙吗？

阿拉里克咯咯地笑起来，他的胡子因快乐而颤抖。“不，我的朋友，”他对这个奇怪的物体低声说道，“但你更非凡。”

他花了一天剩下的时间探索他的新宝藏，发现它的游戏、它的动态图片和它无尽的信息海洋。他得知它被称为“笔记本电脑”，他觉得这个词很有趣。他甚至设法给他的老朋友、住在邻国的女巫埃拉拉发了一条信息。

“我亲爱的埃拉拉，”他写道，“你绝对必须看看这个！这是一个神奇的设备，可以移动图片和会说话的字母！它甚至可以播放音乐！快来吧，我们一起探索它的奇妙！——

当他发送消息时，阿拉里克不禁想到，这台“笔记本电脑”可能是一个全新魔法时代的开始，在这个时代，技术和魔法以一种无人想象的方式交织在一起。而他，巫师阿拉里克，将站在这个令人兴奋的新领域的最前沿。

接下来，我将这个故事（逐字）复制并粘贴到每个人工智能检测工具中，并运行它们两次。我关注两次运行结果的一致性（或不一致）以及百分比排名的准确性。这个故事 100% 是由人工智能生成的，所以我想看看这个工具是否能从一开始就做好它。只有其中一人接近。

结果

下面您将看到我在本实验中使用的人工智能检测工具的结果：

Grammarly 的人工智能检测器：37%（第一轮）、37%（第二轮）
GPT零：62%（第一轮）、62%（第二轮）
羽毛笔机器人：78%（第一轮）、78%（第二轮）
原创性.ai：100%（第一次运行）、100%（第二次运行）

这些工具提供具有更高级 AI 检测功能的订阅模式，但您可以免费使用基本的 AI 检测，所以这就是我所做的并基于我的判断。

Grammarly 的 AI 检测器Grammarly 的 AI 检测器

首先引起我的注意是因为我每天在编辑草稿时使用它来发现拼写错误。这个受欢迎的品牌在众多无名人工智能检测工具中是一个熟悉的面孔，所以我张开双臂欢迎它。

叹。这次经历好坏参半。

Grammarly 的工具给了我一个一致的结果（两次运行均为 37%），但它的准确度有很大差距。这个故事完全是 Google Gemini 捏造的，所以看到如此低的比例令人惊讶。

我觉得 Grammarly 一直在向我推行订阅模式。我从商业角度来看它，但作为一个普通人滚动浏览页面，这种经历给我留下了不好的印象。语法还建议我使用语法作者身份，一种更可靠的检测人工智能的工具或功能（根据他们的说法），但你需要一个 Grammarly 帐户才能使用它。

不过，我还是要赞扬 Grammarly 的易于浏览的网页。您只需输入或粘贴有问题的文本，然后单击绿色的“检查文本”按钮即可。然后右侧的框将检查人工智能生成的文本并给出百分比排名。

如果您向下滚动页面，Grammarly 还有一个强大的常见问题解答部分。在那里，您将找到有关该工具如何检测 AI 内容的答案，以及关于为什么没有 AI 检测工具是万无一失的清晰解释。整个部分为我赢得了主要的印象分，我是一个喜欢透明和直截了当的答案的女人。

GPT零GPT零

在两次运行中，该故事的 62% 都是由人工智能生成的。这个比例略高于 50%，我认为这是一个不冷不热的结果，并不是特别令人印象深刻。细分图表通常标识人工智能生成的文本部分，但其定义不如 QuillBot 那样明确。GPTZero 显示人工编写的内容、人工智能编写的内容和混合内容的百分比 - 每个内容都可以用颜色识别。

我认为混合内容是人工智能生成的内容和人类生成的内容的组合，但我希望 GPTZero 在这里是明确的。QuillBot 通过人工编写和人工智能改进更好地识别了这一点。GPTZero 的高级扫描在此通过将段落识别为“对人类影响较低”、“对人工智能影响中等”等来进行更详细的分析。

如果没有帐户，则只能使用基本扫描。要访问高级扫描，您需要在 GPTZero 上注册一个帐户，这激起了我内心的不满。不过，为了撰写本文，我使用我的个人 Gmail 帐户“登录”并查看了高级扫描。结果你之前只获得了五次免费扫描（你猜对了），GPTZero 会要求你升级帐户并支付 23.99 美元的月费。谈论一个嗡嗡声。

羽毛笔机器人羽毛笔机器人

表现出奇的好，由于直观的界面和详细的报告，可能是我所采样的人工智能检测工具中我最喜欢的。它在两次运行中得分为 78%，这比 Grammarly 的工具准确得多。它还用一种颜色突出显示每个段落，告诉您该工具是否认为该文本是人工智能生成的、人工智能生成和人工智能精炼的、人类编写和人工智能精炼的，还是人类编写的。细分是明确的，如下图所示。

QuillBot 还在页面底部附近包含了一个常见问题解答部分，我再次对此表示赞赏。然而，我对第一个问题有一个挑剔：QuillBot 的 AI 内容检测工具有多准确？答案如下……

QuillBot 的人工智能内容检测器工具经过先进算法的训练，可以识别重复的单词、尴尬的短语和不自然的流程，这些都是人工智能生成内容的关键指标。然而，人工智能模型取得的进步越多，人工智能检测工具就越无法区分人类编写的内容和人工智能生成的内容。

第一句话很好地表达了要点，特别是如果您只是在寻找基本答案，但第二句话有点模糊和令人困惑。没有任何人工智能检测工具是 100% 准确的，我相信这一点应该非常清楚。除了令人困惑的语言之外，常见问题解答部分的其余部分提供了直截了当的答案，这是一件好事。

创意.ai创意.ai

是人工智能检测工具打破了我的大脑并迫使我收回我之前的主张。该网站称，该工具是“最准确的人工智能检测器”，这是一个大胆的宣称，但它似乎完全是事实。

该死。

我无法否认结果，坦率地说，结果是完全准确的。我在两次运行中都获得了 100% 的百分比排名，当我擦掉脸上惊讶的皮卡丘表情时，我想再深入一点，尝试一下人造样本，这次是你真正写的东西。所以，我从我的一个旧故事中摘录了一段，这是一个关于一个名叫西恩（Seen）的令人不安的机器人女人的奇怪故事。我这样做是因为我担心 Originality.ai 给了我一个误报。创意.ai

Originality.ai 又做到了。

谁知道闪电可以两次击中同一个地方？该工具正确识别（100% 准确，如上面的屏幕截图所示）该段落是人造的且真实的。正如 Originality.ai 声称的那样，它也许是目前最准确的人工智能探测器。如果说有什么不同的话，那就是它是我迄今为止遇到过的最准确的人工智能探测器，这说明了一些问题。仅根据百分比排名，此列表中的其他工具远没有那么准确或准确。

Originality.ai 声称其 AI 检测工具比其他工具更准确，因为它使用“更大的 AI 检测模型”。这就是简单的答案。Originality.ai 有一个完整的网页详细介绍了它是如何AI检测工具工作原理其中包括基准和数据集。它本质上是为人工智能检测工具创建一个科学标准，令人印象深刻且合法。虽然 Originality.ai 准确地识别了我自己的人工智能生成和人类生成内容的示例，但其他人的结果可能会有所不同。

我的外卖

没有什么比你自己的眼睛和直觉更可靠的了，我将永远坚持这一点。尽量不要被订阅模式可能试图向您推销的甜言蜜语所迷惑，尤其是当付费专区背后潜藏着更可靠的工具或功能的承诺时。如果您注意到重复的短语或主题或语气的不和谐变化，这很可能是人工智能生成的。也就是说，你不能忽视 Originality.ai 的准确性，所以如果你必须使用人工智能检测工具，它可能是目前可用的更准确的工具之一。

这个故事的寓意是进行研究并以适当的怀疑态度对待一切。

关于《我尝试了 4 种人工智能检测工具，但它们（大多）令人失望》的评论

暂无评论

发表评论

摘要

### AI检测工具分析总结在测试了各种人工智能检测工具后，我的发现如下：1. **Grammarly（以前称为 GPTGuard）：** 提供了不一致的结果，并且似乎过于敏感，将人类编写的内容标记为人工智能生成的。2. **语法（使用最新模型）：**更好，但仍然错误地标记了一些合法的人类编写的内容。3. **Originality.ai：** 事实证明，它在识别人工智能生成的内容和人类生成的内容方面是最准确的，准确率达到 100%。它采用了更大的AI检测模型，可靠性高。4. **QuillBot：** 表现良好，具有直观的界面和每个段落来源的详细分类。得分约为 78%，比 Grammarly 更准确，但不如 Originality.ai 精确。5. **GPTZero（基本扫描）：** 无需订阅即可提供基本功能，但高级功能需要付费帐户，这让我感到沮丧。6. **GrammarBot：** 严重依赖上下文和重复短语进行检测，这使得它对于独立段落或短文本的可靠性不太高。### 要点- **相信你的直觉：** 虽然人工智能工具很有用，但你自己的判断仍然至关重要。警惕过度敏感或不一致的结果。- **避免订阅陷阱：** 许多工具提供基本服务，但需要订阅高级功能。如果该工具未按承诺交付，这可能会产生误导且成本高昂。- **利用多种工具：** 结合不同的人工智能检测工具可提供更全面的分析，特别是在验证可疑内容时。＃＃＃结论**Originality.ai** 因其方法论的高度准确性和透明度而脱颖而出。如果您必须使用人工智能检测工具，Originality.ai 是目前最可靠的选择之一。然而，用其他方法或人类判断来证实研究结果总是明智的。请记住，没有任何工具是完美的，在依赖多种验证策略的同时保持健康的怀疑态度将有助于确保准确的结果。

OC