为什么微软的 Copilot AI 错误地指控法庭记者他所报道的罪行 - The Conversation Indonesia

2024-09-19 12:32:48 英文原文

当德国记者 Martin Bernklau 在 Microsoft 的 Copilot 中输入他的姓名和位置,以查看聊天机器人如何获取他的文章时,答案让他感到震惊。

Copilot 的结果断言 Bernklau是一名精神病院逃亡者、一名被定罪的虐待儿童者和一名针对鳏夫的骗子。多年来,Bernklau 一直担任法庭记者,人工智能 (AI) 聊天机器人错误地将他所报道的罪行归咎于他。

当然,针对 Bernklau 的指控并不真实,而且只是例子。生成人工智能的幻觉。这些是对用户提供的提示的不准确或无意义的响应,并且在该技术中非常常见。任何尝试使用人工智能的人都应该非常谨慎,因为来自此类系统的信息需要经过人类的验证和验证才能被信任。

但是为什么 Copilot 会产生这些可怕且错误的指控的幻觉?

>

Copilot 和其他生成式人工智能系统(例如 ChatGPT 和 Google Gemini)都是大型语言模型 (LLM)。法学硕士的底层信息处理系统被称为深度学习神经网络,它使用大量的人类语言来训练其算法。

算法从训练数据中学习不同单词之间的统计关系以及某些单词在文本中一起出现的可能性有多大。这使得法学硕士能够根据计算的概率预测最可能的反应。法学硕士不具备实际知识。

用于培训 Copilot 和其他法学硕士的数据非常庞大。虽然 Copilot 或 ChatGPT 语料库的大小和组成的确切细节尚未公开,但 Copilot 合并了整个 ChatGPT 语料库以及 Microsoft 自己的特定附加文章。ChatGPT4 的前身 ChatGPT3 和 3.5 已知使用了数千亿个单词。

Copilot 基于 ChatGPT4,它使用的语料库比 ChatGPT3 或 3.5 更大。虽然我们不知道这到底有多少个单词,但不同版本的 ChatGPT 之间的跳跃往往要大几个数量级。我们还知道,该语料库包括书籍、学术期刊和新闻文章。这就是副驾驶幻觉伯恩克劳应对滔天罪行负责的原因。

伯恩克劳经常报道虐待、暴力和欺诈的刑事审判,并在国内和国际报纸上发表。他的文章想必已包含在使用与案件性质相关的特定词语的语言语料库中。

由于伯恩克劳多年来一直在法庭上报道,当副驾驶被问及他时,最可能的词语是相关的他的名字与他作为记者所报道的罪行有关。这并不是唯一的此类案例,未来几年我们可能会看到更多。

2023 年,美国谈话电台主持人马克·沃尔特斯 (Mark Walters) 成功起诉拥有 ChatGPT 的 OpenAI 公司。沃尔特斯主持了一个名为“武装美国广播电台”的节目,该节目探讨并促进美国的枪支所有权。

法学硕士曾幻想沃尔特斯被第二修正案基金会 (SAF) 起诉,该组织是一个支持枪支所有权的美国组织。枪支权,诈骗和挪用资金。这是在一名记者向 ChatGPT 询问有关 SAF 和华盛顿州总检察长的真实且正在进行的法律案件之后。

沃尔特斯从未在 SAF 工作过,也没有参与 SAF 与华盛顿州之间的案件。反正。但由于该基金会与 Walters 的目标相似,因此可以推断语言语料库中的文本内容在 Walters 和 SAF 之间建立了统计相关性,从而导致了幻觉。

更正

<在整个语言语料库中纠正这些问题几乎是不可能的。语料库中包含的每一篇文章、句子和单词都需要仔细检查,以识别和消除有偏见的语言。考虑到数据集的规模,这是不切实际的。

将人们与犯罪错误地联系起来的幻觉(例如 Bernklaus 案例)甚至更难检测和解决。要永久解决此问题,Copilot 需要删除文章作者 Bernklaus 的名字才能断开连接。

了解更多:人工智能现在可以参加会议并为您编写代码,这就是您应该谨慎的原因

为了解决这个问题,微软设计了一个自动响应,当用户向 Copilot 提示有关 Bernklaus 案件的信息时,就会给出自动响应。回应详细说明了幻觉,并澄清伯恩克劳没有任何指控。微软表示,它不断吸收用户反馈并推出更新,以改善其响应并提供积极的体验。

可能还有更多类似的例子有待发现。尝试解决每个单独的问题变得不切实际。幻觉是底层 LLM 算法工作方式不可避免的副产品。

作为这些系统的用户,我们知道输出值得信赖的唯一方法是使用一些既定方法来询问其有效性。正如我自己的研究所示,这可能包括在接受正确的输出之前找到三个同意 LLM 所做断言的独立来源。

对于拥有这些工具的公司(例如 Microsoft 或 OpenAI),没有真正的主动策略可以避免这些问题。他们真正能做的就是对类似幻觉的发现做出反应。

摘要

当德国记者马丁·伯恩克劳(Martin Bernklau)在微软的 Copilot 中输入他的名字和位置,看看他的文章将如何被聊天机器人接收时,得到的答案让他感到震惊。多年来,伯恩克劳一直担任法庭记者,人工智能 (AI) 聊天机器人错误地将他所报道的罪行归咎于他。Copilot 基于 ChatGPT4,它使用比 ChatGPT3 或 3.5 更大的语料库。但由于该基金会与沃尔特斯展示的目标相似,因此可以推断语言语料库中的文本内容在沃尔特斯和引起幻觉的 SAF 之间建立了统计相关性。了解更多:人工智能现在可以参加会议并为你编写代码,这就是你应该谨慎的原因为了解决这个问题,微软设计了一个自动响应,当用户向 Copilot 提示有关 Bernklaus 的案例时,就会给出自动响应。