英语轻松读发新版了,欢迎下载、更新

AI幻觉越来越恶化 - 他们在这里留下来

2025-05-09 19:00:13 英文原文

作者:#author.fullName}

New Scientist. Science news and long reads from expert journalists, covering developments in science, technology, health and the environment on the website and the magazine.

AI生成的内容往往会出现错误

保罗·泰勒/盖蒂图像

在过去的几个月中,来自OpenAI和Google等科技公司的AI聊天机器人一直在获得所谓的推理升级 - 理想情况下,可以使它们更好地给我们提供我们可以信任的答案,但是最近的测试表明,他们有时会比以前的模型更糟。聊天机器人(称为“幻觉”)犯的错误从一开始就成为一个问题,而且很明显,我们可能永远不会摆脱它们。

幻觉是一个笼统的术语,是大型语言模型(LLMS)犯的某些错误的术语,例如Openai的Chatgpt或Google的Gemini等电力系统。它是对他们有时将虚假信息视为真实的方式的描述。但是,它也可以指的是AI生成的答案,该答案实际上是准确的,但实际上与所要求的问题无关,或者未能以其他方式遵循指示。

Openai技术报告评估其最新LLM的表明,其4月份发布的O3和O4-MINI型号的幻觉速度明显高于2024年下半年推出的公司以前的O1型号。例如,当总结有关人们的公开事实时,O3幻觉的时间为33%,而O4-Mini则为48%的时间占48%的时间。相比之下,O1的幻觉率为16%。

这个问题不仅限于Openai。一个流行排行榜评估幻觉率的Vectara公司的公司表明了一些推理模型DeepSeek-R1模型从开发人员DeepSeek看到的两位数上升幻觉率与开发人员以前的模型相比。这种类型的模型会通过多个步骤来演示响应之前的推理线。

Openai说,推理过程不应指责。Openai发言人说,尽管我们正在积极降低O3和O4-Mini中看到的较高的幻觉速度,但幻觉并非本质上更为普遍。我们将继续研究所有模型的幻觉,以提高准确性和可靠性。

LLM的某些潜在应用可能会因幻觉而脱轨。一个始终说明虚假并需要事实核对的模型将成为有益的研究助理;引用虚构案件的律师助理机器人将使律师陷入困境。声称过时的政策仍然活跃的客户服务代理将为公司造成头痛。

但是,AI公司最初声称此问题会随着时间的流逝而清除。确实,在首次启动之后,对于每次更新,模型往往会减少幻觉。但是,最近版本的高幻觉速度使叙事变得复杂,无论推理是否有过错。

Vectara的排行榜基于其在汇总给出的文档时的事实一致性来对模型进行排名。这表明,至少对于Openai和Google的系统,推理与非回避模型的幻觉率几乎相同。Forrest Sheng Bao在Vectara。Google没有提供其他评论。Bao说,出于排行榜的目的,特定的幻觉率数量不如每个模型的总体排名重要。

但是,此排名可能不是比较AI模型的最佳方法。

一方面,它将不同类型的幻觉混为一谈。Vectara团队指出尽管DeepSeek-R1模型在14.3%的时间幻觉中幻觉,但其中大多数是良性的:逻辑推理或世界知识实际上支持的答案,但实际上并未在原始文本中出现该机器人的总结。DeepSeek没有提供其他评论。

这种排名的另一个问题是测试根据文本摘要,没有说明[LLMS]用于其他任务时的不正确输出速率。艾米丽·本德(Emily Bender)在华盛顿大学。她说,排行榜的结果可能不是判断这项技术的最佳方法,因为LLMS专门为总结文本而设计。

这些模型Bender说,通过反复回答以下问题的问题来做出提示答案的问题,因此,他们以通常的意义来理解文本中有哪些信息可用的信息。但是,许多科技公司在描述输出错误时仍然经常使用术语“幻觉”。

宾德说,幻觉是双重问题的。一方面,这表明不正确的输出是一种畸变,也许可以缓解一个畸变,而剩下的时间则是系统的接地,可靠和值得信赖的时间。另一方面,它起作用的拟人化机器是指幻觉是指感觉不存在的东西[并且]大型语言模型没有任何意识。”

Arvind Narayanan普林斯顿大学说,这个问题超出了幻觉。模型有时还会犯其他错误,例如利用不可靠的来源或使用过时的信息。只是投掷更多培训数据和计算能力在AI中,一定没有帮助。

结果是,我们可能必须与容易出错的AI一起生活。纳拉亚南在社交媒体上说邮政在某些情况下,最好仅在事实检查AI答案时将此类模型用于任务可能是最好的,这仍然比自己进行研究更快。但最好的举动可能是完全避免依靠AI聊天机器人提供事实信息。

主题:

关于《AI幻觉越来越恶化 - 他们在这里留下来》的评论


暂无评论

发表评论

摘要

AI生成的内容通常包含错误或“幻觉”,这是指大语言模型(LLMS)呈现为真实的错误或无关的信息。OpenAI和Google等公司的AI系统最近进行的升级旨在提高推理功能,有时会导致更高的错误率。例如,与前身O1相比,OpenAI的最新型号O3和O4-Mini表现出更大的幻觉。其他AI平台也发现了类似的问题,挑战了这些错误会随着时间而减少的叙述。尽管有些人认为基于文本摘要期间的事实一致性的排名可能无法在不同任务中完全捕获模型性能,但仍然关注AI的可靠性以提供准确的信息。