AI 代码助手无法停止发明包名称 - The Register

2024-09-30 03:59:00 英文原文

AI 代码助手无法停止发明包名称

LLM 很有帮助,但不要将它们用于任何重要的事情

AI 模型不能似乎不再编造事情了。正如最近的两项研究指出的那样,这种倾向强调了之前的警告,即不要在真正重要的事情上依赖人工智能的建议。

人工智能经常弥补的一件事是软件包的名称。

正如我们今年早些时候指出的,Lasso Security 发现大型语言模型 (LLM) 在生成示例源代码时有时会发明不存在的软件包依赖项的名称。

这太可怕了,因为犯罪分子可以轻松创建一个使用常见人工智能服务生成的名称的软件包,并在其中塞满恶意软件。然后,他们只需要等待不幸的开发人员接受人工智能的建议,使用包含了增选的、损坏的依赖项的有毒软件包。

来自德克萨斯大学圣安东尼奥分校和俄克拉荷马大学的研究人员,弗吉尼亚理工大学最近研究了 16 位用于代码生成的大语言模型,以探索他们对编写程序包名称的偏好。

在一篇题为“我们为您提供程序包!通过代码对程序包幻觉进行综合分析”的预印本论文中生成大语言模型”,作者解释说,幻觉是大语言模型尚未解决的缺点之一。

去年使用生成式人工智能在法律摘要中引用不存在的法庭案件的律师们可能并没有忽视这一点,并且然后不得不向受影响的法院做出自己的道歉。但对于那些发现大语言模型对编码帮助真正有用的人来说,这一点值得重复。

“幻觉是大语言模型产生的输出,这些输出实际上不正确、无意义或与输入任务完全无关,”根据作者:Joseph Spracklen、Raveen Wijewickrama、A H M Nazmus Sakib、Anindya Maiti、Bimal Viswanath 和 Murtuza Jadliwala。“幻觉对大语言模型在面向公众的应用程序中有效和安全的部署构成了严重障碍,因为它们有可能产生不准确或误导性的信息。”

也许不是“我们押错了赌注”关键更像是“通过足够的营销和游说即可管理”关键。

大语言模型已经部署在面向公众的应用程序中,这要归功于人工智能启蒙的热心卖家和云供应商,他们只想确保所有数据中心中昂贵的 GPU 得到了一些利用。据人工智能供应商所说,开发人员喜欢编码助理人工智能。它们显然提高了生产力,并使编码人员对自己的工作质量更有信心。

即便如此,研究人员仍希望评估生成式 AI 模型制造虚假包的可能性。因此,他们使用了 16 个流行的商业大语言模型和开源大语言模型,用 JavaScript 和 Python 生成了 576,000 个代码示例,这些代码示例分别依赖于 npm 和 PyPI 包存储库。

结果有些不尽如人意。

“我们的研究结果显示,商业模型的幻觉包的平均百分比至少为 5.2%,开源模型的幻觉包的平均百分比为 21.7%,其中包括令人震惊的 205,474 个幻觉包名称的独特示例,进一步凸显了幻觉包名称的严重性和普遍性作者指出:“这种威胁的存在。”

  • FTC 起诉了五家人工智能公司,其中一个案件特别提出了问题
  • 还记得召回召回吗?微软认为它可以使 Windows 功能变得更受欢迎
  • 现在戴尔销售人员必须每周在现场工作五天
  • 数据收集超级应用程序承认在建立大语言模型之前它很难利用数据
  • >

根据一组研究提示运行的 30 项测试导致创建了 223 万个包,其中约 20% (440,445) 被确定为幻觉。其中,205,474 个是独特的、不存在的软件包,无法在 PyPI 或 npm 中找到。

除了商业模型伪造软件包名称的可能性比开源模型低四倍这一事实之外,值得注意的是这些结果表明,与 Lasso Security 的 GPT-3.5(5.76% vs. 24.2%)和 GPT-4(4.05% vs. 22.2%)数据相比,幻觉减少了四到六倍。这很重要。

降低包裹幻觉的可能性是有代价的。使用 DeepSeek Coder 6.7B 和 CodeLlama 7B 模型,研究人员通过检索增强生成 (RAG) 实施缓解策略,以提供有效包名称列表来帮助指导提示响应,并通过监督微调来过滤发明的包和保留模型。结果是减少了幻觉,但牺牲了代码质量。

“微调模型的代码质量确实显着下降,DeepSeek 和 CodeLlama 分别为 -26.1% 和 -3.1%,换取了大量的代码质量。研究人员写道:“包装幻觉率有所改善。”

尺寸也很重要

在另一项探索人工智能幻觉的研究中,巴伦西亚人工智能研究所的 Jos Hernndez-Orallo 和同事西班牙的 LLM 发现,随着规模的扩大,大语言模型变得更加不可靠。

研究人员研究了三个模型系列:OpenAI 的 GPT、Meta 的 LLaMA 和 BigScience 的开源 BLOOM。他们针对自身的放大版本(更多参数)测试了各种模型,并提出了有关加法、字谜、地理知识、科学和面向信息的转换的问题。

他们发现,虽然较大的模型那些经过微调和更多参数塑造的模型的答案更准确,但可靠性较差。

这是因为较小的模型会避免响应一些他们无法回答的提示,而较大的模型则更有可能提供一个看似合理但错误的答案。因此,不准确的答案由较大比例的错误答案组成,避免的答案也相应减少。

这种趋势在 OpenAI 的 GPT 系列中尤其引人注目。研究人员发现,GPT-4 几乎可以回答任何问题,而之前的模型在没有可靠预测的情况下会避免做出响应。

研究人员发现,人类不擅长评估 LLM 答案,这进一步加剧了问题将大约 10% 到 40% 的时间错误答案分类为正确。

根据他们的发现,Hernndez-Orallo 和他的合著者认为,“依赖人类对这些系统的监督是一种危险,尤其是对于那些真相至关重要的领域。”

这是重新表述微软 AI 样板的冗长方式,该样板警告不要将 AI 用于任何重要的事情。

“[E]早期的模型通常会避免用户提出问题,但放大后的模型往往会更频繁地给出明显合理但错误的答案,包括人类主管经常忽视的难题上的错误,”研究人员总结道。

“这些发现凸显了通用人工智能的设计和开发需要进行根本性转变,特别是在可预测的错误分布至关重要的高风险领域。”

关于《AI 代码助手无法停止发明包名称 - The Register》
暂无评论

摘要

AI 代码助手就是无法停止发明包名称LLM 很有帮助,但不要将它们用于任何重要的事情AI 模型似乎无法停止编造事情。去年,律师们可能并没有忽视这一点,他们使用生成式人工智能在法律摘要中引用了不存在的法庭案件,然后不得不向受影响的法院道歉。减少包裹幻觉的可能性是有代价的。“这是重新表述微软 AI 样板的冗长方式,该样板警告不要将 AI 用于任何重要的事情。”早期的模型通常会避免用户提出问题,但按比例放大、成型的模型往往会给出明显合理的结果。错误答案的频率更高,包括人类主管经常忽视的难题上的错误,”研究人员总结道。