人工智能公司如何意外地让他们的聊天机器人变得更糟 - IEEE Spectrum

2024-10-03 10:52:30 英文原文

诸如 ChatGPT 之类的人工智能聊天机器人和其他由大型语言模型支持的应用程序已得到广泛使用,但众所周知不可靠。一个常见的假设是,扩大驱动这些应用程序的模型将提高其可靠性,例如,通过增加训练的数据量或用于处理信息的参数数量。然而,根据一项新的研究,这些语言模型的更新和更大版本实际上变得更加不可靠,而不是更不可靠。

大型语言模型 (LLM) 本质上是自动完成功能的增强版本,智能手机使用该功能来预测人们正在输入的单词的其余部分。ChatGPT 可能是最著名的大语言模型驱动的聊天机器人,它已经通过了法学院和商学院的考试,成功回答了软件编码工作的面试问题,撰写了房地产列表,并开发了广告内容。

但是大语言模型经常犯错误。例如,6 月份的一项研究发现,ChatGPT 在生成功能代码方面取得了极其广泛的成功,成功率从微不足道的 0.66% 到 89% 不等,具体取决于任务的难度、编程语言和其他因素.

研究团队探索了多种策略来提高大语言模型的可靠性。其中包括增加模型的训练数据量或计算能力,以及利用人类反馈来微调模型并提高其输出。随着时间的推移,大语言模型的表现总体上有所提高。例如,早期的大语言模型无法完成 20 183 等简单加法。现在大语言模型可以成功执行涉及 50 多个数字的加法。

然而,该研究的合著者 Lexin Zhou 表示,上周发表在《自然》杂志上的这项新研究发现,最新的大语言模型可能看起来令人印象深刻,能够解决一些非常复杂的任务,但它们在各个方面都不可靠。西班牙瓦伦西亚理工大学助理教授。更重要的是,他说,这种趋势似乎并没有表现出明显的改善,而是相反。

可靠性下降的部分原因是,最近的模型不太可能说自己不知道答案,或者给出无法回答问题的答案。相反,后来的模型更有可能自信地生成错误的答案。

大语言模型在简单和艰巨的任务上表现如何

研究人员探索了多个 LLM 系列:来自 OpenAI 的 10 个 GPT 模型、来自 Meta 的 10 个 LLaMA 模型以及来自 BigScience 计划的 12 个 BLOOM 模型。在每个系列中,最新型号都是最大的。研究人员从三个关键维度重点关注大语言模型的可靠性。

科学家调查的一个途径是大语言模型在人们认为简单的任务和人类认为困难的任务上的表现如何。例如,相对容易的任务是 24,427 和 7,120 相加,而非常困难的任务是 1,893,603,010,323,501,638,430 和 98,832,380,858,765,261,900 相加。

与人类认为简单的任务相比,大语言模型通常对人类认为具有挑战性的任务不太准确,这并不意外。然而,即使是简单的任务,人工智能系统也不是 100% 准确。周说,我们发现没有安全的操作条件可供用户识别这些大语言模型的可信度。

此外,新研究发现,与之前的大语言模型相比,最新的模型在高难度任务上的表现有所提高,但在低难度任务上却没有提高。这可能是由于 LLM 开发人员专注于越来越困难的基准,而不是简单和困难的基准。“我们的结果揭示了开发人员实际优化的目的,”Zhou 说。

聊天机器人因不确定性而变得糟糕

周团队检查的 LLM 表现的第二个方面是模型避免回答用户问题的倾向。研究人员发现,最近的大语言模型在回答时不那么谨慎,他们更有可能勇往直前并自信地提供不正确的答案。此外,虽然人们倾向于避免回答超出其能力的问题,但最近的大语言模型并没有避免在任务难度增加时提供答案。

周说,这种轻率可能源于希望让语言模型尝试说出一些看似有意义的东西,即使模型处于不确定的领域。他补充道,这给人类带来了发现 LLM 输出中错误的负担。

最后,研究人员检查了给予大语言模型的任务或提示是否会影响他们的表现。他们发现,最新的大语言模型仍然对提示的陈述方式高度敏感,例如,使用加号而不是加法提示。

聊天机器人如何扰乱人类的期望

英国剑桥大学实验心理学教授露西·切克(Lucy Cheke)负责衡量人工智能模型中的认知能力,她表示,这些发现凸显了大语言模型没有表现出符合人类期望的可靠性模式。

如果某人是,比如说,数学老师,也就是说,一个能做困难数学的人,那么他就很擅长数学,因此我可以认为他们是简单数学问题的可靠来源,”切克说,他没有参加在新的研究中。同样,如果那个人可以正确回答 2,354 234,那么我可能可以相信他们对 2,354 加 234 的答案。但是这些类型的假设都不适用于这些更大的模型。

此外,研究发现人类监督无法弥补所有这些问题。例如,人们认识到某些任务非常困难,但仍然经常期望大语言模型是正确的,即使他们被允许说“我不确定正确性”。研究人员表示,这种趋势表明人们对模型过于自信。

切克说,人们越来越信任这些系统,这些系统大多会产生正确的信息,但混合了足够多看似合理但错误的信息,会导致真正的问题。随着人们越来越依赖这些系统来回答他们无法发现错误答案的复杂问题,这变得尤其成问题。

尽管有这些发现,周警告不要将大语言模型视为无用的工具。他说,它们对于许多应用程序仍然非常有用,例如在用户可以容忍错误的任务中。一辆不会飞的汽车并不是不可靠,因为没有人期望汽车会飞。这就是早期大语言模型所发生的事情,人们对他们并没有抱太大期望。但在过去的几年里,随着 LLM 变得越来越强大,人们开始依赖它们,甚至可能过度依赖。

周也不认为这种不可靠性是一个无法解决的问题。他说,如果在下一代大语言模型中考虑到新的发现,我们可能会开始看到更多的人采用大语言模型,而对大语言模型的怀疑会减少。但在研究人员找到解决方案之前,他计划提高人们对过度依赖大语言模型和依赖人类监督的危险的认识。

Charles Q. Choi 是一名科学记者,定期为 IEEE Spectrum 撰稿。他曾为《科学美国人》、《纽约时报》、《连线》和《科学》等杂志撰稿。

关于《人工智能公司如何意外地让他们的聊天机器人变得更糟 - IEEE Spectrum》的评论


暂无评论

发表评论

摘要

ChatGPT 等人工智能聊天机器人和其他由大型语言模型支持的应用程序已得到广泛使用,但众所周知不可靠。然而,上周发表在《自然》杂志上的这项新研究发现,最新的大语言模型可能看起来令人印象深刻,能够解决一些非常复杂的任务,但它们在各个方面都不可靠,该研究的合著者、该研究助理周乐欣说。西班牙巴伦西亚理工大学。例如,人们认识到某些任务非常困难,但仍然经常期望大语言模型是正确的,即使他们被允许说“我不确定正确性”。随着人们越来越依赖这些系统来回答他们无法发现错误答案的复杂问题,这变得尤其成问题。他说,如果在下一代大语言模型中考虑到新的发现,我们可能会开始看到更多的人采用大语言模型,而对大语言模型的怀疑会减少。