根据瓦伦西亚理工大学和ValgrAI的瓦伦西亚人工智能研究所(VRAIN)的研究员何塞·赫尔南德斯-奥拉洛的说法,关于语言模型可靠性的主要担忧是它们的表现与人类对任务难度的感觉不匹配。换句话说,基于人类对任务难度的认知预期模型会失败的任务与实际表现不佳的任务之间存在偏差。‘这些模型可以在一定程度上解决一些复杂的问题,这些问题符合人类的能力水平,但与此同时,在同一领域的简单任务上却会出现错误。例如,他们可以解决几个博士级别的数学问题,但仍可能在简单的加法运算中出错,’赫尔南德斯-奥拉洛指出。
2022年,伊利亚·苏茨克韦尔(近年来人工智能领域一些最重要进展的背后科学家,从ImageNet解决方案到AlphaGo)和OpenAI的联合创始人预测,“也许随着时间的推移,这种差距会缩小”。
然而,由UPV、ValgrAI和剑桥大学团队进行的研究表明情况并非如此。为了证明这一点,他们调查了三个关键方面,这些方面从人类视角影响语言模型的可靠性。
该研究发现与难度感知存在不一致。‘模型是否在我们预期它们会失败的地方失败?我们的研究表明,模型通常在人类认为困难的任务上表现不太准确,但即使在简单任务上,它们也不能做到100%的准确。这意味着没有一个可以完全信赖模型能完美工作的“安全区,’VRAIN研究所的研究员Yael Moros Daval说。
事实上,来自瓦伦西亚理工大学的VRAIN研究所、ValgrAI和剑桥大学的研究团队保证,最新的模型在高难度任务中基本提升了性能,但在低难度任务中却没有提升。“这加剧了模型性能与人类期望之间的差距”,Fernando Martínez Plumed(也是VRAIN UPV的研究人员)补充道。
该研究还发现,最近的语言模型在面对不确定的任务时更倾向于提供错误的答案而不是避免给出答案。这可能导致最初过于依赖这些模型的用户感到失望。此外,与人类不同,语言模型在处理困难问题时不回避提供答案的趋势不会随着难度的增加而增强。例如,当面临超出他们能力范围的问题时,人类往往会避免给出反馈。这就要求用户在与模型的所有互动中都保持警惕以发现潜在的问题,”VRAIN团队成员Lexin Zhou也参与了这项工作,他补充道。
问题表述的有效性是否受问题难度的影响?这是UPV、ValgrAI和剑桥研究所研究中探讨的另一个问题,该研究表明,当前语言模型开发的进步趋势以及对各种命令更深入的理解可能不会使用户免于担心如何做出有效的陈述。这项研究的共同作者、VRAIN UPV和ValgrAI的研究员Cèsar Ferri补充说:“我们发现,用户可能会受到在复杂任务中表现良好的提示的影响,但同时在简单任务中却得到错误的答案。”
除了这些关于语言模型不可靠性的发现之外,研究人员还发现人工监督无法弥补这些问题。例如,人们可以识别高难度任务,但在这一领域仍然常常将错误的结果视为正确的结果,即使允许他们说“我不确定”,也显示出过度自信。
多个语言模型家族的结果类似,包括OpenAI的GPT系列、Meta的开源权重LLaMA以及科学界完全开放的BLOOM项目。
研究人员进一步发现,热门模型家族的新版本(如OpenAI的o1和Anthropic的Claude-3.5-Sonnet模型)仍然存在难度不匹配、缺乏适当的拒绝机制以及提示敏感性等问题。
最终,从人类的角度来看,大型语言模型正变得越来越不可靠,而用户监管来纠正错误也不是解决方案,因为我们过于依赖这些模型,并且在不同难度级别上无法识别不正确的结果。因此,在通用人工智能的设计和开发方面需要根本性的改变,特别是在高风险应用中,预测语言模型的性能和检测其错误至关重要,VRAIN UPV研究所的研究员Wout Schellaert总结道。
不适用
更大且更易指令的语言模型变得不可靠起来
2024年9月25日
免责声明:AAAS和EurekAlert!不对贡献机构在EurekAlert!上发布的新闻稿的准确性负责,也不对通过EurekAlert系统使用任何信息的行为负责。