当心聪明人:他们似乎拥有所有答案,但也能编织最令人信服的谎言。
这种逻辑似乎也适用于大型语言模型,随着每次迭代,它们都变得更加强大。新的研究表明,这种更聪明的人工智能聊天机器人实际上变得越来越不值得信任,因为它们更有可能编造事实,而不是回避或拒绝他们无法回答的问题。
这项研究发表在《自然》杂志上,研究了业内一些领先的商业大语言模型:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的名为 BLOOM 的开源模型。
虽然发现他们的回答在许多情况下变得更加准确,但总体而言可靠性较低,与旧模型相比,给出的错误答案比例更高。
“这些天他们几乎回答了所有问题。这意味着更正确,但也意味着更不正确的[答案],”该研究的合著者、西班牙巴伦西亚人工智能研究所的研究员 Jos Hernndez-Orallo 告诉《自然》杂志。
格拉斯哥大学科技哲学家迈克·希克斯 (Mike Hicks) 的评价更为严厉。
“在我看来,这就像我们所说的胡说八道,”未参与这项研究的希克斯告诉《自然》杂志。“它越来越擅长假装知识渊博了。”
这些模型接受了从数学到地理等各种主题的测验,还被要求执行诸如按指定顺序列出信息之类的任务。更大、更强大的模型总体上给出了最准确的回答,但在回答更困难的问题时却表现不佳,其准确度较低。
根据研究人员的说法,一些最大的 BS-ers 是 OpenAI 的 GPT-4 和 o1,它们几乎可以回答向他们提出的任何问题。但研究称,所有接受研究的大语言模型似乎都呈这种趋势,而且对于 LLaMA 系列模型来说,对于最简单的问题,没有一个模型能够达到 60% 的准确率。
总而言之,人工智能模型的参数、训练数据和其他因素越大,给出的错误答案的比例就越大。
不过,人工智能模型在回答更复杂的问题方面正在变得越来越好。问题除了他们有说废话的倾向之外,还在于他们仍然把简单的事情搞砸了。研究人员表示,从理论上讲,这些错误应该是一个更大的危险信号,但由于我们对大型语言模型处理复杂问题的方式印象深刻,因此我们可能会忽视它们的明显缺陷。
因此,这项工作对人类如何感知人工智能反应产生了一些发人深省的影响。当被要求判断聊天机器人的答案是否准确时,一组选定的参与者有 10% 到 40% 的答案是错误的。
研究人员表示,解决这些问题的最简单方法是让大语言模型不再急于回答所有问题。
“你可以设置一个阈值,当问题具有挑战性时,[让聊天机器人]说,‘不,我不知道,’”Hernndez-Orallo 告诉 Nature。
但是,诚实可能并不符合那些希望通过其精美技术吸引公众的人工智能公司的最佳利益。如果聊天机器人被限制只回答他们知道的事情,则可能会暴露该技术的局限性。
有关人工智能的更多信息:扎克伯格表示,可以根据数据训练人工智能,因为它可能没有任何价值
分享这篇文章