2024 年 9 月 27 日报告
本文已根据 Science X 的编辑流程和政策进行审核。编辑在确保内容可信度的同时强调了以下属性:
事实核查
同行评审的出版物
可信来源
校对
西班牙瓦恩西亚理工大学的人工智能研究团队发现,LLM(大型语言模型)变得越来越大、越来越复杂,他们不太可能向用户承认他们不知道答案。
在《自然》杂志上发表的研究中,该小组测试了最新的三个最受欢迎的人工智能聊天机器人的版本,关于它们的响应、准确性以及用户发现错误答案的能力。
随着大语言模型已成为主流,用户已经习惯使用它们来写论文、诗歌或者歌曲和解决数学问题等任务,而准确性问题已成为一个更大的问题。在这项新研究中,研究人员想知道最受欢迎的大语言模型是否会随着每次更新而变得更加准确,以及他们在错误时会做什么。
为了测试三个最受欢迎的大语言模型的准确性,BLOOM、LLaMA 和 GPT,该小组向他们提出了数千个问题,并将他们收到的答案与早期版本对相同问题的回答进行了比较。
他们还改变了主题,包括数学、科学、字谜和地理,以及大语言模型生成文本或执行诸如排序列表之类的操作的能力。对于所有问题,他们首先分配了难度。
他们发现,随着聊天机器人的每次新迭代,准确性总体上有所提高。他们还发现,正如预期的那样,随着问题变得越来越困难,准确性会下降。但他们还发现,随着大语言模型变得越来越大、越来越复杂,他们往往对自己正确回答问题的能力不太开放。
在早期版本中,大多数大语言模型会通过告诉用户来回应他们找不到答案或需要更多信息。在较新的版本中,大语言模型更有可能进行猜测,从而产生更多的答案,无论是正确的还是错误的。他们还发现,所有大语言模型偶尔都会对简单的问题做出错误的回答,这表明他们仍然不可靠。
研究小组随后要求志愿者将研究第一部分的答案评为无论是正确还是错误,发现大多数人都很难找出不正确的答案。
更多信息:Lexin Zhou 等人,更大、更易指导的语言模型变得不太可靠,Nature (2024)。DOI:10.1038/s41586-024-07930-y
2024 Science X Network