对三种主要人工智能 (AI) 聊天机器人更新、更大版本的研究表明,它们更倾向于生成错误答案,而不是承认无知。评估还发现,人们并不擅长发现错误的答案。
人工智能模型输入人工智能生成的数据后,很快就会吐出无意义的内容
人们已经引起了广泛的关注。考虑到用于支持聊天机器人的大型语言模型 (LLM) 有时会出错或对查询产生奇怪的响应。西班牙巴伦西亚人工智能研究所的 Jos Hernndez-Orallo 和他的同事分析了此类错误,以了解随着模型变得越来越大,使用更多训练数据,涉及更多参数或决策节点并吞噬它们,它们会如何变化更多的计算能力。他们还追踪了错误的可能性是否符合人类对问题难度的看法,以及人们识别错误答案的能力。该研究1于 9 月 25 日发表在《自然》杂志上。
团队发现,正如预期的那样,更大、更精致的大语言模型版本更加准确,这在很大程度上要归功于微调方法的塑造例如根据人类反馈进行强化学习。这是个好消息。但它们不太可靠:团队报告说,在所有不准确的回答中,错误答案的比例有所增加,因为模型不太可能避免回答问题,例如,通过说他们不知道,或者通过改变答案主题。
这些天他们几乎回答了所有问题。埃尔南德斯-奥拉洛说,这意味着更正确的答案,但也意味着更多不正确的答案。换句话说,聊天机器人提供超出其自身知识范围的意见的倾向有所增加。英国格拉斯哥大学科技哲学家迈克·希克斯 (Mike Hicks) 表示,在我看来,这就像我们所说的胡说八道,他提出了“超级蠕虫论”一词来描述这种现象2。它越来越擅长假装知识渊博。
结果是,日常用户可能会高估聊天机器人的能力,这是危险的,Hernndez-Orallo 说。
该团队研究了三个 LLM 系列:OpenAIs GPT、Metas LLaMA 和 BLOOM(由学术团体 BigScience 创建的开源模型)。对于每个模型,他们都研究了模型的早期原始版本和后来的精炼版本。
他们在数千个提示上测试了模型,其中包括算术、字谜、地理和科学问题,以及以下提示:测试了机器人转换信息的能力,例如按字母顺序排列列表。他们还对人类感知的问题难度进行了排名,例如,有关加拿大多伦多的问题被评为比有关墨西哥鲜为人知的小城镇阿基尔的问题更容易。
开源语言人工智能挑战大型科技模型
正如预期的那样,答案的准确性随着精炼模型的变大而提高,随着问题的难度增大而降低。尽管模型避免回答非常困难的问题可能是谨慎的做法,但研究人员发现这个方向没有明显的趋势。相反,一些模型,例如 GPT-4,几乎回答了所有问题。随着模型变大,错误答案中不正确或被避免的答案比例上升,对于几个精炼模型来说,错误答案比例达到 60% 以上。
团队还发现,所有模型偶尔都会出现问题。即使是简单的问题也会出错,这意味着不存在一个安全的操作区域,用户可以对答案有很高的信心。
然后,团队要求志愿者将答案分为正确、错误或回避。在简单和困难的问题中,人们错误地将不准确的答案归类为准确的概率通常在 10% 到 40% 之间。Hernndez-Orallo 表示,人类无法监督这些模型。
Hernndez-Orallo 认为开发人员应该提高人工智能在简单问题上的性能,并鼓励聊天机器人拒绝回答回答难题,以便人们能够更好地评估人工智能可能可靠的情况。他说,我们需要人类理解:我可以在这个领域使用它,但我不应该在那个领域使用它。
ChatGPT 帮助我进行学术写作的三种方式 有些模型会说我不知道,或者我的信息不足哥伦比亚南卡罗来纳大学计算机科学家维普拉·拉特 (Vipula Rawte) 说,“来回答你的问题。”所有人工智能公司都在努力减少幻觉,而为特定目的(例如医疗用途)开发的聊天机器人有时会进一步完善,以防止它们超出其知识基础。但是,她补充道,对于试图销售通用聊天机器人的公司来说,这不是您通常想要提供给客户的东西。