苹果公司的研究人员通过测试发现,基于AI的大语言模型给出的看似智能的回应其实不过是幻觉。在他们的报告中纸张发布于arXiv预印服务器上,研究人员争论说,在测试了几种大规模语言模型之后,他们发现这些模型不具备进行真正逻辑推理的能力。
在过去几年里,许多大型语言模型(LLM)如ChatGPT已经发展到了一个程度,使得许多用户开始怀疑它们是否具备真正的智能。在这个新的研究中,苹果团队通过假设智能实体或机器理解简单情况中的细微差别能力来回答这个问题,这些情况需要逻辑推理.
其中一个细微差别是能够区分相关信息和不相关信息的能力。如果一个儿童例如,一个孩子问家长袋子里有多少个苹果,同时指出有几个苹果太小不能吃,这时父母和孩子都明白苹果的大小与数量无关。这是因为他们都有逻辑推理能力。
在这项新的研究中,研究人员通过间接要求这些大型语言模型忽略不相关的信息,测试了它们真正理解所问问题的能力。
他们的测试包括向多个大型语言模型提出数百个之前用于测试这些模型能力的问题——但是研究人员也加入了一些不相关的信息。他们发现,这足以让大型语言模型在回答以前正确的问题时给出错误甚至荒谬的答案。
这表明,研究人员建议,这些大模型并不真正理解它们被问到了什么。相反,它们识别句子的结构,然后输出一个回应。回答基于他们通过机器学习算法所学到的知识。
他们还注意到,他们测试的大多数大语言模型经常会给出看似正确但实际上并不正确的回答,例如当被问及它们对某事的“感受”时,会得到暗示AI认为自己有能力进行此类行为的回答。
更多信息:伊曼·米拉扎德赫等,GSM-Symbolic:理解大型语言模型中的数学推理局限性arXiv (2024). DOI: 10.48550/arxiv.2410.05229
期刊信息: arXiv
© 2024 Science X网络
引用苹果研究人员表示人工智能仍然主要是幻觉(2024年10月16日) 检索于2024年10月16日 从 https://techxplore.com/news/2024-10-apple-artificial-intelligence-illusion.html
本文件受版权保护。除个人研究或学习目的的合理使用外,未经书面许可,不得以任何形式复制部分内容。所提供的内容仅用于信息目的。