这些AI模型比开源同行表现更好——但仍无法与人类匹敌

2024-10-15 18:38:00 英文原文

作者:Written by Radhika Rajkumar, Editor Oct. 15, 2024 at 11:38 a.m. PT

gettyimages-1906503812
雅罗斯拉夫·库什塔/盖帝图像公司

人工智能(AI)能否通过为人智商测试设计的认知谜题?结果好坏参半。

南加州大学维特比工程学院信息科学研究所(ISI)的研究人员调查了多模态大型语言模型(MLLMs)是否可以解决通常专为人设计的抽象视觉测试。

также: (由于"Also:"本身没有具体的内容需要翻译,且该短语在中文中通常直接使用“也:”或根据上下文转化为更合适的表达方式,此处可能需更多上下文来准确翻译。如果必须对应英文原意,则输出“也:”。)原文要求只输出翻译结果并避免注释,因此以上内容应简化为: 也:最佳AI聊天机器人:ChatGPT、Copilot以及值得推荐的其他替代品

上周在费城举行的语言建模会议(COLM 2024)上提出的这项研究,测试了“开源和闭源大规模语言模型的非言语抽象推理能力”,通过查看图像处理模型是否能够更进一步,在面对视觉谜题时展示推理能力。

例如,如果看到一个黄色的圆圈变成一个蓝色的三角形,模型能否在不同的场景中应用同样的模式?项目的研究助理Kian Ahrabian解释说,根据……脑科学新闻此任务要求模型使用类似于人类思维的视觉感知和逻辑推理,使其成为一个更为复杂的挑战。

研究人员测试了24种不同的多语言大模型(MLLMs)在基于瑞文渐进矩阵(一种标准的抽象推理类型)开发的谜题上的表现——而这些AI模型并没有取得成功。

“Ahrabian说他们真的很差。他们无法从中得到任何东西。”这些模型在理解视觉内容和解读模式方面都遇到了困难。

然而,结果各不相同。总体而言,研究发现开源模型在视觉推理谜题上比像GPT-4V这样的闭源模型更具挑战性,尽管这些闭源模型的表现仍无法与人类的认知能力相媲美。研究人员使用一种称为“思维链提示”的技术帮助一些模型表现得更好,这种技术指导模型逐步完成测试中的推理部分。

此外:开源AI定义终于发布了第一个发行候选版——以及一个妥协方案

闭源模型被认为在类似这样的测试中表现更好,因为它们专门开发、使用更大规模的数据集进行训练,并且享有私营企业计算能力的优势。Ahrabian指出:“具体来说,GPT-4V在推理方面相对较好,但远非完美。”

“我们对新的AI模型能做什么仍然了解有限,除非我们理解这些局限性,否则我们就不能使AI变得更好、更安全和更有用。”Jay Pujara(研究副教授兼作者)说道。“这篇论文有助于填补关于AI在何处挣扎的故事中的一个缺失部分。”

也包括:现在AI可以像你一样准确地解决reCAPTCHA测试了

通过找出人工智能模型推理能力的弱点,这样的研究可以帮助今后完善这些技能——目标是达到人类水平的逻辑思维。但不用担心:目前它们还不足以与人类的认知相媲美。

编辑标准
关于《这些AI模型比开源同行表现更好——但仍无法与人类匹敌》
暂无评论

摘要

Yaroslav Kushta/Getty Images人工智能(AI)能否通过为人类智商测试设计的认知谜题?此外:最佳AI聊天机器人:ChatGPT、Copilot以及其他值得考虑的替代品上周在费城举行的语言建模会议(COLM 2024)上,该研究测试了“开源和闭源大语言模型的非言语抽象推理能力”,通过查看图像处理模型是否能更进一步,在面对视觉谜题时展示出推理技能。该项目的研究助理Kian Ahrabian在接受Neuroscience News采访时解释道。这项任务要求模型使用与人类思考相似的视觉感知和逻辑推理,使其成为一个更具挑战性的难题。“他们对此无能为力,”Ahrabian说。