9 月 16 日(路透社)- 一个技术专家团队周一发出了全球呼吁,寻求向人工智能系统提出最棘手的问题,人工智能系统越来越多地处理像儿戏一样的流行基准测试。
该项目被称为“人类的最后一次考试”,旨在确定专家级人工智能何时到来。据组织者、人工智能安全中心 (CAIS) 和初创公司 Scale AI 的非营利组织称,它的目标是在未来几年能力不断进步的情况下保持相关性。
广告滚动继续
几天前,ChatGPT 的制造商预览了一种名为 OpenAI o1 的新模型,CAIS 执行董事兼埃隆·马斯克 (Elon Musk) xAI 初创公司顾问丹·亨德里克斯 (Dan Hendrycks) 表示,该模型“摧毁了最流行的推理基准”。
Hendrycks 在 2021 年与人合着了两篇论文,提出了对目前广泛使用的人工智能系统进行测试的建议,其中一篇测试了美国历史等本科水平的知识,另一篇则探讨了模型通过竞赛级数学进行推理的能力。本科生风格的测试从在线人工智能中心 Hugging Face 获得的下载量比任何此类数据集都要多。
广告滚动继续
在发表这些论文时,人工智能对考试问题给出的答案几乎是随机的。“他们现在被压垮了,”亨德里克斯告诉路透社。
举个例子,根据一个著名的能力排行榜,人工智能实验室 Anthropic 的 Claude 模型在本科水平测试中的得分从 2023 年的 77% 左右上升到一年后的近 89%。
因此,这些常见基准的意义较小。
根据斯坦福大学 4 月份的人工智能指数报告,人工智能在涉及计划制定和视觉模式识别难题的较少使用的测试中似乎得分很低。例如,ARC 组织者周五表示,OpenAI o1 在模式识别 ARC-AGI 测试的一个版本中得分约为 21%。
一些人工智能研究人员认为,这样的结果表明规划和抽象推理是更好的智力衡量标准,尽管 Hendrycks 表示 ARC 的视觉方面使其不太适合评估语言模型。他说,人文学科期末考试将需要抽象推理。
行业观察家表示,来自常见基准的答案也可能最终出现在用于训练人工智能系统的数据中。亨德里克斯表示,“人类最后考试”的一些问题将保密,以确保人工智能系统的答案不是来自记忆。考试将包括至少 1,000 个将于 11 月 1 日截止的众包问题,这些问题对于非专家来说很难回答。这些作品将接受同行评审,获奖作品将获得共同作者身份以及由 Scale AI 赞助的高达 5,000 美元的奖金。
我们迫切需要对专家级模型进行更严格的测试,以衡量人工智能的快速进步。”Scale 首席执行官 Alexandr Wang 说道。
一个限制:组织者不希望提出有关武器的问题,有人说这对人工智能来说太危险了,无法研究。
通过时事通讯 On the Campaign Trail 获取有关美国选举及其对世界的重要性的每周新闻和分析。在这里注册。
杰弗里·达斯汀 (Jeffrey Dastin) 在旧金山的报道和凯蒂·保罗 (Katie Paul) 在纽约的报道,克里斯蒂娜·芬奇 (Christina Fincher) 编辑
我们的标准:汤森路透信任原则。