人工智能专家呼吁提交“有史以来最难、最广泛的一组问题”,以试图难倒当今最先进的以及即将出现的人工智能系统。
据路透社报道,这项在该领域被称为“人类最后考试”的测试由人工智能安全中心 (CAIS) 和训练数据标记公司 Scale AI 众包,该公司在今年夏天提出了一项很酷的测试十亿美元,总价值达 140 亿美元。
路透社指出,此次“考试”的提交是在 OpenAI 新的 o1 模型预览结果发布后一天开放的。正如 CAIS 执行董事 Dan Hendryks 指出的那样,o1 似乎“摧毁了最流行的推理基准。”
早在 2021 年,Hendrycks 就与人合着了两篇包含人工智能测试提案的论文,这些论文将评估模型是否能够在测验中胜过本科生。当时,正在测试的人工智能系统几乎随机地给出答案,但正如 Hendrycks 指出的那样,今天的模型已经“粉碎”了 2021 年的测试。
虽然 2021 年的测试标准主要在数学和社会研究方面对人工智能系统进行考验,但正如 CAIS 执行董事所说,“人类的最后一场考试”将纳入抽象推理,使其变得更加困难。组织测试的两家机构还计划对测试标准保密,不向公众开放,以确保答案不会出现在任何人工智能训练数据中。
截至 11 月 1 日,我们鼓励火箭和哲学等广泛领域的专家提出那些其专业领域之外的人难以回答的问题。经过同行评审后,获奖者将获得与测试相关的论文的共同作者以及由 Scale AI 赞助的高达 5,000 美元的奖金。
虽然组织者正在为他们正在寻找的问题类型撒下一张非常广泛的网,但他们告诉路透社,有一件事不会出现在考试中:任何有关武器的内容,因为人工智能了解它太危险了.
有关高级人工智能的更多信息:OpenAI 的草莓“思维过程”有时会显示出欺骗用户的阴谋
分享这篇文章