人工智能模型已经“摧毁”了许多为测试其智力而创建的考试 - 现在是终极考试据“人类最后一次考试”的创造者称,需要进行考试。
2024年9月18日星期三12:00,英国
科学家正在创建“人类最后一次考试”来测试人工智能,看看它何时达到专家级智能。
人工智能安全中心 (CAIS) 和 Scale AI 要求人们提交问题并创建“世界上最困难的人工智能测试”
“现有的测试现在变得太简单了,我们无法再很好地跟踪人工智能的发展,或者它们距离达到专家水平还有多远,”测验创建者在一份关于该测试的声明中说道。
几年前,人工智能对考试问题的回答几乎是随机的 - 但现在情况已不再如此。
上周,OpenAI 的最新模型,称为 OpenAI o1,“摧毁了CAIS 执行董事 Dan Hendrycks 表示,“最受欢迎的推理基准”。
然而,人工智能仍然无法回答困难的研究问题和其他智力问题。
它还根据斯坦福大学四月份的人工智能指数报告,在涉及规划和视觉模式识别难题的测试中,人工智能似乎得分很低。
因此,“人类的最后一场考试”将需要抽象推理来测试人工智能到底有多聪明。.
提交的内容不应该是任何普通的测验问题。
“我们发现本科生写的问题对于模型来说往往太简单了,”测验的创建者说。
来自天空新闻的更多内容:
俄罗斯官方媒体禁止使用 Facebook 和 Instagram
英国正在为三种 mpox 场景做准备
青少年 Instagram 用户将在更新中获得严格的隐私设置
相反,他们建议问题作者在 SpaceX 这样的技术行业工作中拥有五年或以上的经验,或者是博士生或以上。
提交的内容对于非专家回答并且“通过快速在线搜索不容易回答”,并且应避免欺骗性问题。
“根据经验,如果随机选择的本科生能够理解所问的内容,对于今天和明天的前沿大语言模型来说,这可能太容易了。”测验创建者说道。
提交成功问题的人将被邀请作为论文的共同作者,并有机会赢取奖金奖金池为 500,000 美元 (378,400),最佳问题的作者每人可赚取 5,000 美元 (3,780)。
成为第一个获得突发新闻的人p>
免费安装天空新闻应用程序
问题应在 11 月 1 日之前提交。