人工智能非常接近解决只有地球上最聪明的人才能完成的测试：“人类的专业知识仍然很重要”

这个系统可能会欺骗我们。

人工智能在从国际象棋到模式识别等各种基于智能的活动中已经超越了人类。现在，专家们声称，他们距离通过“人类最后的考试”(HLE) 还剩一年的时间，这项考试被认为是无解的，只有我们最优秀和最聪明的人才能通过。

“模型构建者在改进这些推理模型方面确实做得非常出色，”HLE 背后的人工智能公司 Scale 的研究负责人 Calvin Zhang，告诉次伦敦。

该智力基准测试旨在了解人工智能与“人类专业知识前沿”的距离有多近，由 2,500 个问题组成，涵盖 100 多个高度专业化的领域，从神话到火箭科学。

来自科学、人文和艺术领域的 1,000 多名权威人士为 HLE 做出了贡献，该 HLE 旨在要求 PHD 水平的理解能力，以达到 ace - 超出人工智能的专业知识，《核科学新闻》报道。

张说，最终目标是创建一个“封闭式学术基准，设定为人类专家的前沿，地球上只有少数人能够真正解决这个问题。”

尽管如此，人工智能在 HLE 上的性能在短时间内以指数速度提高。虽然 ChatGPT 在 2024 年首次尝试时正确回答的问题不到 3%，但其竞争对手 Google Gemini 在几个月内就回答了 18.8% 的问题。

上个月，这一数字上升至 45% 以上。

张认为，人工智能可以在一年内接近满分——任何得分接近100%的人都可以被定义为“全能专家”。

“如果我们真的把它当作生活中唯一的事情来关心，我想我们可以很快做到这一点，”Google DeepMind 的产品经理 Kate Olszewska 夸口道。Kate Olszewska，产品经理谷歌深度思维

，同意：“如果我们真正将其视为生活中唯一的事情，我认为我们可以很快做到这一点。”考虑到 Scale 在 HLE AI 防护方面所付出的努力，这种光速的进步令人印象深刻。据报道，测试制定者向专家提供了 50 万美元的奖金，奖励那些提出通过网络搜索无法轻松回答的问题的专家，最终收到了超过 70,000 份回复。

他们确保这些问题无法通过简单的在线搜索得到答案。

例如，在考试过程中，考生可能会被要求翻译古代巴尔米拉铭文或识别鸟类的微观解剖结构，

为了进一步确保测试是人工智能铁定的，团队隐藏了大部分答案，以便后来的模型无法记住它们。

德克萨斯 A&M 计算机科学与工程教授 Tung Nguyen 博士表示，“人类的最后考试是对人工智能和人类智能之间差距最清晰的评估之一”，他贡献了 73 道题目（第二多）。

他认为，虽然上述一些模型表现良好，但其余模型的得分较差，这表明人工智能和人类智能之间的鸿沟仍然“很大”。

“当人工智能系统开始在人类基准上表现得非常出色时，人们很容易认为它们正在接近人类的理解水平，”Nguyen 说。– 但 HLE 提醒我们，智能不仅仅涉及模式识别，还涉及深度、背景和专业知识。”

这位技术专家表示，最终目标不是要难倒“人工智能”，而是要说明系统的优点和缺点。

反过来，这将帮助我们构建“更安全、更可靠的技术”，同时也证明“为什么人类的专业知识仍然很重要”——在人工智能似乎正在从快餐到食品等各个领域取代我们的世界中，这是一个重要的目标。药。

话虽如此，人工智能在解决问题方面表现出了令人惊讶的类似人类的能力，这表明它的处理能力并不仅仅局限于死记硬背。

2025年，中国研究人员的测试揭示了两者的相似之处AI 模型 — — 感知 —和人类认知——尤其是在语言分组方面。

由此，研究人员推断机器学习者“发展出类似人类的物体概念表征。”

– 进一步的分析表明，模型嵌入和神经活动模式之间存在很强的一致性 – 在与记忆和场景识别相关的大脑区域。

OC