旧金山人工智能领域的两大领军企业已经挑战了邀请公众提出能够测试大型语言模型(如谷歌Gemini和OpenAI的o1)能力的问题。专注于准备训练这些大型语言模型所需大量数据的Scale AI与人工智能安全中心(CAIS)合作,发起了“人类的最后一考”倡议。
奖金为5000美元(约合3800英镑)颁发给入选前50名问题的提出者,Scale和CAIS表示,目标是测试我们距离实现“专家级人工智能系统”的程度,并宣称这是“历史上规模最大的、涵盖领域最广的专家联盟”。
为什么要做这个?领先的大型语言模型已经在许多现有的智力测试中表现出色,数学以及法律但这很难确定其意义。在许多情况下,由于它们训练的数据量巨大,包括互联网上大量内容,他们可能已经预先学到了答案。
数据是这一整个领域的基础。它是从传统计算向人工智能转变的范式转换背后的推动力,从“告诉”机器该做什么转变为“展示”给机器看应该怎么做。这需要良好的训练数据集,但同时也需要良好的测试数据集。开发人员通常使用未被用于训练的数据来完成这一点,在行话中被称为“测试数据集”。
如果大型语言模型尚不能预先学习并通过如律师资格考试等标准化测试的答案,它们很快就能做到。人工智能分析网站 epochs估计2028年将标志着AI实际上已经读取了人类写下的所有内容的时刻。同样重要的是,在跨越这一界限之后,如何继续评估AI。
当然,互联网在不断扩张,每天都有成千上万的新内容被添加。这能解决这些问题吗?
也许如此,但这也涉及到另一个隐秘的困难,被称为“模型坍塌随着互联网上由人工智能生成的内容越来越多,并且这些内容又重新被用作未来人工智能训练的数据集,这可能会导致人工智能的表现越来越差。为了解决这个问题,许多开发者已经开始收集他们的人工智能与人类互动所产生的数据,并添加新的数据用于训练和测试。
一些专家认为,AI也需要变得“具身化”:在现实世界中移动并获得自己的经验,就像人类一样。这听起来可能有些离谱,直到你意识到特斯拉多年来一直在用它的汽车这样做。另一个机会是人类可穿戴设备,如Meta的流行产品雷朋智能眼镜这些配备了摄像头和麦克风,且可以使用收集大量以人类为中心的视频和音频数据。
窄化测试
即使这些产品能保证未来有足够的训练数据,仍然存在如何定义和衡量智能——特别是通用人工智能(AGI),即等于或超越人类智能的AI——的问题。
传统的智商测试有长期以来一直存在争议未能捕获到多面性涵盖从语言到数学再到同理心和方向感的所有方面的智能。
对于用于AI的测试也存在类似的问题。有许多已经确立的测试涵盖了诸如总结文本、理解文本和绘图等任务。正确的推理从信息中识别人体姿势和手势以及机器视觉。
一些测试将被停用。通常因为这些AI在特定任务上表现得非常好,但它们的功能太过专门化,只能算是非常狭隘的智能衡量标准。例如,国际象棋对战的AI STOCKFISH远远领先于有史以来得分最高的人类棋手马格努斯·卡尔森在埃洛评级系统。然而,Stockfish无法完成诸如理解语言之类的其他任务。显然,将它的国际象棋能力与更广泛的智能相提并论是错误的。
但随着人工智能现在展示出更广泛的智能行为,挑战在于设计新的基准来比较和衡量它们的进步。法国谷歌工程师弗朗索瓦·肖莱提出了一种值得注意的方法。他主张真正的智能在于能够适应并将在新环境中泛化学习的能力。2019年,他提出了“抽象和推理语料库”(ARC),这是一个由简单的视觉网格形式的谜题组成的集合,旨在测试人工智能推断和应用抽象规则的能力。
不像之前的基准测试那个通过在包含物体信息的数百万张图片上训练AI来进行视觉对象识别测试,而ARC则提前只给它少量的例子。AI必须自己推断出拼图逻辑,并不能简单地学习所有可能的答案。
虽然ARC测试并不特别困难为了供人类解决,有一个奖金为60万美元的奖项颁发给第一个达到85%得分的人工智能系统。撰写本文时,我们离这一目标还很遥远。两个最近领先的大型语言模型分别是OpenAI的o1预览版和Anthropic的Sonnet 3.5,两个分数在ARC公开排行榜上(被称为)21%ARC-AGI-Pub).
另一个最近的尝试使用OpenAI的GPT-4o得分50%但是颇具争议性的是,这种方法在选择最佳答案之前生成了数千种可能的解决方案。即便如此,这仍然距离触发奖项要求或达到人类的表现水平相差甚远超过90%.
虽然ARC仍然是当今测试人工智能真正智能的最可信的方法之一,Scale/CAIS倡议表明,寻找引人注目的替代方案的工作仍在继续。(令人惊讶的是,我们可能永远不会看到一些获奖问题。为了确保AI不会提前查看考试题目,这些问题不会在网上发布。)
我们需要了解机器何时接近人类级别的推理,这引发了所有关于安全、伦理和道德的问题。到那时,我们可能会面临一个更加困难的考试题目:如何测试超级智能。这是一个更令人困惑的任务,我们需要找出答案。