作者:Maxwell Zeff
上个月,人工智能创始人和投资者告诉 TechCrunch,我们现在正处于“缩放定律的第二个时代,– 注意到改进人工智能模型的既定方法如何显示出收益递减。他们建议的一种可以保持收益的有前景的新方法是 –测试时间缩放,——这似乎是性能背后的原因——OpenAI 的 o3 模型– 但它也有其自身的缺点。
AI 界的大部分人都将 OpenAI o3 模型的发布视为 AI 扩展进展并未“碰壁”的证据。o3 模型在基准测试中表现出色,在测试中显着超过了所有其他模型。称为 ARC-AGI 的一般能力,得分为 25%困难的数学测试没有其他 AI 模型得分超过 2%。
当然,在我们能够亲自测试 o3 之前,我们 TechCrunch 对这一切持保留态度(到目前为止很少有人尝试过)。但即使在 o3 发布之前,人工智能世界就已经确信一些重大的事情已经发生了变化。
OpenAI o 系列模型的联合创始人诺姆·布朗 (Noam Brown) 周五指出,该初创公司在宣布 o1 后仅三个月就宣布了 o3 的令人印象深刻的收益 - 对于此类模型而言,时间框架相对较短性能飞跃。
“我们有充分的理由相信这种轨迹将会持续下去,”布朗在一份报告中说道。鸣叫。
Anthropic 联合创始人杰克·克拉克 (Jack Clark) 在一份声明中表示博客文章周一,o3 证明人工智能“2025 年的进步将比 2024 年更快。”(请记住,这对 Anthropic 有利,尤其是其筹集资金的能力,表明人工智能扩展法则仍在继续,即使克拉克正在补充竞争对手。)
克拉克表示,明年,人工智能世界将把测试时间扩展和传统的预训练扩展方法结合起来,以从人工智能模型中获得更多回报。也许他建议 Anthropic 和其他人工智能模型提供商将在 2025 年发布自己的推理模型,就像谷歌上周做了。
测试时间缩放意味着 OpenAI 在 ChatGPT 的推理阶段(即在提示中按 Enter 后的时间段)使用更多的计算。目前尚不清楚幕后究竟发生了什么:OpenAI 要么使用更多的计算机芯片来回答用户的问题,运行更强大的推理芯片,要么运行这些芯片的时间更长 – 10 到在某些情况下,需要 15 分钟——人工智能才会给出答案。我们不知道 o3 是如何制作的所有细节,但这些基准测试是测试时间扩展可能有助于提高 AI 模型性能的早期迹象。
虽然 o3 可能会让一些人对人工智能扩展法则的进展重新产生信心,但 OpenAI 的最新模型还使用了前所未有的计算水平,这意味着每个答案的价格更高。
– 也许这里唯一重要的警告是理解 O3 如此出色的原因之一是它在推理时运行需要花费更多的钱 – 在某些问题上利用测试时计算的能力意味着您可以将计算转化为计算更好的答案,”克拉克在他的博客中写道。– 这很有趣,因为它使得运行人工智能系统的成本变得不太可预测 – 以前,您只需查看模型和生成给定模型的成本就可以计算出为生成模型提供服务的成本是多少输出。 –
Clark 和其他人指出,o3 在 ARC-AGI 基准测试(用于评估 AGI 突破的困难测试)上的表现可以作为其进展的指标。值得注意的是,根据其创建者的说法,通过这项测试并不意味着人工智能模型已实现AGI,更确切地说,它是衡量模糊目标进展的一种方法。也就是说,o3 模型的得分超过了之前所有进行过测试的 AI 模型,其中一次尝试得分为 88%。OpenAI 的第二佳人工智能模型 o1 得分仅为 32%。
但该图表上的对数 x 轴可能会让某些人感到震惊。o3 的高分版本每项任务都使用了价值超过 1,000 美元的计算资源。o1 模型每个任务使用约 5 美元的计算资源,而 o1-mini 仅使用几美分。
ARC-AGI 基准测试的创建者 François Chollet 在一篇文章中写道博客OpenAI 使用大约 170 倍的计算量来生成 88% 的分数,而高效版本的 o3 的分数仅低 12%。o3 的高分版本使用了超过 10,000 美元的资源来完成测试,这使得竞争 ARC 奖(这是人工智能模型在 ARC 测试中获胜的不败竞赛)的成本过于昂贵。
然而,Chollet 表示,尽管如此,o3 仍然是人工智能模型的一个突破。
“o3 是一个能够适应以前从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平的性能,”Chollet 在博客中说道。– 当然,这种普遍性需要付出高昂的成本,而且还不太经济:你可以花钱雇一个人来解决 ARC-AGI 任务,每个任务大约 5 美元(我们知道,我们就是这样做的),而仅消耗几美分的能源。 –
现在讨论所有这些的确切定价还为时过早——去年我们已经看到 AI 模型的价格大幅下跌,而 OpenAI 尚未宣布 o3 的实际成本是多少。然而,这些价格表明需要多少计算才能打破当今领先人工智能模型设置的性能障碍,即使是轻微的。
这引发了一些问题。o3到底是做什么用的?需要多少计算才能在 o4、o5 或 OpenAI 命名的其他推理模型的推理方面获得更多收益?
o3 或其后继者似乎不会像 GPT-4o 或 Google 搜索那样成为任何人的“日常驱动程序”。这些模型只是使用过多的计算来回答您一天中的小问题,例如“克利夫兰布朗队如何才能进入 2024 年季后赛?”
相反,具有扩展测试时间计算能力的 AI 模型似乎只适用于大局提示,例如“克利夫兰布朗队如何才能在 2027 年成为超级碗球队?”即便如此,也许还是这样。只有当您是克利夫兰布朗队的总经理,并且您正在使用这些工具做出一些重大决策时,才值得付出高昂的计算成本。
正如沃顿商学院教授 Ethan Mollick 在一篇文章中指出的那样,财力雄厚的机构可能是唯一能够负担得起 o3 的机构,至少在开始时是这样。鸣叫。
我们已经看到 OpenAI 发布了200 美元套餐可使用 o1 的高计算版本,但是初创公司有据报道称,他们考虑过制定成本高达 2,000 美元的订阅计划。当您看到 o3 使用了多少计算量时,您就可以理解为什么 OpenAI 会考虑它。
但使用 o3 进行高影响力的工作也有缺点。正如 Chollet 指出的那样,o3 不是 AGI,它仍然无法完成一些人类可以轻松完成的非常简单的任务。
这并不一定令人惊讶,因为大型语言模型仍然有很大的幻觉问题,o3 和测试时计算似乎还没有解决这个问题。这就是为什么 ChatGPT 和 Gemini 在他们生成的每个答案下面都包含免责声明,要求用户不要相信答案的表面价值。据推测,如果 AGI 能够实现,就不需要这样的免责声明。
在测试时间扩展方面释放更多收益的一种方法可能是更好的人工智能推理芯片。不乏专门解决这个问题的初创公司,例如 Groq 或 Cerebras,而其他初创公司正在设计更具成本效益的人工智能芯片,例如 MatX。安德森·霍洛维茨 (Andreessen Horowitz) 普通合伙人 Anjney Midha 此前告诉 TechCrunch,他期待这些初创公司发挥更大作用测试时间的扩展正在向前推进。
虽然 o3 对人工智能模型的性能有了显着的改进,但它提出了一些有关使用和成本的新问题。也就是说,o3 的性能确实为“测试时计算是科技行业扩展 AI 模型的下一个最佳方式”这一说法增添了可信度。
TechCrunch 有一份以人工智能为中心的时事通讯! 在这里注册每周三将其发送到您的收件箱。