英语轻松读发新版了,欢迎下载、更新

谷歌 DeepMind 研究人员认为他们找到了解决人工智能“峰值数据”问题的方法

2025-01-05 10:11:00 英文原文

作者:Alistair Barr

  • OpenAI 联合创始人 Ilya Sutskever 最近表示,人工智能行业已经达到了“数据峰值”。
  • DeepMind 研究人员将新“推理”模型的输出视为新的人工智能训练数据的来源。
  • 一种称为测试时计算的新人工智能技术将于 2025 年接受测试。

开放人工智能联合创始人伊利亚·苏茨克韦尔在最近的一次会议上宣布的一些事情本应让人工智能行业感到恐惧。

“我们已经达到了峰值数据,不会再有更多了,”他在 12 月份的年度 Neurips 活动上发表演讲时说道。

互联网上所有有用的数据都已用于训练人工智能模型。这个过程被称为预训练,产生了许多最近的生成式人工智能收益,包括聊天GPT。改进有放慢了不过,苏茨克韦尔表示,这个时代“毫无疑问将会结束”。

这是一个可怕的前景,因为数万亿美元的股市价值和人工智能投资正在依赖型号继续变得更好。

然而,大多数人工智能专家似乎并不那么担心。为什么?

推理时间计算

可能有一种方法可以绕过这些数据。它与一种相对较新的技术有关,该技术可以帮助人工智能模型更长时间地“思考”具有挑战性的任务。

该方法称为测试时间或推理时间计算,将查询分割成更小的任务,将每个任务转变为模型处理的新提示。每个步骤都需要运行一个新请求,这称为推理人工智能阶段。

这就产生了一个推理链,其中问题的每个部分都得到了解决。在正确处理每个部分并最终得出更好的最终响应之前,模型不会进入下一阶段。

OpenAI发布了一个模型,名为奥1九月,使用推理时间计算。谷歌和中国人工智能实验室紧随其后深度搜索,推出了类似的“推理”模型。 

“迭代的自我完善循环”

对这些新模型进行的基准测试表明,它们通常会比之前的顶级人工智能模型产生更好的输出,特别是在数学问题和具有明确最终答案的类似任务上。

这就是事情变得有趣的地方。如果这些更高质量的输出用于新的训练数据会怎样?大量的新信息可以反馈到其他人工智能模型训练中,以产生更好的结果。

谷歌深度思维研究人员发表的研究在八月份的测试时计算上,并提出这项技术作为通过峰值数据墙保持大型语言模型改进的潜在方法。

研究人员写道:“未来,我们设想应用额外测试时计算的输出可以被提炼回基础法学硕士,从而实现迭代的自我改进循环。”“为此,未来的工作应该扩展我们的发现,并研究如何使用应用测试时计算的输出来改进基础法学硕士本身。”

与测试时研究员的聊天

Charlie Snell、Jaehoon Lee、Kelvin Xu 和 Aviral Kumar 共同撰写了这篇研究论文。Xu 仍在谷歌,库马尔在 DeepMind 度过了一段时间,而李则离开谷歌加入 OpenAI 竞争对手人择

斯内尔在 Google DeepMind 实习期间与他人共同撰写了这篇论文。他现在回到加州大学伯克利分校,所以我打电话给他询问是什么激发了这项研究。

他在最近的一次采访中告诉我:“我的动力来自于一些阻碍预训练继续扩大规模的因素,特别是数据的有限供应。” 

“如果你能让人工智能模型使用额外的推理时间计算并改进其输出,这就是它生成更好的合成数据的一种方式,”他补充道。“这是一个有用的新训练数据源。这似乎是解决这些预训练数据瓶颈的一种有前途的方法。”

萨蒂亚满意

在最近的视频播客中,当被问及人工智能模型改进放缓和缺乏新的高质量训练数据时,微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 似乎泰然自若,甚至充满活力。 

他将推理时间计算描述为“另一个缩放定律”。

“所以你需要进行预训练,然后你就可以有效地进行测试时采样,然后创建可以返回预训练的标记,创建更强大的模型,然后在你的推理上运行,”他说。

“我认为这是提高模型能力的绝佳方法,”纳德拉微笑着补充道。 

Sutskever 在 12 月初的 Neurips 演讲中还提到测试时计算是峰值数据问题的一种可能解决方案。

测试时间计算的测试时间

到 2025 年,这种方法将受到考验。尽管斯内尔很乐观,但这并不是一个扣篮。 

“在过去三年左右的时间里,情况似乎更加清晰,”他在谈到人工智能的进展时说道。“现在我们正处于探索模式。”

一个悬而未决的问题:这种测试时计算技术的泛化能力如何?斯内尔表示,它对于答案已知且可以检查的问题表现良好,例如数学挑战。

“但是很多需要推理的事情并不容易检查。例如,写一篇文章。对于这有多好,通常没有直接的答案,”他解释道。 

尽管如此,还是有一些成功的早期迹象,斯内尔怀疑这些类型的推理人工智能模型的输出已经被用来训练新模型。 

“这些合成数据很可能比互联网上的数据更好,”他说。

Snell 表示,如果 OpenAI o1 模型的输出优于该初创公司之前的顶级模型 GPT-4,那么这些新输出理论上可以重复用于未来的 AI 模型训练。 

他分享了一个理论示例:假设 o1 在特定 AI 基准测试中获得 90% 的分数,你可以将这些答案输入 GPT-4,让该模型也达到 90%。 

“如果你有大量提示,你可以从 o1 获取大量数据并创建大量训练示例并在其上预训练新模型,或者继续训练 GPT-4 以使其变得更好,”Snell 说。 

12 月底的 TechCrunch 报告表明 DeepSeek 可能使用了 OpenAI o1 的输出来训练自己的 AI 模型。其最新产品 DeepSeek V3 在行业基准上表现良好。 

“它们可能是第一批复制 o1 的生物,”斯内尔说。“我问过 OpenAI 的人对此有何看法。他们说看起来是一样的,但他们不知道 DeepSeek 是如何做到如此快的。”

OpenAI 和 DeepSeek 没有回应置评请求。 

关于《谷歌 DeepMind 研究人员认为他们找到了解决人工智能“峰值数据”问题的方法》的评论


暂无评论

发表评论

摘要

OpenAI 的 Ilya Sutskever 表示,人工智能行业已经达到了所有有用数据都用于训练模型的阶段,标志着“数据峰值”。然而,测试时计算等新技术允许模型执行迭代推理并生成可以用作新训练数据的高质量输出。谷歌 DeepMind 和其他公司的研究人员探索的这种方法可以帮助人工智能模型继续改进,超越峰值数据限制。微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 认为这是人工智能能力未来进步的一个有前途的扩展法则。