OpenAI 去年推出了 GPT-4,将其模型的规模增加到令人眼花缭乱的比例,从而在人工智能领域取得了最后的重大突破。该公司今天宣布了一项新进展,标志着模型方法的转变,该模型可以通过逻辑推理解决许多困难问题,并且在无需大规模扩展的情况下比现有人工智能要智能得多。
这个新模型被称为 OpenAI o1,可以解决困扰现有 AI 模型的问题,包括 OpenAI 最强大的现有模型 GPT-4o。它不像大型语言模型通常那样一步给出答案,而是通过问题进行推理,像人一样有效地大声思考,然后得出正确的结果。
OpenAI 首席技术官 Mira Murati 告诉《连线》杂志,这就是我们认为这些模型中的新范式。它更擅长处理非常复杂的推理任务。
该公司表示,新模型在 OpenAI 中的代号为 Strawberry,它不是 GPT-4o 的继承者,而是对其的补充。
Murati 表示,OpenAI 目前正在构建其下一个主模型 GPT-5,该模型将比其前身大得多。不过,尽管该公司仍然相信规模将有助于从人工智能中挖掘出新的能力,但 GPT-5 很可能还包括今天推出的推理技术。穆拉蒂说,有两种范式。扩展范式和这个新范式。我们希望能够将他们聚集在一起。
大语言模型通常会通过输入大量训练数据的庞大神经网络来得出答案。他们可以表现出卓越的语言和逻辑能力,但传统上却难以解决令人惊讶的简单问题,例如涉及推理的基本数学问题。
Murati 表示,OpenAI o1 使用强化学习,包括在模型得到正确答案时给予积极反馈,在没有得到正确答案时给予负面反馈,以改进其推理过程。她说,该模型提高了思维能力,并微调了用于得出答案的策略。强化学习使计算机能够以超人的技能玩游戏并完成设计计算机芯片等有用的任务。该技术也是将大语言模型转变为有用且表现良好的聊天机器人的关键要素。
OpenAI 研究副总裁 Mark Chen 向 WIRED 演示了新模型,用它解决了之前模型 GPT-4o 无法解决的几个问题。其中包括一个高级化学问题和以下令人费解的数学难题:当公主的年龄是王子当前年龄总和的一半时,公主的年龄是王子的两倍,公主的年龄与王子的年龄一样大。王子和公主的年龄是多少岁?(正确答案是王子30岁,公主40岁)。
陈说,[新]模型正在学习独立思考,而不是像传统的大语言模型那样试图模仿人类的思考方式。
OpenAI 表示,其新模型在许多问题集上的表现明显更好,包括专注于编码、数学、物理、生物和化学的问题集。据该公司称,在针对数学学生的美国数学邀请赛 (AIME) 测试中,GPT-4o 平均解决了 12% 的问题,而 o1 的正确率达到 83%。
新模型比 GPT-4o 慢,OpenAI 表示它并不总是表现得更好,部分原因是与 GPT-4o 不同,它无法搜索网络,也不是多模态,这意味着它无法解析图像或音频。
提高LLM的推理能力一段时间以来一直是研究界的热门话题。事实上,竞争对手也在追求类似的研究方向。7 月,Google 发布了 AlphaProof,这是一个将语言模型与强化学习相结合的项目,用于解决困难的数学问题。
AlphaProof 能够通过查看正确答案来学习如何推理数学问题。扩大这种学习的一个关键挑战是模型可能遇到的所有问题都没有正确的答案。Chen 表示 OpenAI 已经成功构建了一个更加通用的推理系统。我确实认为我们已经在这方面取得了一些突破;“我认为这是我们优势的一部分,”陈说。它实际上相当擅长跨所有领域的推理。
斯坦福大学教授诺亚·古德曼(Noah Goodman)发表了有关提高大语言模型推理能力的论文,他表示,更通用的培训的关键可能涉及使用精心提示的语言模型和手工制作的数据进行培训。他补充说,能够始终如一地以结果速度换取更高的准确性将是一个很好的进步。
麻省理工学院助理教授 Yoon Kim 表示,大语言模型如何解决问题目前仍然有些神秘,即使他们进行逐步推理,也可能与人类智力存在重大差异。随着该技术得到更广泛的应用,这一点可能至关重要。他说,这些系统可能会做出影响很多人的决定。更大的问题是,我们是否需要对计算模型如何做出决策充满信心?
OpenAI 今天推出的技术也可能有助于确保 AI 模型表现良好。穆拉蒂表示,新模型已经证明,它能够通过推理其行为的结果,更好地避免产生令人不快或可能有害的输出。她说,如果你考虑教育孩子,一旦他们能够推理出为什么要做某件事,他们就会更好地学习如何遵守某些规范、行为和价值观。
华盛顿大学名誉教授、著名人工智能专家 Oren Etzioni 表示,让大语言模型能够参与多步骤问题解决、使用工具和解决复杂问题至关重要。他补充道,单纯扩大规模并不能实现这一点。然而,埃齐奥尼表示,未来还存在进一步的挑战。即使推理得到解决,我们仍然会面临幻觉和事实的挑战。
OpenAIs Chen 表示,该公司开发的新推理方法表明,先进的人工智能不需要花费大量的计算能力。他说,该范例的令人兴奋的事情之一是我们相信它将使我们能够以更便宜的价格运送情报,而且我认为这确实是我们公司的核心使命。