在Openai的任务中，AI为您做任何事情|TechCrunch

亨特·莱特曼（Hunter Lightman）于2022年加入Openai后不久，他观看了他的同事推出Chatgpt，这是有史以来增长最快的产品之一。同时，Lightman悄悄地工作了一个教授OpenAi模型来解决高中数学比赛的团队。

如今，该团队被称为Mathgen，被认为是Openai行业领先的努力，以创建AI推理模型：AI代理背后的核心技术，可以像人类一样在计算机上执行任务。

Lightman告诉TechCrunch，描述了Mathgen的早期工作，我们正试图使数学推理的模型变得更好，在数学推理方面，它们擅长于数学推理。”

Openai的型号远非当今公司的最新AI系统远远不够完美仍然幻觉及其代理商在复杂的任务中挣扎。

但是它的最先进模型在数学推理方面有了显着改善。Openai的模型之一最近赢得了金牌在国际数学奥林匹克运动会上，这是一项针对世界上最聪明的高中学生的数学竞赛。Openai认为，这些推理能力将转化为其他主题，并最终成为公司一直梦想建筑的通用代理。

Chatgpt是一次幸福的事故 - 低调的研究预览转变为病毒式消费者业务，但Openai的代理商是公司内部经过多年刻意的努力的产物。

Openai首席执行官Sam Altman说，最终，您只会向计算机询问您的需求，这将为您完成所有这些任务。”第一开发人员会议在2023年。这些功能经常在AI领域作为代理商进行讨论。这将是巨大的。

TechCrunch活动

旧金山 | 10月27日至29日，2025年

OpenAI CEO Sam Altman speaks during the OpenAI DevDay event on November 06, 2023 in San Francisco, California. — OpenAI首席执行官Sam Altman在2023年11月6日在加利福尼亚州旧金山举行的OpenAi Dev Day Day活动中发表讲话。**图片来源：**贾斯汀·沙利文 /盖蒂图像

特工是否会遇到Altman的愿景还有待观察，但Openai通过发布而震惊了世界它的第一个AI推理模型O1，在2024年秋天。不到一年后，这一突破背后的21个基础研究人员是硅谷最受欢迎的人才。

马克·扎克伯格招募五名O1研究人员致力于以Meta的新型超级智能设备为基础，提供了1亿美元以北的一些薪酬套餐。其中一个，Zhao，最近命名Meta超级智能实验室的首席科学家。

增强学习复兴

OpenAI推理模型和代理的兴起与称为强化学习（RL）的机器学习训练技术相关。RL提供了AI模型的反馈，内容涉及在模拟环境中其选择是否正确。

RL已使用数十年。例如，2016年，大约在2015年Openai成立的大约一年后，由Google DeepMind使用RL创建的AI系统，Alphago在棋盘游戏中击败世界冠军后，GO。

在2016年3月13日在韩国首尔举行的Google Deepmind Challenge比赛中，韩国专业GO GO Player Lee Se-Dol（R）为他与Google的人工智能计划Alphago的第四场比赛做准备。Lee Se-Dol与Google Alphago开发的计算机程序进行了五场比赛。（Google通过Getty Images摄影）

大约在那个时候，Openai的一位员工之一Andrej Karpathy开始思考如何利用RL来创建可以使用计算机的AI代理。但是OpenAI需要数年的时间才能开发必要的模型和培训技术。

到2018年，Openai在GPT系列中开创了其首个大型语言模型，并根据大量的互联网数据和大量的GPU进行了预算。GPT模型在文本处理方面表现出色，最终导致了Chatgpt，但在基本数学上挣扎。

直到2023年，Openai才能实现一个突破，最初被称为Q*，然后是草莓，通过将LLMS，RL和一种称为测试时间计算的技术结合在一起。后者为模型提供了额外的时间和计算能力来计划和解决问题，验证其步骤，然后再提供答案。

这使Openai能够引入一种称为“思考链”（COT）的新方法，该方法改善了AI在数学问题上的表现。

我可以看到该模型开始推理。” El Kishky说。它会注意到错误和回溯，会感到沮丧。真的感觉就像读一个人的想法。

尽管这些技术是单独的，但Openai独特地将它们组合在一起以创建草莓，这直接导致了O1的发展。Openai很快确定，AI推理模型的计划和事实检查能力可能对AI代理有用。

Lightman说：``我们解决了一个问题。这是我研究生涯中最激动人心的时刻之一。

扩展推理

通过AI推理模型，OpenAI确定它具有两个新轴，可以改善AI模型：在AI模型的培训后使用更多的计算能力，并在回答问题时为AI模型提供更多的时间和处理能力。

Lightman说：“作为一家公司，Openai不仅考虑了事情的思考，而且要扩大事物的方式。”

两位消息人士告诉TechCrunch，在2023年的草莓突破突破后不久，Openai派出了由OpenAI研究员Daniel Selsam领导的一支代理商团队，以进一步取得这种新范式。尽管该团队被称为“代理商”，但Openai最初并没有区分我们今天想到的推理模型和代理商。该公司只是想制造能够完成复杂任务的AI系统。

最终，Selsam的代理团队的工作成为开发O1推理模型的更大项目的一部分，包括OpenAI联合创始人Ilya Sutskever，首席研究官Mark Chen和首席科学家Jakub Pachocki在内的领导者。

Ilya Sutskever, Russian Israeli-Canadian computer scientist and co-founder and Chief Scientist of OpenAI. — 俄罗斯以色列加拿大计算机科学家兼Openai的联合创始人兼首席科学家Ilya Sutskever于2023年6月5日在特拉维夫的特拉维夫大学发表讲话（Jack Guez / AFP摄影）**图片来源：**盖蒂图像

Openai将不得不转移宝贵的资源 - 主要是人才和GPU来创建O1。在整个Openai历史上，研究人员不得不与公司领导人进行谈判以获得资源；展示突破是确保他们确保的肯定方法。

Lightman说：'Openai的核心组成部分之一是，研究中的所有内容都是底层的。”•当我们向[O1]的证据展示时，公司就像，这是有道理的，让我们推进它。”

一些前员工说，开发AGI的创业公司的使命是实现AI推理模型突破的关键因素。通过专注于开发最聪明的AI模型，而不是产品，OpenAI能够优先考虑O1优先于其他努力。在竞争AI实验室中，对想法的大量投资始终是不可能的。

尝试新培训方法的决定被证明是有先见之明的。到2024年底，几个领先的AI实验室开始看到回报减少关于通过传统预刻板缩放创建的模型。如今，AI领域的许多动力都来自推理模型的进步。

AI的原因是什么意思？

在许多方面，人工智能研究的目标是用计算机重新创建人类智能。自O1推出以来，Chatgpt的UX充满了更具人为的特征，例如思维和推理。

当被问及Openai的模型是否真正是推理时，El Kishky对冲，说他在计算机科学方面考虑了这个概念。

我们教导模型如何有效地消耗计算以获取答案。因此，如果您以这种方式定义它，是的，这是推理的，” El Kishky说。

Lightman采取了专注于模型结果的方法，而不是与人类大脑的手段或关系。

屏幕上的OpenAi徽标在他们的开发日期舞台上。（信用：Devin Coldeway）图片来源：德文·科尔维（Devin Coldewey）

``如果模型正在做艰难的事情，那么它正在执行任何必要的推理近似，为此做到这一点。” Lightman说。我们可以称其为推理，因为它看起来像这些推理痕迹，但这只是试图制造对许多人真正强大且有用的AI工具的代理。”

Openai的研究人员指出，人们可能会不同意其命名法或推理的定义，并且可以肯定批评家出现了但是他们认为，这不如其模型能力重要。其他AI研究人员倾向于同意。

非营利性AI2的AI研究人员内森·兰伯特（Nathan Lambert）将AI推理模式与A中的飞机进行了比较博客文章。他说，这两者都是受自然启发的人类推理和鸟类飞行启发的人造系统，但它们通过完全不同的机制运行。这不会使它们变得不那么有用，也不会使能够实现相似结果的能力。

一群来自OpenAI，Anthropic和Google DeepMind的AI研究人员在最近的一个位置纸当今的AI推理模型还没有很好地理解，需要更多的研究。现在可以自信地声明内部发生的事情还为时过早。

下一个前沿：主观任务的AI代理

当今市场上的AI代理最适合定义明确的，可验证的域，例如编码。Openai法典代理旨在帮助软件工程师卸载简单的编码任务。同时，人类模型已经变得特别受欢迎的在光标和克劳德代码等人工智能编码工具中 - 这些是人们愿意的第一个AI代理商付款。

但是，像Openai这样的通用AI代理商chatgpt代理和困惑彗星与许多人们想要自动化的复杂，主观任务斗争。在尝试使用这些工具进行在线购物或寻找长期停车位时，我发现代理商花费的时间比我喜欢的时间更长愚蠢的错误。

当然，代理是无疑会改善的早期系统。但是研究人员必须首先弄清楚如何更好地培训基础模型以完成更主观的任务。

AI应用程序（乔纳森·拉阿（Jonathan Raa/Nurphoto）通过盖蒂图像照片）

Lightman说，就像机器学习中的许多问题一样，这是一个数据问题，当被问及主观任务的局限性时。我现在真的很兴奋的一些研究正在弄清楚如何培训较少可验证的任务。我们有一些有关如何做这些事情的线索。

OpenAI研究员Noam Brown帮助创建了IMO模型，O1告诉TechCrunch，Openai拥有新的通用RL技术，使他们能够教授AI模型技能，这些技能可以轻松验证。他说，这就是该公司建立在IMO获得金牌的模型的方式。

Openai的IMO模型是一个较新的AI系统，可产生多个代理，然后同时探索几个想法，然后选择最佳的答案。这些类型的AI模型变得越来越流行。谷歌和xai最近使用此技术发布了最先进的模型。

布朗说：``我认为这些模型将在数学上变得更有能力，而且我认为它们在其他推理领域也会更有能力。”进度非常快。我没有看到任何理由认为它会放慢脚步。

这些技术可能有助于Openai的模型变得更加性能，可以在公司即将推出的GPT-5模型中出现的收益。Openai希望通过GPT-5的推出来维持其对竞争对手的主导地位，理想情况下提供最佳AI模型向开发人员和消费者提供电源代理。

但是该公司还希望使其产品更简单。El Kishky说，Openai希望开发AI代理，这些AI代理可以直观地了解用户的需求，而无需他们选择特定的设置。他说，OpenAI的目标是建立AI系统，以了解何时调用某些工具以及有理由的时间。

这些想法描绘了Chatgpt的最终版本的图片：可以在互联网上为您完成任何事情的代理商，并了解您希望它如何完成。这与今天的Chatgpt有很大不同的产品，但是公司的研究正朝着这个方向发展。

尽管Openai无疑领导了几年前的AI行业，但该公司现在面临着一群值得的对手。问题不再仅仅是Openai是否可以实现其代理未来，但是公司可以在Google，Anthropic，XAI或Meta击败他们之前这样做吗？

OC

在Openai的任务中，AI为您做任何事情|TechCrunch

增强学习复兴

扩展推理

AI的原因是什么意思？

下一个前沿：主观任务的AI代理

关于《在Openai的任务中，AI为您做任何事情|TechCrunch》的评论

发表评论

摘要

相关新闻

相关讨论