英语轻松读发新版了,欢迎下载、更新

亚马逊押注代理商赢得AI比赛

2025-08-21 14:00:00 英文原文

作者:Alex Heath

你好,欢迎来到解码器呢这是亚历克斯·希思(Alex Heath边缘。如今,人工智能中最大的话题之一是特工 - AI将从聊天机器人转变为现实世界中为我们完成任务的想法。但是,代理商的问题在于他们现在确实如此可靠。

人工智能行业正在进行许多工作来解决这个问题,这使我今天给我的客人:戴维·卢恩(David Luan)亚马逊的AGI研究实验室。我一直想和大卫聊天很长时间。他是OpenAI的早期研究领袖,在那里他帮助推动了GPT-2,GPT-3和DALL-E的发展。Openai之后,他与AI研究实验室共同创立了Adept,该实验室专注于代理商。去年夏天,他离开了熟练的加入亚马逊,现在他在那里领导了旧金山公司的Agi实验室。

我们在Openai的GPT-5发行后立即录制了这一集,这使我们有机会谈论他为什么认为AI模型的进度放慢了。戴维(David)团队所做的工作是亚马逊的重中之重,这是我第一次听到他确实列出了他的所作所为。

我也不得不问他如何他加入了亚马逊。大卫决定离开熟练的决定是我称之为倒数的众多交易中的首先,其中一家大型科技公司全能地购买了一家嗡嗡的AI初创公司,以避免反托拉斯的审查。我不想破坏太多,但是让我们只是说,大卫去年离开了大型科技创业界,因为他说他知道AI竞赛的前进方向。我认为这使他对接下来值得聆听的事情做出了预测。

这次采访经过了详细的编辑。

大卫,欢迎参加演出。

非常感谢您让我继续前进。我真的很高兴来到这里。

有你很棒。我们有很多要谈的。这些天,我对您和您的团队在亚马逊的工作非常感兴趣。但是首先,我认为听众可以从听到有关您和您的历史的一些信息以及您如何到达亚马逊,因为您在AI空间中持续了很长时间,而且您的职业生涯很有趣,因此您的职业生涯很有趣。您能引导我们经历AI的一些背景,以及您如何在亚马逊的最终?

首先,我发现任何人都会说我很长一段时间都在野外,这绝对很有趣。从相对角度来看,这是事实,因为这个领域是如此新,但是,尽管如此,在过去的15年中,我只是在做AI的工作。因此,与许多其他领域相比,这还不长。

好吧,15年是AI年的永恒。

这是AI年的永恒。我记得当我刚开始在该领域工作时。我在AI上工作只是因为我认为这很有趣。我认为有机会建立可以像人类一样思考的系统,理想情况下,提供超人的表现,是一件很酷的事情。我不知道它会以它的方式炸毁。

但是我的个人背景,让我们看看。从2017年到2020年中,我领导了OpenAI的研究和工程团队,我们在那里进行了GPT-2和GPT-3,以及剪辑和DALL-E。每天都很有趣,因为您会露面,这只是您最好的朋友,您都在尝试一堆非常有趣的研究想法,而现在没有任何压力。

然后,在那之后,我在Google上领导了LLM的努力训练了一个名为Palm的模型,这是一个很强的模型。但是此后不久,我们中的许多人都陷入了各种初创企业,而我和我的团队最终成为了Adept。这是第一个AI代理启动。我们最终有效地发明了计算机使用代理。事先进行了一些良好的研究。我们拥有第一个准备生产的代理商,大约一年前,亚马逊带我们去跑步代理商。

太好了,我们将进入亚马逊的所做的事情。但是首先,考虑到您的Openai经验,我们现在不到一周释放GPT-5。我很乐意听到您反思该模型,GPT-5对该行业的看法以及您看到它时的想法。我相信您仍然有Openai的同事。但是,该释放意味着什么?

我认为这确实意味着高水平的成熟度。实验室都弄清楚了如何可靠地胶带越来越更好的模型。我一直竖起的一件事是,作为边境模型实验室的工作不是训练模型。您作为边境模型实验室的工作是建立一家反复淘汰模型越来越好的工厂,这实际上是如何取得进步的一种截然不同的理念。在i-Build-a-a-a-better模型路径中,您要做的就是考虑一下,让我进行此调整。让我进行此调整。让我尝试向人们倾斜以获得更好的发行。”

如果您从模型工厂的角度关心它,那么您实际上要做的就是试图弄清楚如何构建所有系统,流程和基础架构以使这些事情变得更加聪明。但是,随着GPT-5发行版,我认为我发现最有趣的是,如今的许多边境模型都在融合功能。我认为,在某种程度上,有一个解释说,我在Openai的一位老同事Phillip Isela,他现在是麻省理工学院的教授,他想到了柏拉图表示假设。您听说过这个假设吗?

不。

因此,柏拉图代表假说是这个想法,类似于柏拉图的洞穴寓言,这确实是一个现实。但是,作为人类,我们只看到对现实的特殊渲染,就像柏拉图洞穴中的墙上的阴影一样。LLMS也是如此,这是通过他们提供的培训数据来看到这一现实的切片。

因此,例如,每一个YouTube的YouTube视频,例如,有人在树林中进行自然行走,最终都是由我们所生活的实际现实产生的。当您越来越多的数据训练这些LLM时,LLMS变得更聪明,更聪明,他们都融入了​​我们所有人都拥有的这一现实。因此,如果您相信这一假设,您还应该相信,所有LLM都会融合到世界同一模型。我认为这实际上是在看到Frontier Labs提供这些模型的实践中发生的。

好吧,有很多事情。我也许建议,行业中的许多人不一定相信我们生活在一个现实中。当我参加上一次Google I/O开发人员会议时,联合创始人Sergey Brin和Google Deepmind首席Demis Hassabis在舞台上,他们两者似乎都相信我们存在多种现实。因此,我不知道这是您多年来在社交界或工作圈中遇到的事情,但并非AI中的每个人都一定相信,对吗?

[笑]我认为热门的薪水高于我的薪水等级。我确实认为我们只有一个。

是的,我们有太多要覆盖的。我们可以陷入多种现实。但是,就所有融合而言,您的观点确实感觉好像已经开始变得不再重要了,并且模型中的实际改进正在商品化。每个人都达到同一观点,GPT-5将在LMARENA上是最好的几个月,直到Gemini 3.0出来或其他等等,等等。

如果情况是这样,我认为该版本也表明的是,可能真正开始重要的是人们如何实际使用这些东西,以及他们对它们的感觉和依恋。就像Openai决定将其4O模型带回,因为人们对它的字面依恋是他们所感受到的。Reddit上的人们一直在说,就像我最好的朋友被带走了一样。

因此,确实没有更好的编码,或者在写作方面更好。现在是你的朋友。那是怪异的。但是我很好奇。当您看到它并看到对GPT-5的反应时,您是否预测了这一点?您是否看到我们是那样的,还是对每个人来说都是新事物?

2020年在Google上有一个名为Lamda或Meena的项目,该项目基本上是Chatgpt之前的Chatgpt,但仅适用于Google员工。即使在那时,我们也开始看到员工开发对这些AI系统的个人依恋。人类非常擅长拟人化。因此,我很惊讶地看到人们用某些模型检查站形成了债券。

但是我认为,当您谈论基准测试时,对我来说突出的是基准测试真正的全部目的,在这一点上,这只是人们正在学习考试。我们知道基准提前是什么。每个人都想发布更高的数字。就像早期数码相机时代的百万像素战争一样。他们显然不再重要了。他们与这件事的实际拍照有多么宽松的相关性。

我认为这个问题,以及我所看到的领域缺乏创造力,归结为Agi不仅仅是聊天。这不仅仅是代码。这些恰好是我们都知道这些模型非常好工作的前两个用例。还有更多有用的应用程序和基本模型功能,人们甚至还没有开始弄清楚如何衡量。

我认为现在要问的更好的问题是您是否想在现场做有趣的事情是:我应该真正运行什么?为什么我要花更多的时间在创意写作方面变得更好?为什么我要花时间在国际数学奥林匹克运动会上尝试使这种模型X的百分比变得更好?当我想到让我和真正专注于这个代理商的愿景的人们的事情时,它希望解决比到目前为止人们所做的更大的问题。

这使我进入了这个话题。我打算稍后问一下。但是,您可以在亚马逊运行AGI研究实验室。我对Agi对亚马逊有什么意义有很多疑问,但是我首先对您感到好奇,当您在OpenAi时,Agi对您意味着什么,帮助您将GPT置于地面上,现在对您意味着什么?这个定义是否为您改变了?

好吧,我们对AGI的开放定义是一个可以在经济上有价值的任务上胜过人类的系统。虽然我认为这是一个有趣的,几乎在2018年,几乎是末日的北极星,但我认为作为一个领域,我们已经超越了这一点。我每天都会让我兴奋的是,我如何在经济上有价值的任务中取代人类,而是我最终如何为每个知识工作者建立一个普遍的队友。

让我继续前进的是,如果我们有AI系统最终可以将您每天执行的大部分执行委托给您的时间,那么我们可以给人类提供的巨大杠杆作用。因此,我对AGI的定义非常容易,并且非常专注于帮助人们 - 作为第一个最重要的里程碑,它会导致我说我们基本上是在那里 - 一个模型可以帮助人类在计算机上做任何他们想做的事情。

我喜欢那个。实际上,这比我听到的许多东西更具体和扎根。它还显示了每个人对AGI含义的不同感受。我只是在与Sam Altman的新闻发布会上进行GPT-5发射,他说他现在认为Agi是可以自我爆发的典范。也许这与您说的话有关,但这听起来好像您在实际用例中将其扎根。

好吧,我看的是自我完善的方式很有趣,但是到底是什么,对吗?为什么作为人类,我们为什么在乎AGI是否在自我改善?我个人不在乎。我认为从科学家的角度来看,这很酷。我认为更有趣的是,如何构建这种超级通用技术的最有用形式,然后能够将其放在每个人的手中?而且我认为给人们巨大的杠杆作用的事情是,如果我能教导这个代理商,我们需要接受培训来处理我需要在计算机上完成的任何有用任务,因为这些天我们的一生中大部分时间都在数字世界中。

因此,我认为这是非常可行的。回到我们关于基准测试的讨论,这一事实非常关心MMLU,MMLU-PRO,人类的上次考试,AMC 12等,我们不必生活在Agi的盒子里。您的机器上有多少个可行?这些代理如何为您做它们?

因此,可以肯定地说,对于亚马逊来说,阿吉(Agi)的意思不仅仅意味着我为我购物,这是我要对Agi对亚马逊的含义的愤世嫉俗的笑话。我很想回到您加入亚马逊时,您正在与管理团队和安迪·贾西(Andy Jassy)交谈,以及今天,你们一直在谈论AGI的战略价值,因为您广泛地为亚马逊定义了AGI。亚马逊是很多事情。这确实是一个做很多不同事情的公司的星座,但是这个想法却削减了所有这些,对吗?

我认为,如果您从计算的角度看它,那么到目前为止,计算的构件已经是:我可以在云中的某个地方租用服务器吗?我可以租用一些存储空间吗?我可以编写一些代码以将所有这些事情挂起来并为一个人提供有用的东西吗?计算的基础正在发生变化。在这一点上,代码由AI编写。在线,实际情报和决策将由AI完成。

那么,您的构建块会怎样?因此,在那个世界中,对于亚马逊来说,要特别解决代理问题的良好问题非常重要,因为代理将成为计算机的原子构建块。如果这是真的,我认为这是如此之多的经济价值将被解锁,并且它确实与亚马逊已经在云方面拥有的优势保持良好,并将荒谬的基础设施及其所有这些融合在一起。

我知道你在说什么。我认为很多人在听这句话,即使是从事技术工作的人,也从概念上理解代理商是行业的发展方向。但是我敢猜测,这次对话的绝大多数听众都从未使用过代理商,也没有尝试过,这也没有工作。我几乎要说这是现在的土地。您将成为代理商的最佳例子,这是事物前进以及我们可以期望的最好的例子?您可以指出什么吗?

因此,我觉得所有一遍又一遍地被告知代理商是未来的人,然后他们去尝试这件事,这根本不起作用。因此,让我尝试举一个例子,说明代理商的实际承诺与他们今天对我们的推销方式有关。

目前,他们向我们推销的方式在大多数情况下只是一个聊天机器人,有额外的步骤,对吗?就像X公司不想将人类客户服务代表放在我面前,所以现在我必须去聊天机器人交谈。也许在幕后它单击一个按钮。或者,您正在使用一种可以在浏览器上帮助我使用的计算机使用产品的产品,但实际上它需要四倍的时间,而其中三倍则拧紧。这是当前代理商的景观。

让我们以一个具体的例子:我想做一项特定的药物发现任务,我知道有一个受体,我需要能够找到最终与该受体约束的东西。如果您今天拉起Chatgpt,并且与之讨论了这个问题,那将要找到所有的科学研究,并给您写出完美格式的宣传片,以了解受体的作用,也许是您想尝试的某些事情。

但这不是代理人。在我的书中,一个代理是一个模型和系统,您可以从字面上挂上湿实验室,并且它将使用该实验室中的每一款科学机械,阅读所有文献,提出正确的下一个实验,进行实验,请参阅结果,请参阅该结果,请参阅该结果,请重新尝试,直到cetera,直到为您实现目标。给您杠杆的程度是如此,因此,比目前能够做到的领域要高得多。

但是,您是否同意,大型语言模型以及决策和执行事物的固有限制?当我看到LLM,即使仍然是边境的人,仍然是幻觉,弥补和自信地说谎时,想到将这项技术置于现在我要求它去现实世界中的某种构造中,例如与我的银行帐户,船舶代码,船舶代码,或在科学实验室中工作,这真是令人恐惧。

当Chatgpt可以正确地拼写时,这并不觉得我们将要获得的未来。所以,我想知道,是LLMS,还是在这里还有更多要做?

因此,我们从一个主题开始,即这些模型如何越来越多地融合功能。虽然对LLM的真实情况,但我认为迄今为止,对于代理商来说,这是正确的,因为您应该训练代理商的方式和训练LLM的方式截然不同。众所周知,使用LLMS,他们的大部分培训都是出于下一步的预测而发生的。我在互联网上有一个巨大的语料库,让我尝试预测下一个单词。如果我得到下一个词的正确性,那么我会得到积极的回报,如果我错了,那我就会受到惩罚。但是,实际上,实际上发生的事情是我们在现场称为行为克隆或模仿学习。这与货物崇拜, 正确的?

LLM永远不会了解为什么下一个单词是正确的答案。它所了解到的是,当我看到与以前的单词相似的东西时,我应该去说一个特定的下一个单词。因此,此问题是这非常适合聊天。这非常适合您想要一些幻觉中的混乱和随机性的创造性案例。但是,如果您希望它是一个真正的成功决策代理,那么这些模型就需要学习真正的因果机制。这不仅是克隆人类的行为;实际上是在学习X,其结果是Y。所以问题是,我们如何培训代理,以便他们可以学习其行为的后果?显然,答案不仅不能只是做更多的行为克隆和复制文本。它必须是现实世界中实际反复试验的东西。

这基本上是我们在亚马逊小组中所做的研究路线图。我的朋友安德烈·卡尔帕蒂(Andrej Karpathy)在这里有一个很好的比喻,这是想象您必须训练一个经纪人去打网球。您不会花99%的时间观看网球的YouTube视频,然后实际上打网球的时间中有1%。在这两个活动之间,您将拥有更加平衡的东西。因此,我们在亚马逊的实验室里做的是大规模的自我播放。如果您还记得的话,自我播放的概念是DeepMind在2010年代中期真正流行的技术它击败了人类玩

因此,对于Go Go,DeepMind所做的就是旋转一个模拟的GO环境,然后使模型一遍又一遍地发挥自己的作用。每当发现一种更好地击败先前版本的策略时,它将通过强化学习有效地获得积极的回报,以便将来做更多的策略。如果您在Go Simulator上对此花费了很多计算,它实际上发现了如何玩游戏的超人策略。然后,当它扮演世界冠军时,它做出了以前从未见过的动作,并为整个领域的最新状态做出了贡献。

我们要做的是,而不是进行更多的行为编码或观看YouTube视频,而是创建一组巨大的RL [强化学习]体育馆,例如,这些体育馆中的每个体育馆都是知识工作者可能正在努力做有用的环境。因此,这是Salesforce这样的版本。这是像企业资源计划一样的一种版本。这里是计算机辅助设计程序。这是一个电子病历系统。这里的会计软件。这是作为模拟器可能知识工作的每个有趣的领域。

现在,我们没有训练LLM只是为了做技术工作,而是让模型实际上在这些不同的模拟器中的每个模拟器中都提出了一个目标,因为它试图解决该问题并弄清楚它是否成功解决。然后,它得到了奖励,并根据我的折旧做出了正确的反馈?每次这样做时,实际上了解其行动的后果,我们认为这是实际AGI剩下的很大的缺失作品之一,我们现在确实在亚马逊上扩大了这个食谱。现在,这种方法在行业中的独特性有多独特?

您是否认为其他实验室也是如此?如果您谈论它,我会认为。

我认为有趣的是这个领域。最终,我认为,您必须能够做到这样的事情,以超越互联网上有限的自由浮动数据,您可以训练模型。我们在亚马逊上做的事情是,因为这源于我们在Adept和Adept做的代理商已经做了这么长时间,我们比其他所有人都更关心这种问题的方式,而且我认为我们在这一目标方面取得了很多进步。

您打电话给这些体育馆,我在想体育馆,一秒钟。这会成为体育体育馆吗?您有机器人技术的背景,对吗?

这是一个很好的问题。我以前也做过机器人技术。在这里,我们也有彼得·阿贝尔(Pieter Abbeel),谁来自协变并且是伯克利教授的学生最终创建了当今运行良好的大多数RL算法。您说体育馆很有趣,因为我们试图为这项工作找到一个内部代码名称。我们踢了Equinox和Barry的训练营以及所有这些东西。我不确定每个人都有相同的幽默感,但我们称他们为健身房,因为在Openai,我们有一个非常有用的早期项目Openai体育馆

这是在LLM是一回事之前。Openai Gym是视频游戏和机器人技术任务的集合。例如,您能否平衡推车上的杆子,并且可以训练可以使该物体完全以居中为中心的RL算法等。我们受到启发要问的是,现在这些模型足够聪明,为什么要做类似的玩具?为什么不将人类在计算机上执行的实际有用任务放入这些体育馆中,并让模型从这些环境中学习?我不明白为什么这也不会概括为机器人技术。

该代理的框架系统是通过AWS部署的末端状态吗?

所有这些的结局状态是一个模型加上岩石可靠的系统,例如在计算机上完成的各种有价值的知识工作任务,例如99%的可靠,可靠。这将是我们认为这将是AWS的一项服务,将来将有效地支持许多有用的应用程序。

我做了一个最近的解码器与困惑首席执行官Aravind Srinivas的情节,关于他的彗星浏览器。消费者方面的许多人认为,浏览器界面实际上将是进入消费者方面的代理商的方式。

我很好奇你对此的看法。这个想法是只有一个聊天机器人,您确实需要聊天或任何型号,坐在浏览器旁边,查看网页,为您采取行动并从中学习。那是所有这些都在消费者方面的地方吗?

我认为聊天机器人绝对不是长期的答案,或者至少不是聊天机器人,如果您想构建为您采取行动的系统,我们今天对它们的思考。我对此的最好类比是:我的父亲是一个非常善良,聪明的家伙,他的职业生涯大部分时间都在工厂工作。他一直打电话给我寻求技术支持帮助。他说,戴维,我的iPad出了问题。您必须为我提供帮助。我们只是通过电话做这件事,我可以看到屏幕上的屏幕上的内容。所以,我想弄清楚,哦,您是否打开了设置菜单?您是否点击了此事?这个切换的情况是怎么回事?聊天是如此低的带宽接口。这是试图完成动作的聊天经验,另一方面是一个非常有能力的人,试图为您处理事情。

因此,坦率地说,在我看来,在AI中,最大的丢失作品之一是我们缺乏产品形式的创造力。我们习惯于思考,人类与AIS之间的正确界面是这种垂直的一对一互动,我在其中委派了某些东西,或者是给我一些新闻,或者我问您一个问题,等等。我们总是错过的真实事物之一是这种平行的交互,用户和AI实际上都有共同的帆布,他们共同合作。我认为,如果您真的考虑为知识工作者甚至是世界上最聪明的个人助理建立队友,那么您将想生活在一个为你们两个人共享的合作画布的世界中。

说到合作,我真的很好奇您的团队如何与亚马逊其他地区合作。您是否从所有事物中脱颖而出?你工作吗诺瓦,亚马逊的基础模型?您如何与亚马逊其他地区互动?

亚马逊在这里所做的事情做得很好,这使我们能够独立运行。我认为,现在有一些初创企业DNA在最大速度方面确实很有价值。如果您认为阿吉(Agi)距离两到五年,有些人变得越来越看涨,有些人会变得更加看跌。没关系。在宏伟的计划中,这并不多。您需要非常非常快地移动。因此,我们得到了很多独立性,但是我们也采用了我们在Nova Foundation模型上游构建并贡献了很多的技术堆栈。

例如,您的工作已经影响Alexa Plus?还是您在任何方面都不是一部分?

这是一个很好的问题。Alexa Plus具有例如,如果您的厕所休息,您会喜欢,啊,伙计,我真的需要一个水管工。Alexa,您能给我一名水管工吗?Alexa Plus然后旋转由我们的技术提供动力的远程浏览器,然后像人类一样使用Thumbtack,然后像人类一样,将水管工带到您的房子,我认为这真的很酷。如果我没记错的话,这是第一个发货的生产网络代理。

早期对Alexa Plus的回应一直是Alexa的巨大飞跃,但仍然很脆弱。仍然有不可靠的时刻。我想知道,这是真正的体育馆吗?这是Alexa plus的阶级健身房,您的系统如何更快地获得可靠的速度?您必须将其用于生产并部署到...我的意思是,Alexa拥有数百万个设备。那是策略吗?因为我敢肯定,您会看到对Alexa Plus的较早反应是更好的,但仍然不像人们想要的那样可靠。

Alexa Plus只是我们拥有的众多客户之一,在亚马逊内部真正有趣的是,回到我们之前谈论的内容,Web数据实际上已经用完了,这对培训代理人也不有用。实际上,对于培训代理商来说,有用的是很多环境,还有很多人在做可靠的多步工作流。因此,亚马逊有趣的是,除了Alexa Plus,基本上,某些内部亚马逊团队以某种方式代表了所有《财富500强》的业务。有一项医学,供应链上发生了一切,零售方面发生了所有这些医疗,所有这些面向开发人员的东西都在AWS上。

代理商将需要许多私人数据和私人环境才能接受培训。因为我们在亚马逊上,这就是现在的1p [第一方销售模式]。因此,他们只是我们可以获取可靠的工作流数据来培训更智能代理的众多方式之一。

您是否已经通过亚马逊的物流运营来进行此操作,您可以在仓库中进行工作,或者[通过]亚马逊正在从事的机器人工作?这已经与您的工作相交了吗?

好吧,我们真的很接近机器人方面的Pieter Abbeel群体,这真是太棒了。在其他一些领域,我们大力推动了亚马逊内代理的内部采用,因此许多对话或参与正在发生。

我很高兴你提出了。我打算问:今天亚马逊内部如何使用代理商?

因此,正如我们之前所说的那样,由于亚马逊几乎为知识工作的每个有用的领域都有内部努力,因此人们热情地掌握了许多这些系统。我们有一个称为的内部频道...我会告诉您它实际上叫什么。

这与我们正在建造的产品有关。看到来自亚马逊境内全球各地的团队真是太疯狂了,因为我们所拥有的主要瓶颈之一是我们在美国以外没有可用的一段时间,这真是太疯狂了,这真是太疯狂了,这真是个国际亚马逊团队想开始捡起它,然后在各种操作任务上使用它。

这是您所说的公正代理框架。这是您尚未公开发布的东西。

我们发布了Nova Act,这是3月发布的研究预览。但是,正如您可以想象的那样,从那以后,我们增加了更多的能力,而且确实很酷。我们一直做的是我们首先与内部团队一起使用狗食。

当你们发行Nova Act时,您的同事说,这是建造可以可靠使用浏览器的代理商的最毫无用处的方式。既然您将其推出,那么人们如何使用Nova Act?在我的日常工作中,我听说过的不是,但我认为公司正在使用它,我很想知道,自从您出来以来,你们已经得到了什么反馈。

因此,各种各样的企业和开发商正在使用Nova Act。而您之所以不会听到它的原因是我们不是消费产品。如果有的话,整个亚马逊代理商的策略,包括我以前在Adept上所做的事情,是在做Normcore代理,而不是三次中有1分的超级性感东西,而是超级可靠,低级的工作流程,其工作时间为99多。

因此,这就是目标。自从Nova Act问世以来,我们实际上有一堆不同的企业最终与我们部署了95%以上的可靠性。我敢肯定,您可以从那里的其他代理产品的覆盖范围看到,这是人们在这些系统中看到的平均60%可靠性的材料。我认为可靠性瓶颈是为什么您在该领域总体采用的代理人所采用的原因。

我们的运气真是太好了,特别是将极端的精力集中在可靠性上。因此,我们现在用于例如医生和护士注册。我们还有另一个名为Navan的客户,即以前是Tripactions,它基本上使用我们为其客户自动化了许多后端旅行预订。我们有基本上有93个步骤的QA工作流程的公司通过单个Nova ACT脚本自动化了这些公司。

我认为早期进展真的很酷。现在,即将到来的是,我们如何在一个极端的大规模自我播放上进行竞争,以进入RL特工时刻有点gpt的东西,而我们现在尽可能快地奔向。

您对此有视线吗?您认为我们从中呆了两年吗?一年?

老实说,我认为我们是一年。我们有视线。我们为特定问题的每个步骤建立了团队,事情才刚刚开始奏效。每天上班并意识到其中一支团队在那一天做出了一个很小但非常有用的突破,这真是真的很有趣,而我们为这个训练循环所做的整个周期似乎每天都会更快一些。

人们说,回到GPT-5,这是否预示了AI进度的放缓?而且我认为答案是100%,因为当一个S-Curve Peters淘汰时!第一个正在预处理时,我不认为这是毫无意义的,但肯定是在这一点上比以前变得更容易获得。然后,您获得了可验证的奖励。但是,每当这些S曲面中的一个似乎都会放慢一点时,另一个即将来临,我认为代理是下一个S曲线,而我们之前谈论的具体训练食谱是获得下一个巨大加速的主要方法之一。

听起来您和您的同事们已经确定了下一个行业将要采取的转折,这开始将Nova(如今存在)对我来说是更多的背景,因为Nova作为LLM,不是一个行业领先的LLM。它与克劳德,GPT-5或双子座的对话不同样。

Nova不是那么重要,因为您实际上是在与代理商谈论的事情,这会使Nova更加相关吗?还是重要的是Nova也是世界上最好的LLM?还是这不是思考的正确方法?

我认为正确考虑的方法是,每次您有一个新的新贵实验室试图加入AI游戏的前沿时,您都需要押注真正可以跨越的东西,对吗?我认为有趣的是,每次对这些模型的训练方式发生变化时,它都会为一个新的人开始使用新食谱来到餐桌上,而不是试图赶上所有旧食谱。

因为旧食谱实际上是现任者的行李。因此,在Openai上举了一些例子,当然,我们基本上开创了巨型模型。整个LLM的事情来自GPT-2,然后是GPT-3。但是最初,这些LLM是仅文本培训食谱。然后,我们发现了RLHF [从人类反馈中学习的强化学习],然后他们开始通过RLHF获取大量人类数据。

但是,在转到多模式输入的转换中,您必须丢弃您在文本世界中进行的许多优化,这给了其他人赶上。我认为这实际上是Gemini能够赶上Google bes的一部分 - 对Gemini的某些有趣的想法,这是Google的一部分。

之后,推理模型为人们提供了另一个机会。那就是为什么DeepSeek能够使世界惊讶,因为那支球队直接刺穿了这一点,而不是一路上的每一站。我认为,下一个转弯是代理商 - 尤其是没有可验证的奖励的代理商 - 如果我们在亚马逊,可以更早地找出该食谱,比其他所有人都更快,并且我们作为公司所拥有的所有规模都可以将我们带到边境。

我以前从未听说过这是从亚马逊阐述的。那真的很有趣。这很有意义。让我们以人才市场和初创企业的状态结束,以及您如何来到亚马逊。我想回去。因此,当您启动它时,这是第一个当时真正专注于代理商的初创公司吗?我以为我一直听说过代理商,直到我见到熟练。

是的,实际上,我们是第一个专注于代理商的初创公司,因为当我们开始熟练时,我们看到LLM确实擅长说话,但无法采取行动,我无法想象这个世界不是要解决的关键问题。因此,我们让每个人都专注于解决这个问题。

但是,当我们开始时,作为产品类别的代理一词甚至还没有创造。我们试图找到一个好的术语,我们玩了大型动作模型和动作变压器之类的东西。因此,我们的第一个产品称为Action Transformer。然后,只有在那之后,代理商才真正开始成为术语。

带我决定把它抛在脑后的决定和与大多数技术团队一起加入亚马逊。那对吗?

mm嗯。

我有一个短语。这是一个交易结构,现在已经与大型技术和AI初创公司变得普遍:反对ihire,基本上是您和您的联合创始人等核心团队加入的地方。公司的其余部分仍然存在,但是技术团队消失了。而且我知道这不是收购,而是收购方支付许可费,或为此付出的东西,股东赚钱。

但是,在大多数情况下,这家初创公司就可以弄清楚事情,而没有其创始团队。最近的例子是Google和Windsurf,然后有在此之前的元和缩放AI。这是我们一直在谈论的话题解码器很多。听众熟悉它。但是您是这些反向收购中的第一个。当您决定加入亚马逊时,请引导我完成。

因此,我希望在50年后,我想起更多是AI研究创新者,而不是交易结构创新者。首先,人类对智力的需求是方式,方式,高于供应量。因此,对于我们来说,作为一个领域,要投入荒谬的资金来建立世界上最大的群集,并将最佳人才聚集在一起,以推动这些集群,实际上是完全合理的,对吗?Because if you can spend an extra X dollars to build a model that has 10 more IQ points and can solve a giant new concentric circle of useful tasks for humanity, that is a worthwhile trade that you should do any day of the week.

因此,我认为所有这些公司都试图立即将批判性弥补和计算,这很有意义。From my perspective on why I joined Amazon, it’s because Amazon knows how important it is to win on the agent side, in particular, and that agents are a crucial bet for Amazon to build one of the best frontier labs possible.To get to the level of scale, you’re hearing all these CapEx numbers from the various hyperscalers.It’s just completely mind-boggling and it’s all real, right?It’s

超过3400亿美元的资本支出我认为,仅今年的一年才是最高的高度标准。It’s an insane number.

听起来很正确。在熟练的情况下,我们raised $450 million当时,这是一个非常大的数字。And then, today is...

It’s chump change now.

[Laughs] It’s chump change.

That’s one researcher.Come on, David.

[笑]是的,一位研究人员。That’s one employee.So if that’s the world that you live in, it’s really important, I think, for us to partner with someone who’s going to go fight all the way to the end, and that’s why we came to Amazon.

Did you foresee that consolidation and those numbers going up when you did the deal with Amazon?您知道它将变得越来越昂贵,不仅在计算上而且在人才上。

Yes, that was one of the biggest drivers.

为什么?What did you see coming that, at the time, was not obvious to everyone?

我看到两件事。第一,如果您想在智力的边界,则必须在计算的边界。而且,如果您不在计算的边界,那么您必须枢转和去做完全不同的事情。For my whole career, all I’ve wanted to do is build the smartest and most useful AI systems.So, the idea of turning Adept into an enterprise company that sells only small models or turns into a place that does forward-deployed engineering to go help you deploy an agent on top of someone else’s model, none of those things appealed to me.

I want to figure out, “Here are the four crucial remaining research problems left to AGI.How do we nail them?” Every single one of them is going to require two-digit billion-dollar clusters to go run it.How else am I — and this whole team that I’ve put together, who are all motivated by the same thing — going to have the opportunity to go do that?

If antitrust scrutiny did not exist for Big Tech like it does, would Amazon have just acquired the company completely?

I can’t speak to general motivations and deal structuring.Again, I’m an AI research innovator, not an innovator in legal structure.[笑]

你知道我必须问。但是,好的。Well, maybe you can answer this.这些正在发生的交易的二阶影响是什么,我认为将继续发生?对研究界的二阶影响,对创业社区的影响是什么?

我认为,这几天来改变了加入一家创业公司的人的微积分,知道这些交易发生了,可以发生,并带走您决定加入并打赌您的职业生涯的创始人或创始团队。That is a shift.在过去的几年中,对于硅谷来说,这是新事物。

Look, there’s two things I want to talk about.老实说,创始人起着非常重要的作用。创始人必须想真正照顾团队,并确保每个人都受到Pro Rata的对待,对吗?The second thing is, it’s very counterintuitive in AI right now, because there’s only a small number of people with a lot of experience.And because the next couple of years are going to move so fast, and a lot of the value, the market positioning, et cetera, is going to be decided in the next couple of years.

If you’re sitting there responsible for one of these labs, and you want to make sure that you have the best possible AI systems, you need to hire the people who know what they’re doing.因此,市场需求,这些人的定价实际上是完全合理的,仅仅是因为其中很少。

But the counterintuitive thing is that it doesn’t take that many years, actually, to find yourself at the frontier, if you’re a junior person.Some of the best people in the field were people who just started three or four years ago, and by working with the right people, focusing on the right problems, and working really, really, really hard, they found themselves at the frontier.

AI research is one of those areas where if you ask four or five questions, you’ve already discovered a problem that nobody has the answer to, and then you can just focus on that and how do you become the world expert in this particular subdomain?So I find it really counterintuitive that there’s only very few people who really know what they’re doing, and yet it’s very easy, in terms of the number of years, to become someone who knows what they’re doing.

How many people actually know what they’re doing in the world from your definition?这是我经常问的问题。I was literally just asked this on TV this morning.那里有多少人,他们实际上可以整体上建立和概念化培训边境模型?

我认为这取决于您想成为多么慷慨或紧张。I would say the number of people who I would trust with a giant dollar amount of compute to go do that is probably sub-150.

Sub-150?

是的。But there are many more people, let’s say, another 500 people or so, who would be extremely valuable contributors to an effort that was populated by a certain critical mass of that 150 who really know what they’re doing.

But for the total market, that’s still less than 1,000 people.

I’d say it’s probably less than 1,000 people.But again, I don’t want to trivialize this: I think junior talent is extremely important, and people who come from other domains, like physics or quant finance, or who have just been doing undergrad research, these people make a massive difference really, really, really fast.But you want to surround them with a couple of folks who have already learned all the lessons from previous training attempts in the past.

这群非常小的精英人士构建了固有设计用于取代他们的东西吗?也许您不同意这一点,但是我认为超级智能在概念上会使其中一些变成多余。Does it mean there’s actually fewer of them, in the future, making more money, because you only need some orchestrators of other models to build more models?还是该领域扩展?Do you think it’s going to become thousands and thousands of people?

The field’s definitely going to expand.There are going to be more and more people who really learn the tricks that the field has developed so far, and discover the next set of tricks and breakthroughs.But I think one of the dynamics that’s going to keep the field smaller than other fields, such as software, is that, unlike regular software engineering, foundation model training breaks so many of the rules that we think we should have.In software, let’s say our job here is to build Microsoft Word.I can say, “Hey, Alex, it’s your job to make the save feature work.It’s David’s job to make sure that cloud storage works.And then someone else’s job is to make sure the UI looks good.” You can factorize these problems pretty independently from one another.

The issue with foundation model training is that every decision you take interferes with every other decision, because there’s only one deliverable at the end.最后,可交付的是您的边界模型。It’s like one giant bag of weights.因此,我在审议中所做的事情,这个人在监督的微调中所做的事情,另一个人在RL中所做的事情,以及另一个人使模型快速运行的事情,所有这些都以有时是不可预测的方式相互作用。

So, with the number of people, it has one of the worst diseconomies of scale of anything I’ve ever seen, except maybe sports teams.Maybe that’s the one other case where you don’t want to have 100 midlevel people;you want to have 10 of the best, right?因此,我认为,在世界上一些最不受欢迎的努力中,将在桌子上坐下来的人数实际上将有所限制。

Oh, so you think the elite stays relatively where it is, but the field around it — the people who support it, the people who are very meaningful contributors — expands?

我认为,知道如何做超级有意义的工作的人数肯定会扩大,但是您不能一次在任何一个项目上都有太多人的事实将有所限制。

What advice would you give someone who’s either evaluating joining an AI startup, or a lab, or even an operation like yours in Big Tech on AI, and their career path?How should they be thinking about navigating the next couple of years with all this change that we’ve been talking about?

首先,拥有大量计算的小型团队是建立边境实验室的正确秘诀。That’s what we’re doing at Amazon with its staff and my team.It’s really important that you have the opportunity to run your research ideas in a particular environment.If you go somewhere that already has 3,000 people, you’re not really going to have a chance.There’s so many senior people ahead of you who are all too ready to try their particular ideas.

第二件事是,我认为人们低估了产品的代码,用户界面和模型。I think that’s going to be the most important game that people are going to play in the next couple of years.因此,去某个实际上具有非常强烈的产品感的地方,以及对用户实际将其深深地嵌入自己生活的愿景,这将非常重要。

最好的讲述方法之一是问,您是否只是在建立另一个聊天机器人?您只是想在编码助理空间中再与一名参赛者作战吗?这些恰好是最早的产品形式的两个产品市场拟合,并且变得疯狂地成长。I bet when we fast-forward five years and we look back on this period, there will be six to seven more of these crucial product form factors that will look obvious in hindsight but that no one’s really solved today.如果您真的想下一个不对称的上注赌注,我会尝试花一些时间并弄清楚现在是什么。

谢谢大卫。I’ll let you get back to your gyms.

Thanks, guys.这真的很有趣。

Questions or comments about this episode?Hit us up at[电子邮件保护]。We really do read every email!

Decoder with Nilay Patel

A podcast from边缘about big ideas and other problems.

立即订阅!

11条评论

Follow topics and authorsfrom this story to see more like this in your personalized homepage feed and to receive email updates.

关于《亚马逊押注代理商赢得AI比赛》的评论


暂无评论

发表评论

摘要

根据采访,这里有一些关键要点: - 有一个小组的AI研究人员(全球约有150人)具有培训边境模型的知识和经验。 - 由于模型培训的不同方面之间的复杂相互作用,该领域与传统软件工程相比具有很高的进入障碍。 - 如果与经验丰富的导师合作,初级人才可以迅速赶上,但是总会有一个核心的精英团体。有抱负的人工智能研究人员的建议:1。寻找可以访问大型计算资源的小型团队的机会2.专注于设计有用的产品/接口,将模型深入整合到用户生活中3。尝试识别聊天机器人和编码助手以外的新兴产品形式。有关当前景观的要点: - 大型科技公司正在从初创公司获取或偷猎顶尖人才 - 如果创始人离开担任大型技术角色,这会给启动员工带来不确定性 - 该领域正在迅速扩展,但与其他技术领域相比仍然很专业因此,总而言之,尽管AI研究正在爆炸,但它也具有很高的障碍,并且需要与精英团队紧密合作。但是,有才华的新手有机会快速赶上,如果他们拥有合适的导师/组织,他们会在短时间内做出巨大的贡献。让我知道您是否希望我进一步详细说明或总结面试的任何特定部分!