作者:Reed Albergotti
Reed Albergotti:这是非常疯狂的一周,所有的产品发布,量子计算发布。你有诺贝尔奖。你们有新产品,Gemini 2.0。你是为这一周做好了计划,还是因为人工智能的疯狂本质而发生了这种情况?
桑达尔·皮查伊:2015 年,我为公司设定了人工智能优先的方向。作为其中的一部分,我们表示,我们将从世界一流的研究到基础设施建设,对人工智能采取深入的、全栈的方法。然后为我们和开发人员构建模型,并将其放入我们的产品中。这种深度投资——我觉得人工智能非常深刻——它贯穿了我们作为一家公司所做的一切,包括谷歌和 Alphabet。这是基础,采用深入的技术创新方法,即全栈方法。然后在当前的 genAI 时代,有时你会投资以预先做好事情。对我来说,这就是从头开始建立 Google DeepMind,启动 Gemini,并将其构建为原生多模式和长上下文,现在是 2.0。
因此,我们需要打好基础,调整团队,建立公司。我认为您正在看到……所有这些开始交付并交到人们手中的好处。我预计我们的步伐会更快,因为始终存在固定成本。我们必须让我们的 TPU 做好大规模准备,以完成我们想要构建的模型、构建我们的数据中心、组建合适的团队。创新渠道感觉非常非常强大。其中一些是长期赌注,需要时间才能发挥作用。对我来说,量子看起来就像 2010 年代的人工智能。很少有人知道这一点,但你正在有条不紊地进行工作。是一样的。Waymo,我们已经踏上这一旅程超过 15 年了,这是一个激动人心的时刻,所以它可能是所有这些的结合。诺贝尔奖并不是计划中的,但当它发生时我说了这句话。我感觉看着 Demis [Hassabis] 和 John [Jumper] 团队在 AlphaFold 上的工作……我很荣幸能看到一部诺贝尔奖作品从开始到结束。这样就锦上添花了。
一两年前,确实有这样的说法:ChatGPT 让 Google 措手不及。本周是看看你在公司方面以及人们对谷歌的看法方面取得了多大进展的好时机。现在你感觉有什么不同了吗?
这是一个激动人心的时刻。在内部,我对我们所取得的进展有明显的感觉。当您研究人工智能模型时,您会查看所有这些损失曲线,并且会查看模型的功能。您正在查看各种基准。我们是世界一流的人才,能够获得最先进的资源。Google DeepMind 和 Google Research 的结合,是该 genAI 领域被引用次数最多的。我们对这场革命正在发生的许多突破负有责任。看到这种势头绝对令人非常满意,但我们计划做更多的事情。我们才刚刚开始。
您上周在 DealBook 上表示,进展变得越来越困难,容易实现的目标已经被采摘。这到底是什么意思?摘到的唾手可得的果实是什么?那真正困难的事情是什么?
为了非常清楚地表达我的答案,我在那里说了。事实上,我对未来的进展感到非常兴奋。我的意思是,我认为在这个领域你可以投入计算并取得初步进展。但话又说回来,这不仅仅是一个规模扩大的问题,而是实现突破的问题。因此,让我们的模型使用最多 200 万个标记作为输入长度,这就是长上下文。这是突破的一个例子。在 Gemini 2.0 中,我们拥有多模式实时 API,因此现在它可以进行本机图像和音频输出。您可以将输入流式传输到模型中,获得输出——这些都是突破。当我们进入下一个阶段时,您需要更具洞察力的突破。我认为这部作品的质量会相当高。我想说的是,我认为这将有助于区分真正的精英团队。不仅仅是我们,还有其他一些团队,但这就是 2025 年令人兴奋的原因。
我认为人们错误地理解了这一点。如果我在那之后查看一些内容,就像是,“哇,我们已经达到了稳定状态。”你所说的是,在谷歌,当事情变得艰难时,这就是我们的闪光点?
恰恰。我也看到了与 Waymo 的相似之处。很多人都在努力解决这个问题,但后来变得更加困难。当事情变得更加困难时,能够克服困难并达到下一个水平,这一点很重要。
人们倾向于将过去两年(从 11 月 22 日至今)视为曲线。如果你这样看的话,看起来我们确实正在进入一个平台期,因为你有这么巨大的、不知从何而来的——至少从外部的角度来看——这新事物。如果你缩小并观察那条曲线,我想你会看到沿途有一些平台。您认为接下来会走向何方?是同一个轨迹吗?
我仍然清楚地记得 2010 年代初期,当时我才知道这个模型几乎无法识别图像,并为此感到兴奋。过去十年来,进步不断。它无疑将更广泛的公众扩大到了现在的世界,因此它已成为主流。但当我展望 2025 年时,我绝对认为我们现在已经拥有足够强大的模型,我们可以在其基础上构建很多很多用例。这种进步将是非常真实的。通过 Gemini 2.0,我们正在为其变得更加代理奠定基础。虽然它仍处于研究领域,但我们将其交给值得信赖的测试人员(例如 Project Mariner),从一开始就在 Chrome 上进行工作。看到一个模型能够使用浏览器是非常令人难以置信的,但我们必须突破一些障碍,因为我们处于这些领域,我们必须安全、可靠地做到这一点。俗话说,“最后的20%需要80%的努力。”在这种情况下,最后10%可能需要90%的努力。但这就是我们制定基准的原因。我们正在取得进展。我们将其交付给值得信赖的测试人员。这样我们就可以负责任地进行测试,获得反馈,然后将其提供给更多的人,等等。但想想人工智能可以开始影响世界上所有的工作流程。我们实际上可能会看到比我们所看到的要多得多的进步。两者同时正确。
说到长期方法,从一开始就采用 Gemini 的多模式似乎牺牲了一些其他功能,可能是在语言和编码特定的基准上,为了这种多模式方法。是这样吗?
当我们推出 Gemini 1.2 时,我们真的希望它从一开始就是多模式的。我认为我们的模型在多模态方面几乎是最先进的,但我们还没有暴露模型的功能。没有本机图像输出或音频输出。在 2.0 中,我们正在解锁这些功能,但与此同时,我们在所有编码或推理等方面也正在成为最先进的。在流行的基准 SWE-bench 上,我们的模型现在是最先进的。我们已经放弃了其他尚未发布的实验模型,但它们已经显示出更多功能。我们确实在推动前沿,但我们会负责任地做到这一点,这就是为什么你会看到其中一些处于可信测试者模式,其中一些仅作为开发人员的实验性 API,但我们——我会努力工作,获得反馈,然后将其提升到一个新的水平。
DeepMind 的人已经说过这一点,并推测多模型方法是通向 AGI 的道路,因为你需要拥有这个世界模型,也许你需要它是一个具体的人工智能,才能真正推理和理解。随着你的进步,你是否发现这是真的?您认为这是正确的方法吗?
作为人类,我们对世界的体验是令人难以置信的多模式,因此它总是有意义的。这就是我们使用 Google Lens 进行搜索的原因。如果您可以将手机指向您正在看的东西并提出问题,那么您就不必总是打字。Lens 每月为我们处理数十亿次查询,它是我们增长最快的用例之一。我一直很清楚,这就是未来的发展方向。戴米斯和(的)团队,他们总是有强烈的愿景。作为这一切的一部分,我们推出的其中一件事是,您可以使用它来帮助游戏。项目,NaVi。如果您是新玩家,它会查看您正在做的事情并与您交谈以提供反馈。我认为这是它的基础。从长远来看,当你看到机器人技术之类的东西时,它会变得非常重要。这对于 Waymo 来说很重要。Waymo 致力于观察周围的世界并做出决策。我们正在对这些原生多模式模型进行的工作将与 Waymo 交叉,并随着时间的推移让 Waymo 变得更好。
当你将这些多式联运产品交到数十亿人手中时,你会看到Astra,当它被广泛使用时,它会成为真正好的培训数据源吗?这对谷歌来说是一个优势吗?
我们所做的一切都没有什么比现实世界的反馈更好的了。人们在搜索中使用 Google Lens,人们使用 Astra。我认为良性循环对于我们的产品变得非常重要。我认为所有这些都使我们的产品变得更好。例如,如果你看看 Waymo,我们进行了很多模拟,然后我们在现实世界中驾驶。但现在我们在现实世界中,在城市中进行部署,每周的骑行次数为 175,000 次,即 100 万英里。我认为这是创造性地改进产品的最佳方式。
明年还有 10 个城市,速度很快。您认为这会成为真正的收入来源吗?我们应该关注的指标是什么?是每英里的费用吗?
我们现在的衡量标准是确保我们正在构建通用的 Waymo 驱动程序。我们可以采取的情况越多,对其进行扩展,使其在城市环境、高速公路和所有天气条件下以非常高的标准安全工作。然后在各种场景中交付——在我们的汽车中,与合作伙伴合作,就像他们与 Uber 或其他参与者所做的那样——并使其规模化,以及拥有良好的用户体验是我们在努力解决问题时所考虑的问题。
我没想到会发生的一件事是我会用名称来指代数据中心,例如 Colossus、Rainier。您在堪萨斯城拥有这个价值十亿美元的数据中心。您是否打算构建这些大型集群之一,或者已经构建了?会有一个名字吗?
从现在开始我们应该让双子座来接管我们的命名。看,我们不断推动数据中心的最先进技术,我认为我们拥有世界上最强大的一些集群。令我感到自豪的是,世界上大部分地区都在采用液体冷却。我们在数据中心广泛部署液体冷却已有一段时间了。我们将成为首批客户之一,不仅是 TPU,而且还与 Nvidia 合作,在我们的数据中心获得 GB200。我们已经拥有一个部分由地热供电的数据中心。我们的顶级数据中心,其中许多在能源使用方面都以 90% 无碳的方式运行。所以我们处于领先地位,并且正在扩大规模。我所看到的一切,我们所参照的一切,我认为我们也处于前沿。
但你不像其他一些人那样经常谈论它。亚马逊发布了数十万个Trainium2 芯片。您专门在 TPU 上训练了 Gemini 2.0。你为什么不出去吹嘘一下呢?
我记得 2017 年或 2018 年在 Google IO 上谈论构建 AI 优先的数据中心并展示我们的 TPU 部件。也许我们已经这样做了一段时间了。我们为我们正在做的事情感到自豪,但我会接受您的建议并确保我们更多地讨论它。
也许这是一个商业秘密;也许如果你处于领先地位,你就不必谈论它。您能与其中一些被认为是世界上最大的集群进行比较吗?
需要明确的是,有几家公司在这样做。重要的是,为了生成用于预训练的尖端模型,您需要这些大型集群,并且最好同时放置。我们绝对处于这方面的最前沿。我认为我们拥有一些最大的计算集群可供 Google DeepMind 和我们的云客户使用。我们将在那里做更多的事情。
即将上任的特朗普政府提出了“曼哈顿项目”的人工智能理念。你是否已经了解了这将会是什么样子以及 Alphabet 将在其中扮演什么角色?
现在还为时尚早。过渡团队正在那里进行,但总统非常明确地表示他希望投资于美国的技术领导力和关键技术。从我的角度来看,多年来我们一直在这样做,但我们希望提供帮助。您看到了我们关于量子计算或人工智能的公告,我们宣布了与合作伙伴一起建造小型模块化核反应堆的团队。其中一些是大型实体基础设施项目。我认为我们有机会作为一个国家共同努力,开展这些雄心勃勃的大型项目,然后再回到那个项目。看到 SpaceX 助推器以这种方式返回并着陆,世界上没有人不会留下深刻的印象。我认为设定一个高标准,追求这些大型的实体基础设施项目,并做得又好又快。税率的进步让我们感到非常兴奋,并乐意尽我们所能。
你和新的人工智能沙皇谈过吗?
不,我很期待见到大卫[萨克斯],显然有一些人是这些领域、技术领域的专家。我认为这会非常非常有帮助。我们期待在那里参与。
所以还没有具体细节,你不知道它到底是什么样子?
这是正确的,除了早期迹象表明他们肯定有兴趣推动大规模创新。我们期待这些对话。
还有出口管制,限制芯片可以离开该国的地点和数量。您正在沙特阿拉伯建立一个人工智能中心。您认为新政府在出口管制方面有什么变化吗?
人工智能是一项关键技术,所以我认为从国家安全的角度来看,将会有与之相关的框架。我们致力于与合适的人合作。但过去几年你看到的是消费者、企业、政府——人们对可能的用例感到兴奋。因此,将人工智能部署到各种有用的场景中非常重要。它可以帮助提高生产力,可以推动经济增长。最重要的是,作为一个社会,我们需要学习使用技术、适应并开始对话。
量子人工智能团队在纠错方面取得了重大突破。你期待吗?你的反应是什么?
令人兴奋的事情之一是我们的量子团队,哈特穆特 [Neven] 和团队,他们一直有一个非常严格的框架,并且他们在明确的里程碑中定义了进展。每当我们取得一个里程碑时,我都会想,这些都是雄心勃勃的项目。这绝对是更积极的惊喜之一。这绝对是一个更深层次的突破,在你扩展量子计算机的同时解决纠错问题。这绝对是该领域最严峻的挑战之一。我对此非常满意。但现在对我们来说,这些都是我们专注于开发实用量子计算机的里程碑,我们可以将其应用于新的新颖用例。这就是目标。我会将其与我们在 Waymo 或 AI 上的旅程进行比较,因为它需要时间。但我认为,如果你下定决心,进步是不可避免的。
你在 2010 年说量子就像人工智能。这意味着它很快就会开始产生真正的影响。实现大规模量子计算机对 Alphabet 意味着什么?
对于你之前的问题,经典计算或超级计算机正在变得越来越强大。但我认为,对于某些类型的用例,量子最终将发挥强大的作用。它将成为我们武器库中的重要工具。总而言之,量子和人工智能的交叉对我们来说非常令人兴奋。我们与 GenCast 发布了最先进的天气预报模型。但在未来,当我们可以使用量子计算时,你不应该低估我们更深入、更好地预测这些事情的能力。这些在实践上具有深远的意义。有些事情,比如 AlphaFold 做了什么,你还能做些什么来理解自然、模拟自然,所有这些都会有实际应用。然后,通过人工智能和量子,总是会更深入,以至于我们更深入地尝试了解我们所生活的宇宙的本质和结构。我认为这给了我们最好的机会,因为宇宙本质上是量子的。因此,取得进展也有更深层次的影响。
它对世界来说是一场变革,但它确实有可能为许多其他项目提供支持。
我的目标是,在五年的时间内,我们在商业上应用量子来解决一些用例,然后从那里开始,继续发展。
你提到人工智能搜索明年将变得更重要。AI 概述对于我的许多搜索已经变得非常有用。您能详细介绍一下吗?
我们对人工智能概述搜索的发展感到非常兴奋。我一直在使用 Gemini 2.0 闪存的 AI 概述,并且我已经看到了它的改进。这就是我们要将其传达给更多人的东西。但我们还将利用它做更多事情。我们的人工智能模型将帮助我们进行搜索,为更复杂、更深入的查询构建体验,您必须将其分解并帮助用户迭代,并获得更深入的答案。到 2025 年,我们肯定会快速创新,搜索将完成 2024 年无法做到的事情。这就是我为团队设定的目标:一类问题与 2024 年相比,2025 年搜索将显着改善,我认为我们将实现这一目标。这很令人兴奋,因为这意味着您正在推动知识和信息的前沿。我期待所有这些都能交到用户手中。
人工智能安全是很多人提出的另一个问题。戴米斯大约在一年前表示,随着比赛升温,最大的风险之一是你开始从安全工作中夺走资源,因为你需要尽可能多的资源来赢得这场比赛。这是否正在实现,或者您能具体谈谈有多少人在从事安全工作,或者有多少计算资源?有办法衡量吗?
我们一直认为这是一个需要推动创新的附加领域,但帮助您推动进步的是从一开始就将安全纳入其中。我认为能够进行长期思考和长期投资的优势之一是,我们在这些模型的基础安全性上投入了尽可能多的资金,即为推动这种安全性而需要进行的基础研究。这就是为什么,例如,构建它的综合、开源方面——这些都是我们突破安全界限的方式。我们都在投资安全框架,让这些模型变得更加代理。但我认为安全和创新是齐头并进的。这帮助我们在 Waymo 取得了更多进步。因为从第一天起,我们就将安全深深融入到我们的创新和开发实践中,并且它们齐头并进。同样,在人工智能领域,我们有比以前更多的人致力于人工智能安全,包括获得更多的计算资源。这是我们将永远非常非常致力于的事情。
我认为关于反垄断的一个问题很有趣。当我制作 Mariner 的演示时,它是在 Chrome 上进行的,而这正是美国政府想要迫使 Google 剥离的产品。如果你看看政府的任命,你会发现这种情况似乎不会消失。我只想问,如果没有 Chrome,Google 会是什么样子?
这是一个重要的过程,我们将建设性地参与。我确实认为评委们承认我们一直在创新并且我们制造了最好的产品。我认为一些补救建议的范围是深远的。我们计划提出强有力的理由。您刚刚看到了创新的出现。所有这些都对消费者有利,归根结底,这必须是基础。这就是我们法律的基础。只要我们继续坚持这种方法,为我们的用户带来有益的东西,我认为我们最终会做得很好。
你谈到了一些关于地热的话题。我知道你创办了这家直接空中捕获公司。我只是想知道在这方面是否有什么东西让你兴奋,什么类型的能量会推动这一切?是否会产生新的可再生创新?
我们对太阳能的潜力还远未充分开发。扩大太阳能规模的机会还有很多。从物理和工程学的角度思考,我们有很多选择。核能已经被证明,有些国家已经证明了这一点,而且它今天仍然有效。我认为我们正在不断研究更安全的选择。地球内部也有如此多的能量。我们只生活在地球表面,地球内部存在着我们几乎没有利用的体积能。我一直觉得,如果你下定决心,我们应该解决能源过剩问题。能源应该是促进剂,而不是限制因素。阻碍的只是我们的想象力和结果。
我正在看一张地热潜力地点地图,它很大,覆盖了整个美国西部。你有一个,但它仍然很低。它不是千兆瓦,而是兆瓦。您只需要深入挖掘吗?
对能源的需求如此之大,我认为我们能够满足它。但我们需要更多的研发资金。我们需要更有利的许可才能真正开展这些工作。我认为这是新政府真正有机会的领域。他们已表示致力于实现这一目标。我们所有人都可以在这方面取得很大进展。