谷歌七年使命——为人工智能赋予机器人身体 - 连线

2024-09-10 10:00:00 英文原文

那是 2016 年 1 月上旬，我刚刚加入 Alphabets 秘密创新实验室 Google X。我的工作：帮助弄清楚如何处理谷歌收购的九家机器人公司留下的员工和技术。人们很困惑。此前负责的安卓鲁宾之父安迪突然离职。拉里·佩奇和谢尔盖·布林在业余时间偶尔飞越时不断尝试提供指导和指导。Google X 的负责人 Astro Teller 几个月前就同意将所有机器人带入实验室，该实验室被亲切地称为“登月工厂”。

我之所以报名，是因为 Astro 让我相信 Google Xor 只是 X，我们会这样称呼它，它与其他企业创新实验室不同。创始人致力于雄心勃勃，他们拥有所谓的耐心资本来实现事情。在经历了创办和出售多家科技公司的职业生涯之后，这对我来说是正确的。X 似乎是 Google 应该做的事情。我从第一手经验中知道，建立一家用史蒂夫·乔布斯的名言来说可以对宇宙产生影响的公司是多么困难，而且我相信谷歌是进行某些大赌注的正确选择。人工智能驱动的机器人有一天将与我们一起生活和工作，就是这样一个大胆的赌注。

八年半之后，即 18 个月后，谷歌决定停止其在机器人和 AI 领域的最大赌注，似乎每周都会出现一家新的机器人初创公司。我比以往任何时候都更加相信机器人需要到来。然而，我担心的是，硅谷专注于最低限度可行的产品，而风投普遍不愿投资硬件，因此它会足够耐心，赢得这场为人工智能提供机器人身体的全球竞赛。而且投入的大部分资金都集中在错误的事情上。这就是原因。

登月的意义

Google X 是日常机器人 (Everyday Robots) 的所在地，我们的登月计划诞生于 2010 年，源于一个伟大的想法：Google 可以解决世界上一些最困难的问题。X特意将其选址在距离主校区几英里远的自己的大楼内，以培育自己的文化，并让人们能够跳出众所周知的框框进行思考。我们投入了大量精力来鼓励 X 员工承担巨大风险、快速进行实验，甚至庆祝失败，以表明我们设定的标准非常高。当我到达时，该实验室已经孵化了 Waymo、谷歌眼镜和其他听起来像科幻小说的项目，例如飞行能源风车和平流层气球，这些项目将为服务匮乏的人提供互联网接入。

X 项目与硅谷初创公司的不同之处在于，X 项目鼓励 X 人进行大而长期的思考。事实上，要成为登月计划，X 有一个公式：该项目首先需要证明它正在解决一个影响数亿甚至数十亿人的问题。其次，必须有一种突破性的技术，让我们找到解决问题的新方法。最后，需要有一个激进的业务或产品解决方案，听起来可能有点疯狂。

人工智能身体问题

很难想象还有谁比 Astro Teller 更适合运行 X，他选择的头衔实际上是 Moonshots 队长。在 Google X 大楼（一座由三层百货商店改建而成的巨型百货公司）中，你永远不会看到 Astro 没有他标志性的旱冰鞋。扎着马尾辫，总是带着友好的微笑，当然，还有 Astro 这个名字，你可能会认为自己进入了 HBO 硅谷的一集。

当 Astro 和我第一次坐下来讨论我们可以对 Google 收购的机器人公司做些什么时，我们一致认为应该采取一些措施。但什么？迄今为止，大多数有用的机器人都体积庞大、笨拙且危险，仅限于工厂和仓库，在那里它们经常需要受到严格监督或被关在笼子里以保护人们免受它们的伤害。我们如何构建在日常环境中有用且安全的机器人？这需要一种新的方法。我们要解决的巨大问题是全球人口大规模转移、劳动力萎缩、劳动力短缺。即使在 2016 年，我们也知道我们的突破性技术将是人工智能。彻底的解决方案：完全自主的机器人将帮助我们完成日常生活中不断增加的任务。

换句话说，我们要在物理世界中赋予人工智能一个身体，如果有一个地方可以炮制这种规模的东西，我确信那将是 X。很长的时间，很大的耐心，愿意尝试疯狂的想法，但其中很多都失败了。这需要人工智能和机器人技术方面的重大技术突破，并且很可能花费数十亿美元。（是的，数十亿。）团队坚信，如果你看得更远一点，人工智能和机器人技术的融合是不可避免的。我们认为迄今为止只存在于科幻小说中的大部分内容即将成为现实。

是你妈妈

大约每周，我都会和妈妈通电话。她的开场白总是一样的：机器人什么时候来？她甚至不会打招呼。她只是想知道我们的机器人什么时候会来帮助她。我会回答，“需要一段时间，妈妈”，然后她说，“他们最好快点来！”

我妈妈住在挪威奥斯陆，享有良好的公共医疗保健；护理人员每天三次到她的公寓来帮助她完成一系列任务和杂务，这些任务和杂务大多与她晚期帕金森病有关。虽然这些照顾者让她能够独自生活在自己的家里，但我母亲希望机器人能够为她提供无数的小事情来支持她，这些小事情现在已经成为难以逾越和令人尴尬的障碍，或者有时只是为她提供一个可以依靠的手臂。

真的很难

你确实知道机器人技术是一个系统问题，对吧？杰夫用试探的眼神问我。每个团队似乎都有一个杰夫；杰夫·宾厄姆是我们的。他是一个瘦削而认真的人，拥有生物工程博士学位，在农场长大，并以知识中心而闻名，对一切都有深刻的见解。直到今天，如果你问我有关机器人的问题，我会告诉你的第一件事就是，这是一个系统问题。

杰夫试图强调的重要事情之一是，机器人是一个非常复杂的系统，其好坏取决于其最薄弱的环节。如果视觉子系统在阳光直射下很难感知前方的物体，那么当一缕阳光透过窗户时，机器人可能会突然失明并停止工作。如果导航子系统不理解楼梯，那么机器人可能会从楼梯上摔下来并伤害自己（可能还伤害无辜的旁观者）。等等。建造一个可以与我们一起生活和工作的机器人是很困难的。就像，真的很难。

几十年来，人们一直在尝试对各种形式的机器人进行编程，以执行甚至简单的任务，例如抓起桌子上的杯子或打开门，而这些程序最终总是变得极其脆弱，在任何细微的改变上都失败了。条件或环境变化。为什么？因为现实世界缺乏可预测性（就像那缕阳光）。我们甚至还没有遇到困难的事情，比如穿过我们生活和工作的杂乱无章的空间。

一旦你开始仔细思考这一切，你就会意识到，除非你把所有东西都锁定得非常严密，所有物体都位于固定的、预定义的位置，并且灯光恰到好处且永远不会改变，否则只需拿起，比如说，一个青苹果并将其放入厨房桌子上的玻璃碗中成为一个几乎不可能解决的难题。这就是工厂机器人被关在笼子里的原因。从灯光到他们工作的东西的位置，一切都是可以预测的，而且他们不必担心会撞到人的头。

如何学习学习机器人

但显然，您所需要的只是 17 名机器学习人员。至少拉里·佩奇向我讲述了他经典的、难以理解的见解。我试图争辩说，我们不可能只需要少数机器学习研究人员就可以为机器人构建硬件和软件基础设施，让它们与我们一起工作。他不屑地向我摆摆手。你只需要 17。我很困惑。为什么不是11？还是23？我错过了一些东西。

归根结底，在机器人技术中应用人工智能有两种主要方法。第一种是混合方法。系统的不同部分由人工智能驱动，然后通过传统编程缝合在一起。通过这种方法，视觉子系统可以使用人工智能来识别和分类它所看到的世界。一旦创建了它所看到的对象的列表，机器人程序就会接收该列表并使用代码中实现的启发式方法对其进行操作。如果编写程序是为了从桌子上摘下那个苹果，那么该苹果将被人工智能驱动的视觉系统检测到，然后程序会从列表中挑选出某种类型的物体：苹果，然后伸手去拿起它使用传统的机器人控制软件。

另一种方法，即端到端学习，或 e2e，尝试学习整个任务，例如捡起一个物体，甚至更全面的工作，例如整理桌子。学习是通过让机器人接触大量训练数据来进行的，就像人类学习执行体力任务一样。如果你让一个小孩子拿起一个杯子，根据他们的年龄，他们可能还需要学习什么是杯子，杯子里可能装着液体，然后在玩杯子的时候，反复敲击杯子。溢出，或者至少洒出很多牛奶。但通过演示、模仿他人以及大量有趣的练习，他们会学会这样做，最终甚至不需要考虑步骤。

我开始相信拉里所说的是，除非我们最终证明机器人可以学习执行端到端任务，否则没有什么真正重要的。只有这样，我们才有机会让机器人在混乱且不可预测的现实世界中可靠地执行这些任务，从而使我们有资格成为登月计划。这并不是关于具体的数字 17，而是关于这样一个事实：重大突破需要小团队，而不是工程师大军。显然，机器人除了人工智能大脑之外还有更多功能，所以我没有停止我们的其他工程工作——我们仍然需要设计和构建一个物理机器人。不过，很明显，展示成功的端到端任务将使我们有信心，用登月的说法，我们可以逃脱地球的引力。在 Larry 的世界中，其他一切本质上都是实现细节。

在手臂农场

Peter Pastor 是一位德国机器人学家，在南加州大学获得机器人学博士学位。在极少数不工作的时候，彼得会试图在风筝冲浪板上追上他的女朋友。在实验室里，他花了很多时间研究 14 个专有机器人手臂，后来用 7 个工业 Kuka 机器人手臂取代了我们称之为手臂农场的配置。

这些手臂全天候（24/7）运行，反复尝试从垃圾箱中捡起海绵、乐高积木、橡皮小鸭或塑料香蕉等物体。一开始，他们将被编程为将爪状抓手从上方的随机位置移入垃圾箱，关闭抓手，拉起，看看是否抓住了任何东西。垃圾箱上方有一个摄像头，可以捕捉垃圾箱内的物品、手臂的运动以及成功或失败。这种情况持续了几个月。

一开始，机器人的成功率为 7%。但每次机器人成功时，它都会得到积极的强化。（对于机器人来说，基本上意味着神经网络中用于确定各种结果的所谓权重被调整，以积极强化所需的行为，并消极强化不需要的行为。）最终，这些手臂学会了更成功地拾取物体超过 70% 的时间。有一天，彼得向我展示了一段视频，视频中机器人手臂不仅伸手抓住黄色乐高积木，还把其他物体推开，以便清晰地拍摄它，我知道我们已经到达了一个真正的转折点。机器人并没有使用传统的启发式方法进行明确的编程来做出这样的动作。它已经学会了这样做。

但是仍然有七个机器人花了几个月的时间来学习如何拿起橡皮小鸭？那不会削减它。即使数百个机器人练习多年也不足以教会机器人执行第一个有用的现实世界任务。因此，我们构建了一个基于云的模拟器，并于 2021 年在模拟器中创建了超过 2.4 亿个机器人实例。

将模拟器视为一个巨大的视频游戏，具有足够真实的现实物理模型，可以模拟物品的重量或表面的摩擦力。成千上万的模拟机器人将使用模拟摄像机输入和模仿真实机器人的模拟身体来执行任务，例如从桌子上拿起杯子。他们会同时运行数百万次尝试和失败，收集数据来训练人工智能算法。一旦机器人在模拟中表现得相当好，算法就会被转移到物理机器人上，在现实世界中进行最终训练，以便它们能够体现他们的新动作。我一直认为模拟就像机器人整夜做梦，然后醒来后学到了新东西。

这是数据，愚蠢的

当我们醒来并发现 ChatGPT 的那一天，这看起来就像魔法一样。人工智能驱动的系统可以突然写出完整的段落，回答复杂的问题，并进行持续的对话。同时，我们也逐渐认识到它的根本局限性：它需要大量的数据才能完成。

机器人已经在利用大型语言模型来理解口语，并利用视觉模型来理解它们所看到的内容，这使得 YouTube 演示视频非常精彩。但教机器人与我们一起自主生活和工作是一个相对庞大的数据问题。尽管有模拟和其他方法来创建训练数据，但机器人不太可能有一天醒来时具有控制整个系统的基础模型的高能力。

对于我们可以单独使用人工智能来教机器人执行的任务有多复杂，目前还没有定论。我开始相信，需要成千上万、甚至数百万个在现实世界中工作的机器人来收集足够的数据来训练 e2e 模型，使机器人能够完成除相当狭窄、明确定义的任务之外的任何任务。在未来很长一段时间内，构建能够执行有用服务的机器人，例如清理和擦拭餐厅的所有桌子，或者在酒店整理床铺，将需要人工智能和传统编程。换句话说，不要指望机器人很快就会脱离我们的控制，做一些它们没有被编程去做的事情。

但是他们应该看起来像我们吗？

马在四足行走和奔跑方面非常高效。然而我们设计的汽车是有轮子的。人脑是极其高效的生物计算机。然而，基于芯片的计算机的性能与我们的大脑还相差甚远。为什么汽车没有腿，为什么计算机不模仿我们的生物学？我的意思是，制造机器人的目标不应该只是模仿。

有一天，我在与 Everyday Robots 的一群技术领导者开会时了解到了这一点。我们坐在会议桌旁，热烈讨论我们的机器人是否应该有腿或轮子。此类讨论往往更多地涉及宗教辩论，而不是基于事实或科学的辩论。有些人非常相信机器人应该看起来像人。他们的理由很好。我们设计了我们生活和工作的地方来容纳我们。而且我们有腿。所以也许机器人也应该如此。

大约 30 分钟后，房间里最资深的工程经理 Vincent Dureau 发表了讲话。他只是说，我认为如果我能到达那里，机器人也应该能够到达那里。文森特坐在轮椅上。房间里安静了下来。辩论结束了。

事实是，机器人腿在机械和电子方面都非常复杂。他们移动得不太快。它们很容易使机器人不稳定。与轮子相比，它们的能效也不是很高。如今，当我看到公司试图制造人形机器人，试图密切模仿人类的形态和功能时，我想知道这是否是想象力的失败。有很多设计可以探索来补充人类。为什么要折磨自己去模仿呢？在 Everyday Robots，我们试图使机器人的形态尽可能简单，因为机器人越早执行现实世界的任务，我们就能越快地收集有价值的数据。Vincent 的评论提醒我们，我们需要首先关注最困难、最具影响力的问题。

办公桌职责

当我坐在办公桌前时，我们的一个单臂机器人卷起圆角矩形的头部，称呼我的名字，并询问它是否可以收拾东西。我说是的，然后退到一边。几分钟后，它拿起了几个空纸杯、一个来自星巴克的透明冰茶杯和一个塑料 Kind 酒吧包装纸。它把这些物品扔进了底座上的一个垃圾桶里，然后转向我，向我点了点头，然后走向了下一张桌子。

这项整洁桌面服务代表了一个重要的里程碑：它表明我们在机器人难题的未解决部分方面取得了良好进展。机器人使用人工智能来可靠地看到人和物体！本杰·霍尔森 (Benjie Holson) 是一名软件工程师和前木偶师，他领导了创建这项服务的团队，他是混合方法的倡导者。他并不反对端到端的学习任务，只是抱着一种“让他们现在就尝试做一些有用的事情”的态度。如果机器学习研究人员解决某些 e2e 任务的能力比他的团队编程的能力更好，他们就会将新算法纳入他们的囊中。

我已经习惯了我们的机器人四处滚动，做一些家务，比如整理桌子。偶尔我会发现一位访客或一位刚刚加入团队的工程师。当他们看着机器人忙着自己的事情时，脸上会露出惊奇和喜悦的表情。通过他们的眼睛，我意识到这是多么新奇。正如我们的设计主管里斯·纽曼（Rhys Newman）所说，当有一天一个机器人滚过（用他的威尔士口音），它就变得很正常了。这很奇怪，不是吗？

舞力全开

我们在 Everyday Robots 的顾问包括一位哲学家、一位人类学家、一位前劳工领袖、一位历史学家和一位经济学家。我们热烈讨论了经济、社会和哲学问题，例如：如果机器人与我们生活在一起，会对经济产生什么影响？对劳动力的长期和近期影响如何？在智能机器时代，人类意味着什么？我们如何以让我们感到受欢迎和安全的方式建造这些机器？

2019 年，在告诉我的团队我们正在寻找一位驻场艺术家用我们的机器人做一些创意、奇怪和意想不到的事情后，我遇到了 Catie Cuan。Catie 正在斯坦福大学攻读机器人和人工智能博士学位。引起我注意的是，她曾是一名专业舞蹈演员，曾在纽约大都会歌剧院芭蕾舞团等地方表演。

您可能看过 YouTube 上机器人舞蹈表演的视频，其中机器人执行预先编程的定时动作序列，与音乐同步。虽然观看起来很有趣，但这些舞蹈与您在迪士尼乐园体验的舞蹈并没有太大不同。我问凯蒂，如果机器人能够像人一样即兴发挥并相互交流，那会是什么样子。或者像鸟群，或者鱼群。为了实现这一目标，她和其他几位工程师开发了一种人工智能算法，该算法根据编舞者的偏好进行训练。那当然是凯蒂。

通常在晚上，有时是周末，当机器人不忙于做日常琐事时，Catie 和她的即兴团队会在 X 中心的一个大中庭中聚集十几个机器人。成群结队的机器人开始一起移动，在有时断断续续，但总是以有趣的方式进行，常常给人一种好奇心，有时甚至是优雅和美丽的感觉。Tom Engbersen 是一位来自荷兰的机器人专家，他在业余时间绘制经典杰作的复制品。他开始了与凯蒂合作的一个业余项目，探索跳舞机器人如何响应音乐甚至演奏乐器。有一次，他有了一个新奇的想法：如果机器人本身变成仪器怎么办？这开启了一项探索，机器人的每个关节在移动时都会发出声音。当底座移动时，会发出低音；当夹具打开和关闭时，会发出铃声。当我们打开音乐模式时，机器人每次移动时都会创造出独特的管弦乐乐谱。无论它们是在走廊里行走、分类垃圾、清洁桌子，还是像一群人一样跳舞，机器人的动作和声音都像是一种新型的平易近人的生物，与我经历过的任何事情都不一样。

这只是开始

2022 年底，端到端与混合的对话仍然很激烈。Peter 和他的队友以及 Google Brain 的同事一直致力于将强化学习、模仿学习和 Transformer（大语言模型背后的架构）应用于多项机器人任务。他们在证明机器人可以以使其通用、稳健和有弹性的方式学习任务方面取得了良好进展。与此同时，Benjie 领导的应用团队正在致力于采用人工智能模型，并将其与传统编程结合使用来原型化和构建可以在现实世界环境中的人们中部署的机器人服务。

与此同时，Project Starling（Caties 多机器人安装最终被称为）正在改变我对这些机器的看法。我注意到人们是如何被机器人所吸引，充满惊奇、喜悦和好奇。它帮助我了解机器人如何在我们中间移动以及它们发出的声音会触发人类的深层情感；即使我们如何欢迎他们进入我们的日常生活，这也将是一个重要因素。

换句话说，我们正处于真正利用我们所下的最大赌注的风口浪尖：人工智能驱动的机器人。人工智能使他们能够理解他们听到的内容（口头和书面语言）并将其转化为行动，或者理解他们所看到的内容（相机图像）并将其转化为他们可以采取行动的场景和物体。正如彼得斯团队所证明的那样，机器人已经学会了捡起物体。七年多后，我们在多座 Google 大楼中部署了机器人车队。单一类型的机器人执行一系列服务：自动擦拭自助餐厅的桌子、检查会议室、分类垃圾等等。

2023 年 1 月，即 OpenAI 推出 ChatGPT 两个月后，Google 以整体成本问题为由关闭了 Everyday Robots。这些机器人和一小部分人最终登陆谷歌 DeepMind 进行研究。尽管成本高昂、时间漫长，但所有参与其中的人都感到震惊。

国家当务之急

1970 年，世界上每有 64 岁以上的人，就有 10 人处于工作年龄。到 2050 年，数量可能会少于四个。工人快用完了。谁来照顾老人？谁会在工厂、医院、餐馆工作？谁将驾驶卡车和出租车？日本、中国和韩国等国家都了解这个问题的紧迫性。在那里，机器人不是可选的。这些国家已将投资机器人技术作为国家当务之急。

让人工智能在现实世界中拥有实体，既是国家安全问题，也是巨大的经济机遇。如果像谷歌这样的科技公司决定不能投资像人工智能驱动的机器人这样的登月项目，这些项目将补充和补充未来的工人，那么谁会呢？硅谷或其他创业生态系统会加强吗？如果是的话，是否可以获得耐心的长期资本？我有疑问。我们之所以将 Everyday Robots 称为登月计划，是因为以这种规模构建高度复杂的系统远远超出了风险投资资助的初创企业历来的耐心。虽然美国在人工智能方面处于领先地位，但构建机器人机器人的物理表现需要技能和基础设施，而其他国家（尤其是中国）已经处于领先地位。

机器人没有及时出现来帮助我妈妈。她于 2021 年初去世。在她生命的最后阶段，我们的频繁交谈让我比以往任何时候都更加确信，我们在 Everyday Robots 开始的未来版本将会到来。事实上，它来得还不够快。那么留给我们思考的问题就变成了：这种变化和未来是如何发生的？我仍然感到好奇和担忧。

请告诉我们您对本文的看法。通过 mail@wired.com 向编辑提交一封信。

关于《谷歌七年使命——为人工智能赋予机器人身体 - 连线》的评论

暂无评论

发表评论

摘要

那是 2016 年 1 月初，我刚刚加入 Alphabets 秘密创新实验室 Google X。有一天，彼得向我展示了一段视频，视频中机器人手臂不仅伸手抓住黄色乐高积木，还把其他物体推开，以便清晰地拍摄它，我知道我们已经到达了一个真正的转折点。我开始相信，需要成千上万、甚至数百万个在现实世界中工作的机器人来收集足够的数据来训练 e2e 模型，使机器人能够完成除相当狭窄、明确定义的任务之外的任何任务。我们热烈讨论了经济、社会和哲学问题，例如：如果机器人与我们生活在一起，会对经济产生什么影响？到 2050 年，数量可能会少于四个。