作者:Will Knight
旧金山教会区的一扇金属门上,有一个字符——“——”——提供了一条神秘的线索,让我们了解远处正在发生的劳动的良性循环。
门打开后,人类和机器都参与了激烈的活动。一名妇女使用两个操纵杆操作一对桌面机械臂,小心地将 T 恤抬起并折叠成整齐的一堆。几个较大的机器人将食品储藏室的物品从一个杂乱的盒子移到另一个盒子里。在房间的一个角落里,一名男子操作着一把塑料钳子,钳子套在他的手腕上,钳子的顶部有一个网络摄像头。机器人零件散落在房间里。
仓库是家身体智力,也被称为 PI 或 Ï(因此是前门上的符号),这是一家旨在为机器人提供深刻意义的初创公司人工智能升级。这就是围绕该公司梦想的兴奋和期待,投资者押注数亿美元,相信该公司将在人工智能领域取得下一个翻天覆地的突破。Physical Intelligence 上周宣布已从包括 OpenAI 和 Jeff Bezos 在内的投资者那里筹集了 4 亿美元,估值超过 20 亿美元。
在大楼二楼的一间玻璃墙会议室里,这家初创公司的首席执行官卡罗尔·豪斯曼(Karol Hausman)阐述了公司的愿景。
“如果我让你控制一个新机器人,经过一点练习,你可能就能弄清楚如何控制它,”豪斯曼说。“如果我们真的解决了这个问题,那么人工智能将能够做同样的事情。”
物理智能相信,通过将执行大量演示的机器人的传感器和运动数据输入到其主人工智能模型中,它可以为机器人提供像人类一样的物理世界理解和灵活性。“对于我们来说,这就是“解决”物理智能问题所需要的,”豪斯曼说。“只需将机器人连接到我们的模型即可为机器人注入智能。”
尽管近年来人工智能取得了惊人的进步,但没有人知道如何让机器人变得特别聪明或有能力。工厂或仓库中的机器本质上是高科技自动机,它们执行精确编排的动作,没有一丝智慧或独创性。
豪斯曼与其他几位联合创始人一起坐在会议桌前:谢尔盖·莱文,加州大学伯克利分校一位戴眼镜的年轻副教授;布赖恩·伊希特,一位友好的留着胡子的家伙,曾在谷歌与豪斯曼一起工作;和切尔西·芬恩斯坦福大学助理教授通过视频链接加入。
这个组建的团队点燃了机器人革命的希望,它从其他最新的人工智能进步中汲取灵感,特别是为 ChatGPT 等对话式人工智能提供支持的大型语言模型 (LLM) 的卓越能力。他们坚信,他们可以将同样程度的敬畏带入现实世界,而且很快就能做到。
AI 的语言技能2018 年开始发生变化,当时 OpenAI 展示了机器学习模型称为变压器当给定起始字符串时,可以生成令人惊讶的连贯文本块。计算机科学家花了几十年的时间试图编写程序来处理语言的复杂性和模糊性。OpenAI 的模型被称为生成式预训练变压器 (GPT),随着从书籍和互联网中汲取的越来越多的数据的输入,它稳步改进,最终能够进行令人信服的对话和回答广泛的问题。
2022 年初,当时在 Google 工作的 Hausman 和 Ichter 以及 Levine、Finn 等人表明,法学硕士也可以成为机器人智能的基础。尽管法学硕士无法与物理世界交互,但由于其训练数据范围广泛,它们包含了大量有关物体和场景的信息。尽管并不完美——就像纯粹通过阅读来了解世界的人一样——但这种洞察力足以让机器人有能力制定简单的行动计划。
豪斯曼等人在位于加利福尼亚州山景城的谷歌总部的模拟厨房中,将法学硕士与单臂机器人连接起来,赋予其解决开放式问题的能力。当机器人被告知“我把可乐洒在桌子上”时,它会利用法学硕士学位制定一个明智的行动计划,其中包括找到并取回罐子,将其扔进垃圾桶,然后获得一个用海绵来清理混乱——这一切都不需要任何传统的编程。
该团队后来将经过文本和图像训练的视觉语言模型连接到同一个机器人,从而提升了它理解周围世界的能力。在一项实验中,他们将不同名人的照片放在附近,然后要求机器人给泰勒·斯威夫特一罐汽水。“泰勒没有出现在机器人的任何训练数据中,但视觉语言模型知道她长什么样,”芬恩说道,她长长的棕色头发勾勒出灿烂的笑容。
那年晚些时候,正当 ChatGPT 火爆时,该团队决定在新西兰奥克兰的一次学术会议上演示该机器人。他们为观众提供了一个机会,让他们可以在加利福尼亚州通过自己选择的输入命令来控制它。观众对机器人解决问题的一般能力感到惊叹。围绕 ChatGPT 更广泛影响的讨论也越来越多。
法学硕士可以帮助机器人沟通、识别事物并制定计划,但他们采取行动的最基本能力因缺乏对物理世界的了解而受到阻碍。知道如何抓住一个奇怪形状的物体对人类来说是微不足道的,只是因为对三维物体的行为以及我们的手和手指如何工作有深刻的本能理解。聚集在一起的机器人专家们认识到,如果可以大规模捕获动作而不是言语并从中学习,ChatGPT 的卓越能力也许会转化为机器人的类似令人印象深刻的身体技能。“空气中弥漫着一股能量,”芬恩回忆起这一事件。
有迹象表明这可能确实有效。2023 年,Physical Intelligence 的另一位联合创始人 Quan Vuong 召集了 21 个不同机构的研究人员,使用同一个变压器模型训练 22 个不同的机器人手臂执行一系列任务。结果大于各个部分的总和。“在大多数情况下,新模型比研究人员专门为他们的机器人开发的模型更好,”芬恩说。
正如人类用一生的时间学习从幼儿时期摸索物体到几年后弹钢琴一样,为机器人提供更多的训练数据可能会解锁非凡的新技能。
Agility 和 Figure 等初创公司以及现代和特斯拉等大公司现在大力宣传的许多人形机器人也引发了人们对机器人革命的期望。这些机器的能力仍然有限,但远程操作演示可以使它们看起来更强大,支持者承诺做大事。埃隆·马斯克 (Elon Musk) 最近甚至提出,到 2040 年,类人机器人的数量可能会超过地球上的人类——这个建议可能最好用一卡车盐来接受。
向一家追求基础研究突破的公司投资数亿美元的想法甚至可能看起来很疯狂。但 OpenAI 已经展示了回报有多大,该公司通过其启动基金为 Physical Intelligence 的种子投资和最新投资做出了贡献。“投资的理由是人才,”一位熟悉 OpenAI 想法的消息人士表示。“他们拥有地球上最优秀的机器人人才。”
OpenAI 显然也在加强自己的机器人技术工作。上周,凯特琳·卡利诺夫斯基 (Caitlin Kalinowski) 曾领导 Meta 虚拟现实和增强现实耳机的开发,在 LinkedIn 上宣布她将加入 OpenAI 从事硬件工作,包括机器人技术。
Lachy Groom 是 OpenAI 首席执行官 Sam Altman 的朋友,也是 Physical Intelligence 的投资者和联合创始人,他加入会议室的团队讨论该计划的业务方面。新郎穿着一件看起来很昂贵的连帽衫,看起来非常年轻。他强调,物理智能有足够的空间来实现机器人学习的突破。“我刚刚与库什纳通了电话,”他指的是 Thrive Capital 的创始人兼执行合伙人约书亚·库什纳 (Joshua Kushner),该公司领导了这家初创公司的种子轮投资。当然,他也是唐纳德·特朗普女婿贾里德·库什纳的兄弟。
其他一些公司现在也在寻求同样的突破。一家名为 Skild 的公司由卡内基梅隆大学的机器人专家创立,于 7 月份筹集了 3 亿美元。“就像 OpenAI 为语言构建 ChatGPT 一样,我们正在为机器人构建通用大脑,”说迪帕克·帕塔克斯基尔德的首席执行官兼卡耐基梅隆大学的助理教授。
并非所有人都确信这可以通过 OpenAI 破解人工智能语言代码的方式来实现。
根本没有类似于可用于培训法学硕士的文本和图像数据的互联网规模的机器人动作存储库。无论如何,实现物理智能的突破可能需要指数级更多的数据。
“从维度上讲,与物理世界中物体的所有运动和活动相比,顺序排列的单词只是一个小玩具,”卡内基梅隆大学的机器人学家伊拉·努尔巴赫什(Illah Nourbakhsh)说,他没有参与斯基尔德的研究。“我们在物理世界中拥有的自由度不仅仅是字母表中的字母。”
加州大学伯克利分校的学者肯·戈德伯格(Ken Goldberg)致力于将人工智能应用于机器人,他警告说,围绕数据驱动的机器人革命和类人机器人的想法所引起的兴奋已经达到了炒作的程度。“为了达到预期的性能水平,我们需要“良好的老式工程”、模块化、算法和指标,”他说。
拉斯·泰德雷克麻省理工学院计算机科学家、丰田研究院机器人研究副院长表示,法学硕士的成功让包括他自己在内的许多机器人专家重新考虑他的研究重点,并专注于寻找更深入地追求机器人学习的方法。雄心勃勃的规模。但他承认,艰巨的挑战仍然存在。
“这仍然有点像一个梦想,”泰德雷克谈到通过大规模学习来解锁一般机器人能力的想法时说道。– 尽管人们已经显示出生命迹象。 –
Tedrake 表示,取得进步的秘诀可能涉及教导机器人以新的方式学习,例如观看人类做事的 YouTube 视频。人们想知道这种方法是否会导致未来机器出现一些奇怪的行为,比如跳 TikTok 舞蹈或翻转瓶子的超自然能力。Tedrake 解释说,这种方法首先只会教机器人一些简单的动作,比如伸手去拿东西,并且需要与从真实机器人劳动中收集的数据结合起来。
“当你和我用我们的智慧观看 YouTube 视频时,我们可以推断出人们使用的力量,”他说。“有一些[学习]只需要机器人与物理事物交互。”
豪斯曼带领我下楼,看看物理智能计划如何大规模地实现机器人学习。现在,一对机器人手臂正在尝试使用该公司的算法在没有人类帮助的情况下折叠衣服。手臂快速而坚定地移动,拿起一件 T 恤,然后像孩子一样缓慢而粗暴地折叠衣服,然后将其放下。
豪斯曼说,某些任务,例如折叠衣服,对于训练机器人特别有用,因为这项杂务涉及处理各种各样的物品,这些物品通常会扭曲和破碎,并且在你试图操纵它们时会弯曲和弯曲。“这是一项很好的任务,因为要真正解决它,你需要进行概括,”他说。“即使您收集了大量数据,您也无法收集任何服装可能出现的每种情况。”
物理智能公司希望通过与其他公司合作来收集更多数据,例如电子商务和制造公司,这些公司拥有机器人做各种事情。该初创公司还希望开发定制硬件,例如配备网络摄像头的钳子;它没有说明如何使用它,但它也许可以为执行日常任务的人们提供众包培训。
看完之后在演示中,我让物理智能充满了更智能的机器人的想法。回到阳光下,我想知道世界是否已经准备好让像 ChatGPT 这样的东西进入物理世界并接管如此多的物理任务。它可能会彻底改变工厂和仓库,为经济带来福音,但也可能引发人们对人工智能实现劳动力自动化潜力的更广泛恐慌。
几个月后,我检查了物理智能,发现该团队已经在机器人方面取得了一些令人印象深刻的进步。
Haussman、Levine 和 Finn 挤进 Zoom 窗口,解释说该公司使用 50 多种复杂的常见家务任务的大量训练数据开发了第一个模型。
三人向我展示了一个移动机器人卸载烘干机的视频;另一张是机器人手臂正在清理凌乱的厨房桌子;然后是一对现在看起来非常擅长折叠衣服的机械臂。我对机器人的动作看起来如此人性化感到震惊。只要轻轻一抖机器人手腕,它就能摇动一条短裤,将其展平以便折叠。
实现更通用能力的关键不仅在于大量数据,还在于将法学硕士与借用人工智能图像生成的模型类型相结合。“无论如何,它都不是 ChatGPT,但也许它很接近 GPT-1,”Levine 在谈到 OpenAI 的第一个大型语言模型时说道。
还有一些奇怪的人类,或者可能像幼儿一样的错误。在其中一个场景中,机器人将鸡蛋装得过满,并试图强行将其关闭。在另一个例子中,机器人将一个容器从桌子上扔下来,而不是在里面装满物品。三人似乎并不在意。“真正令我们兴奋的是我们有了这个通用配方,”豪斯曼说,“它显示了一些非常有趣的生命迹象。”