作者:Daniela Rus
模型在收到提示时生成文本、音频和视频的能力与人类惊人地相似。然而,到目前为止,这些算法在很大程度上仍然局限于数字世界,而不是我们生活的物理三维世界。事实上,每当我们试图将这些模型应用到现实世界时,即使是最复杂的模型也难以充分发挥作用。例如,想一想开发安全可靠的自动驾驶汽车是多么具有挑战性。虽然是人工智能,但这些模型不仅根本不懂物理学,而且还经常产生幻觉,这导致它们犯下莫名其妙的错误。
然而,今年人工智能最终将从数字世界跨越到我们居住的现实世界。将人工智能扩展到数字边界之外需要重新设计机器的思维方式,将人工智能的数字智能与机器人的机械能力融合在一起。这就是我所说的“物理智能”,一种新型智能机器,可以理解动态环境、应对不可预测性并实时做出决策。与标准人工智能使用的模型不同,物理智能植根于物理学。理解现实世界的基本原理,例如因果关系。
这些功能允许物理智能模型交互并适应不同的环境。在我在麻省理工学院的研究小组中,我们正在开发物理智能模型,我们称之为液体网络。例如,在一项实验中,我们训练了两架无人机(一架由标准人工智能模型操作,另一架由液体网络操作),利用人类飞行员捕获的数据在夏季定位森林中的物体。虽然这两款无人机在完成训练任务时表现同样出色,但当它们被要求在不同情况下(冬季或城市环境)定位物体时,只有液体网络无人机成功完成了任务。这个实验向我们表明,与在初始训练阶段后停止进化的传统人工智能系统不同,液体网络会像人类一样继续从经验中学习和适应。
物理智能还能够解释并实际执行源自文本或图像的复杂命令,从而弥合数字指令与现实世界执行之间的差距。例如,在我的实验室中,我们开发了一种物理智能系统,可以在不到一分钟的时间内根据“可以向前行走的机器人”或“”等提示迭代设计并 3D 打印小型机器人。“可以抓取物体的机器人”。
其他实验室也取得了重大突破。例如,由加州大学伯克利分校研究员 Pieter Abbeel 创立的机器人初创公司 Covariant 正在开发聊天机器人(类似于 ChatGTP),可以在提示时控制机械臂。他们已经筹集了超过 2.22 亿美元用于在全球仓库中开发和部署分拣机器人。卡内基梅隆大学的一个团队最近也证明了只需一个摄像头和不精确驱动的机器人就可以使用通过强化学习训练的单个神经网络执行动态且复杂的跑酷动作,包括跳上两倍高度的障碍物和跨越两倍长度的间隙。
如果说 2023 年是文本到图像的一年,2024 年是文本到视频的一年,那么 2025 年将标志着物理智能的时代,新一代设备将出现——不仅是机器人,还包括从电网到智能设备的任何东西。家庭——可以解释我们告诉他们的内容并执行现实世界中的任务。