英语轻松读发新版了,欢迎下载、更新

AI教母李飞飞对计算机视觉有着远大的愿景

2024-12-12 16:00:23 英文原文

作者:Eliza Strickland

已经在人工智能历史上赢得了一席之地。她在其中发挥了重要作用深度学习多年辛勤劳动创造的革命图像网数据集和竞赛,挑战人工智能系统识别 1,000 个类别的物体和动物。2012 年,一种名为 AlexNet 的神经网络在 AI 研究界引起了轩然大波,它的表现远远超过了所有其他类型的模型并赢得了 ImageNet 竞赛。从那里开始,神经网络在互联网上现有的大量免费培训数据的支持下,它开始腾飞GPU提供前所未有的计算能力。

自 ImageNet 诞生以来的 13 年里,计算机视觉研究人员掌握了对象识别并转向图像和视频生成。李共同创立了斯坦福大学以人为本的人工智能研究所(HAI)并继续突破界限计算机视觉。就在今年,她创办了一家初创公司,世界实验室,它会生成用户可以探索的 3D 场景。World Labs 致力于为 AI 提供“空间智能”,即生成 3D 世界、在 3D 世界中进行推理以及与 3D 世界交互的能力。李昨天在神经IPS,大型人工智能会议,关于她对机器视觉的愿景,她给出了IEEE 频谱在她演讲之前接受独家采访。

您为什么将演讲的标题定为“提升视觉智能的阶梯”?

李飞飞:我认为从直觉上看,智力具有不同程度的复杂性和复杂性。在演讲中,我想表达的是,过去几十年,特别是过去十几年,深度学习革命,我们所学会的利用视觉智能所做的事情真是令人惊叹。我们的技术能力越来越强。我还受到 Judea Pearl 的“因果关系阶梯”的启发 [在他 2020 年出版的书中《为什么》一书]。

该演讲还有一个副标题“从观察到行动”。人们对此还不够重视:观察与互动和做事密切相关,无论是对于动物还是人工智能代理来说都是如此。。这与语言背道而驰。从根本上来说,语言是一种用于传达想法的沟通工具。在我看来,这些是非常互补但同样深刻的智力模式。

你的意思是我们本能地对某些景象做出反应吗?

李:我不只是在谈论本能。如果你观察一下感知的进化和动物智力的进化,你会发现它们是深深地、深深地交织在一起的。每当我们能够从环境中获取更多信息时,进化的力量就会推动能力和智能向前发展。如果你感觉不到环境,你与世界的关系就会非常被动;无论你吃还是被吃,都是一种非常被动的行为。但一旦你能够通过感知从环境中获取线索,进化压力就会真正增加,从而推动智力向前发展。

您认为这就是我们创造越来越深入的机器智能的方式吗?通过让机器感知更多的环境?

李:我不知道我是否会使用“深”这个形容词。我认为我们正在创造更多的能力。我认为它变得更加复杂、功能更加强大。我认为,解决空间智能问题是迈向全面智能的基本且关键的一步,这是绝对正确的。

我看过世界实验室的演示。您为什么想要研究空间智能并构建这些 3D 世界?

李:我认为空间智能是视觉智能的发展方向。如果我们认真地解决视觉问题并将其与实践联系起来,就会发现一个极其简单、显而易见的事实:世界是 3D 的。我们并不生活在一个平坦的世界中。我们的物理代理,无论是机器人还是设备,都将生活在 3D 世界中。甚至虚拟世界也变得越来越3D。如果您与艺术家、游戏开发人员、设计师、建筑师、医生交谈,即使他们在虚拟世界中工作,也会发现其中大部分都是 3D。如果你花点时间认识到这个简单但深刻的事实,毫无疑问,解决 3D 智能问题是根本。

我很好奇世界实验室的场景如何保持物体的持久性并遵守物理定律。这感觉像是向前迈出了令人兴奋的一步,因为像 Sora 这样的视频生成工具还在摸索这些事情

李:一旦你尊重世界的 3D 性,很多事情都是很自然的。例如,在我们在社交媒体上发布的一个视频中,篮球被放入场景中。因为它是 3D,所以它可以让您拥有这种能力。如果场景只是 2D 生成的像素,那么篮球将无处可去。

或者,就像《索拉》一样,它可能会去某个地方,但随后就会消失。当您尝试推动该技术向前发展时,您面临的最大技术挑战是什么?

李:没有人解决这个问题吧?这非常非常困难。你可以看到[在世界实验室的演示视频中]我们拍摄了一幅梵高的画,并以一致的风格生成了它周围的整个场景:艺术风格、灯光,甚至该社区会有什么样的建筑。如果你一转身,它就变成了摩天大楼,那就完全没有说服力了,对吧?而且它必须是 3D 的。你必须导航到它。所以这不仅仅是像素。

您能谈谈您用来训练它的数据吗?

李:很多。

您是否面临有关计算负担的技术挑战?

李:这是大量的计算。这是公共部门无法承担的计算类型。这就是我对利用这个休假、以私营部门的方式来做这件事感到兴奋的部分原因。这也是我一直倡导公共部门计算访问的部分原因,因为我自己的经验强调了创新和充足资源的重要性。

赋予公共部门权力是件好事,因为公共部门通常更愿意为了自身利益而获取知识,并为了造福人类而获取知识。

李:知识发现需要资源的支持吧?在伽利略时代,它是天文学家观测新天体最好的望远镜。胡克意识到放大镜可以变成显微镜并发现了细胞。每次出现新的技术工具,都有助于知识的寻求。现在,在人工智能时代,技术工具涉及计算和数据。对于公共部门来说,我们必须认识到这一点。

您希望联邦层面提供什么资源?

李:这是斯坦福 HAI 过去五年的工作。我们一直在与国会、参议院、白宫、工业界和其他大学合作创建 NAIRR,国家人工智能研究资源

假设我们能让人工智能系统真正理解 3D 世界,这会给我们带来什么?

李:它将释放人们的大量创造力和生产力。我很想以更有效的方式设计我的房子。我知道许多医学用途都涉及了解一个非常特殊的 3D 世界,即人体。我们总是谈论人类将创造的未来机器人来帮助我们,但机器人在 3D 世界中导航,它们需要空间智能作为大脑的一部分。我们还讨论虚拟世界,它允许人们参观地方、学习概念或娱乐。那些使用 3D 技术,尤其是混合技术,我们称之为 AR [增强现实]。我很想戴着一副眼镜漫步穿过国家公园,眼镜可以让我了解有关树木、道路和云彩的信息。我也很想通过空间智能的帮助学习不同的技能。

什么样的技能?

李:我的蹩脚例子是,如果我在高速公路上轮胎漏气了,我该怎么办?现在,我打开一个“如何更换轮胎”视频。但如果我能戴上眼镜看看我的车发生了什么,然后在指导下完成这个过程,那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪,你可以考虑雕刻——有趣的事情。

您认为我们在有生之年能在这方面取得多大进展?

李:哦,我认为这将在我们的有生之年发生,因为技术进步的速度非常快。你已经看到了过去10年所带来的一切。这绝对预示着接下来会发生什么。

关于《AI教母李飞飞对计算机视觉有着远大的愿景》的评论


暂无评论

发表评论

摘要

斯坦福大学教授、人工智能先驱李飞飞在 NeurIPS 上发表题为“提升视觉智能的阶梯”的主题演讲,讨论了她对机器视觉的愿景。她的演讲重点关注视觉智能从物体识别到空间智能的演变,强调 3D 理解对于全面人工智能的重要性。李最近推出了世界实验室,旨在赋予人工智能“空间智能”,使其能够生成 3D 世界并与之交互。她强调,解决 3D 智能问题对于提高机器视觉能力以及机器人和增强现实等领域的实际应用至关重要。斯坦福大学教授李飞飞