作者:Lance Eliot
在今天的专栏中,我仔细探讨了大型行为模型 (LBM) 的快速发展,这些模型正在成为创建运行机器人和机器人系统的人工智能的首选。您可能不熟悉 LBM。不用担心。我将解释什么是 LBM,并确定它们最终如何利用大型语言模型 (LLM) 和当代生成人工智能。
总而言之,大型行为模型非常有前途,并且是由法学硕士与面向行为的专业能力提升组成的令人兴奋的新组合。有人可能会厚颜无耻地说,这是一笔真正的膳食交易。
我们来谈谈吧。
对创新命题的分析是我正在进行的 Forbes.com 专栏报道的一部分,内容涉及人工智能的最新进展,包括识别和解释各种有影响力的人工智能复杂性(请参阅链接在这里)。
在我们深入探讨人工智能方面之前,让我们先来看看人类如何学习新任务的一个重要手段。
有一天,我想提高我的烹饪技巧,所以我看着我的儿子——到目前为止,他的厨艺比我更好——准备了一道新菜。这顿饭对他来说也是新的,但他依靠对其他类似菜肴的了解来完成这项工作。正如他们所说,证据就在布丁中,最后的饭菜很美味。
我通过什么方式从他展示的烹饪技巧中学到了东西?
你可能会说,我很仔细地观察他的烹饪行为。
这就是我的意思。我看着他仔细挑选所需的炊具。他在准备食材时非常注重细节。炉灶、空气炸锅和其他烹饪设备都得到了巧妙的利用。我观察他放入各种香料,到处搅拌,他一直密切关注温度和食物煮熟的迹象。
一路上我也问了他很多问题。顺便说一句,我必须公开感谢他的耐心,因为在尝试做新饭菜时有人向你提出问题肯定会令人恼火。请把他评选为年度最佳儿子奖杯,谢谢。
不管怎样,关键是通过观察和好奇的提问,我学会了如何烹饪那道特定的饭菜,并且毫无疑问地获得了其他更广泛的与烹饪相关的见解。请注意,我没有读过书或研究过这个主题本身。相反,我使用交互式观察技术来获得新技能并提高我现有的能力。
我确信您在一生和各行各业中都做过类似的事情,例如学习如何驾驶汽车、粉刷房屋、使用电子表格、参加运动等等。也许我们可以使用同样的交互式观察技术来帮助推进人工智能。当然,这很有意义,让我们看看如何。
让我们首先讨论大型语言模型和生成式人工智能。
数以亿计的人每天都在使用生成式人工智能应用程序,例如广受欢迎的 OpenAI 的 ChatGPT,以及其他知名的主要人工智能软件,例如 GPT-4o、o1、Anthropic Claude、Google Gemini、Meta Llama 等。人工智能应用程序基于大型语言模型。简而言之,法学硕士是围绕英语等自然语言形成的。人工智能是通过对人类写作方式的广泛模式匹配进行数据训练的,通过扫描在互联网上找到的在线文章、叙述、诗歌等来实现这一点,有关我的深入解释,请参阅链接在这里。
它们是人类语言的模型。
它们体积很大,这就是它们获得计算流畅性的原因,并且看起来惊人地模仿人类书写。您可以输入提示并向 AI 提问。人工智能给出的答案有时与真人可能写出的答案无法区分。
使用生成式人工智能和法学硕士的一种模式是仅以自然语言方式与人工智能交互。你写一个问题;您会得到书面答复。我们正在逐步改进人工智能,以便您可以与人工智能对话并获得语音答案,有点像 Siri 和 Alexa 多年来所做的那样,但更加流畅。
从某种意义上说,我们还没有特别涉足行为领域,因此存在一种缺失的成分。我们可以利用行为的巨大价值,包括行为观察和类似的好奇探究。
事情是这样的。
假设我在厨房里安装了一个烹饪机器人(我确实有这个,但在我的人工智能实验室而不是在家里)。机器人有一个摄像头,可以直观地检测我和厨房里的东西。我可以观察AI。AI可以观察我。与此同时,人工智能正在利用生成式人工智能或法学硕士。这个整体设置的美妙之处在于,人工智能可以通过观察我并向我提问来向我学习任务,此外,我还可以通过观察它所做的事情并好奇它在做什么来向它学习。
请注意,自然语言并不是正在进行的学习工作的唯一要素。观察也是重要的一部分。由于我们在这个设置中拥有法学硕士,因此计算流畅性的常规能力就在眼前。好的。好处是观察的作用极大地提高了赌注,并极大地扩展了学习事物的方式。
这种类型的人工智能有一个朗朗上口的绰号,我们将其称为大型行为模型。这是一个逻辑命名法。人工智能与法学硕士有着相似的规模和建模。锦上添花的是,人工智能可以通过行为进行观察和被观察,并进行和推进训练。
顺便说一句,LBM 的总体定义和概念仍然存在争议。一些人工智能研究人员提到 LBM 或大型行为模型,但其含义可能与我描述的 LBM 不同。那很好。只需知道 LBM 领域正在不断变化,并且各种各样的研究工作正在进行中。进展正在发生,到了某个时候,将会以全球标准化和官方的方式对大型行为模型的组成进行更清晰的描述。
与 LBM 交互的示例对话可能有助于说明事情如何进行。
早些时候有人提醒你,我有点喜欢烹饪,嗯,不是很熟练,但你明白了。让我们继续讨论烹饪主题,看看 LBM 能做什么。请务必记住,这种相同类型的对话也可能发生在其他领域,例如在汽车发动机上工作的机器人、清洁窗户的机器人、看守院子的机器人以及可以想象的许多其他场景。
我启动了烹饪机器人,并选择让人工智能为我准备一顿饭。是的,从某种意义上说,我的儿子正在被机器人取代,但仅限于做饭,而且仅限于他出城时。需要非常明确的是,我的儿子仍然是我的儿子,而且,天哪,没有任何机器人能够超越这一坚决的戒律。
好的,我们开始吧。
对话持续了很长一段时间,但我认为上面的摘录足以展示我接下来将介绍的有关 LBM 的一些关键点。
是时候对刚刚发生的事情进行一些分析了。
我猜你立刻就认识到对话的互动性质,它相对代表了你与生成式人工智能和法学硕士交谈时所发生的情况。讨论很轻松。我不必规定精确的命令或使用一些奇怪的专业词汇。
人工智能和我使用的是日常自然语言。
我提到这一值得注意的点是因为机器人编程历来需要使用晦涩的编码和专门的计算机编程技能。软件工程师需要费力地编写几行代码来对机器人进行编程。机器人的能力有限,通常只对有限的单词或命令做出反应。
幸运的是,我们正在逐渐将生成式人工智能与机器人连接起来,我在以下位置详细介绍了这一点:链接在这里。这使得机器人的使用及其所谓的编程变得更加简单。幸福的脸。但这不是免费的午餐。存在许多潜在的问题和麻烦。悲伤的大脸。
我们逐渐让生成式人工智能有机会在现实世界中实际做事。
这既令人兴奋又令人不安。
假设一个机器人作为看门狗在你的院子里闲逛,由于生成式人工智能遇到了所谓的人工智能幻觉而出了差错,请参阅我对此类人工智能虚构的报道:链接在这里。可能会出现各种错误和人工智能相关问题。我并不是建议我们避免将生成式人工智能与机器人连接起来。这就是未来的潮流。不要以为你可以阻止这一进步。相反,我强调我们需要谨慎、谨慎地这样做,并且必须权衡道德和法律的后果。期间,故事结束。
接下来,交互的另一个方面涉及多模式数据。您可能正在使用基于单一数据模式的生成式人工智能,例如仅通过文本与您交谈。或者您可能正在使用图像生成器来获取文本并为您生成漂亮的图片。我一直在吹捧我们越来越多地走向多模式生成人工智能,请参阅我的预测链接在这里。这包括文本到文本、文本到图像、图像到文本、文本到音频、音频到文本、文本到视频、视频到文本以及其他多模式正在使用的内容类型。
对于 LBM,人工智能通常以多模式方式进行数据训练。这与许多传统的生成人工智能形成鲜明对比,这些人工智能几乎是在一种或两种数据模式上进行训练的。即使他们采用多种数据模式,他们也常常以单独的方式而不是以完全集成的方式这样做。LBM 通过使用集成良好的多模态来获得优势,或者有人说这些模式相互融合(这有点像基于人工智能的自动驾驶汽车和多传感器数据融合或 MSDF,请参阅我的解释:链接在这里)。
在我与烹饪机器人互动的过程中,你可能会微妙地发现,人工智能一直在说我之前在烹饪时被观察过。例如,我的切菜风格已经被观察到,并且人工智能已经根据我喜欢如何切菜进行了数据训练。
然后 LBM 问我这次是否希望 AI 复制我的粗切类型或细切风格。总而言之,关键是根据观察,LBM 能够模仿我的烹饪方法。我没有明确指示或教导LBM如何切菜,只是通过我切菜的努力向LBM展示。它基于行为和观察。
这说明 LBM 的设计超越了自然语言方法,也涵盖了行为。
哇,想想可能性。
我不想让自己看起来像个忧郁的格斯,但这又带来了好处,也带来了棘手的坏处。
如果人工智能观察到我在切菜,而我在切菜时不小心把刀掉了怎么办?人工智能是否会接受数据训练,每次切蔬菜时,刀都应该掉落?这就是计算拟态的真正可能性。
我怀疑任何成年人都会犯这种模仿错误。为什么?部分原因是常识。令人担忧的是,我们还没有以某种方式包含常识的人工智能,请参阅我的分析:链接在这里,但我们正在将人工智能与在物理世界中移动的机器人连接起来。目前,其他程序和数据培训护栏将需要发挥与安全相关的作用。
一些额外的评论,然后我将做一个快速总结。
最初帮助 LBM 成为众人瞩目的人工智能研究项目名为“TRI 机器人在一个下午学习新的操作技能”。方法如下。- 作者:Siyuan Feng、Ben Burchfiel、Toffee Albina 和 Russ Tedrake,中等的,2023 年 9 月 14 日,其中提出了以下要点(摘录):
LBM 的出现仍然强劲并且每天都受到关注。
这个新兴领域存在大量机会。大型行为模型还处于起步阶段。增长将是天文数字。我们必须首先解决难题并解决非常棘手的问题。
我强烈建议人工智能研究人员寻求巨大的挑战,让 LBM 看起来更强大。我们如何确保人工智能适当地识别正确的行为?可以采取哪些措施来防止行为模仿中的错误?是否存在护栏,一方面可以阻止灾难,但同时不会过度限制或限制 LBM 可以实现的目标?我们是否需要新的人工智能相关法律来适当管理大型行为模型的设计、开发、部署和使用?
从技术角度来看,适应性是 LBM 未来的一个重要关键词。
说到适应性,您可能知道查尔斯·达尔文的这句名言:“生存中最重要的因素既不是智力也不是力量,而是适应性。”让人工智能,尤其是 LBM 具有适应性至关重要。让我们明智、谨慎、自信地这样做。