马克·扎克伯格 (Mark Zuckerberg) 今天宣布,他的由社交媒体转型为元宇宙、由人工智能转型的公司 Meta 将升级其人工智能助手,为其提供一系列名人的声音,包括朱迪·丹奇 (Judi Dench) 女爵士和约翰·塞纳 (John Cena) 的声音。不过,对于 Metas 的长期目标来说,更重要的升级是其模型查看用户照片和其他视觉信息的新能力。
Meta 今天还发布了 Llama 3.2,这是其免费 AI 模型的第一个版本,具有视觉能力,扩大了它们在机器人、虚拟现实和所谓的 AI 代理中的实用性和相关性。Llama 3.2 的某些版本也是第一个针对在移动设备上运行进行优化的。这可以帮助开发人员创建在智能手机上运行的人工智能应用程序,并利用其摄像头或观看屏幕来代表您使用应用程序。
这是我们的第一个开源多模式模型,它将支持许多需要视觉理解的有趣应用程序,扎克伯格在今天于加利福尼亚州举行的 Meta 活动 Connect 的舞台上说道。
鉴于 Metas 在 Facebook、Instagram、WhatsApp 和 Messenger 上的巨大影响力,此次助手升级可以让许多人第一次体验到新一代声音和视觉能力更强的人工智能助手。Meta 今天表示,每周已有超过 1.8 亿人使用 Meta AI(该公司的人工智能助手被称为 Meta AI)。
扎克伯格在 Connect 上展示了许多新的人工智能功能。他播放了视频,其中一副运行 Llama 3.2 的雷朋智能眼镜根据所看到的成分提供食谱建议,并对商店货架上看到的服装提供评论。Metas 首席执行官还展示了该公司正在开发的几项实验性人工智能功能。其中包括支持西班牙语和英语之间实时翻译的软件、将视频自动配音成不同语言,以及可以代表创作者回答粉丝问题的创作者头像。
Meta 最近在其应用程序中赋予了 AI 更突出的地位,例如,使其成为 Instagram 和 Messenger 搜索栏的一部分。用户可以选择的新名人配音选项还包括 Awkwafina、Keegan Michael Key 和 Kristen Bell。
Meta 之前曾为基于文本的助手提供名人角色,但这些角色未能获得太多关注。7 月,该公司推出了一款名为 AI Studio 的工具,让用户可以创建具有他们选择的任何角色的聊天机器人。Meta 表示,新语音将于下个月向美国、加拿大、澳大利亚和新西兰的用户提供。Meta AI 图像功能将在美国推出,但该公司没有透露这些功能何时会出现在其他市场。
新版本的Meta AI还将能够提供有关用户照片的反馈和信息;例如,如果您不确定拍摄的是什么鸟的照片,它可以告诉您物种。它将能够帮助编辑图像,例如根据需要添加新的背景或细节。谷歌于 4 月份为其 Pixel 智能手机和 Google Photos 发布了类似的工具。
为 Meta AI 的新功能提供动力的是 Llama 的升级版本,Llama 是 Meta 的首要大型语言模型。鉴于 Llama 系列已经被开发者和初创公司广泛采用,今天宣布的免费模式也可能会产生广泛的影响。
与OpenAIs模型相比,Llama可以免费下载并在本地运行,尽管大规模商业使用存在一些限制。Llama 还可以更轻松地针对特定任务进行微调或通过额外训练进行修改。
Databricks(一家托管 Llama 等人工智能模型的公司)联合创始人兼工程副总裁帕特里克·温德尔 (Patrick Wendell) 表示,许多公司都被开放模型所吸引,因为它们可以让他们更好地保护自己的数据。
大型语言模型正日益变得多模态,这意味着它们经过训练可以处理音频和图像作为输入以及文本。这扩展了模型的能力,并允许开发人员在其之上构建新型人工智能应用程序,包括能够代表他们在计算机上执行有用任务的所谓人工智能代理。Llama 3.2 应该可以让开发人员更轻松地构建人工智能代理,例如可以浏览网页,也许可以在给出简短描述的情况下寻找特定类型产品的交易。
“多模式模型是一件大事,因为人们和企业使用的数据不仅仅是文本,它可以采用许多不同的格式,包括图像和音频或更专业的格式,如蛋白质序列或财务分类账,”菲利普·伊索拉说,麻省理工学院的教授。在过去的几年里,我们已经从强大的语言模型发展到现在也可以很好地处理图像和语音的模型。”每年我们都会看到更多的数据模式可供这些系统使用。”Air Street Capital 创始人兼普通合伙人、一份颇具影响力的人工智能年度报告的作者 Nathan Benaich 表示,通过 Llama 3.1,Meta 表明开放模型最终可以缩小与专有模型的差距。Benaich 补充说,多模式模型的性能往往优于较大的纯文本模型。他说,我很高兴看到 3.2 的发展。
今天早些时候,西雅图的艾伦人工智能研究所 (Ai2) 发布了一种名为 Molmo 的先进开源多模态模型。Molmo 的发布许可限制比 Llama 宽松,Ai2 还发布了其训练数据的详细信息,这可以帮助研究人员和开发人员试验和修改模型。
Meta 今天表示将发布几种尺寸的 Llama 3.2 以及相应的功能。除了具有 110 亿和 900 亿参数的两个更强大的实例(衡量模型复杂性及其大小)之外,Meta 还发布了功能较弱的 10 亿和 30 亿参数版本,旨在在便携式设备上良好运行。Meta 表示,这些版本已经针对高通和联发科基于 ARM 的移动芯片进行了优化。
Metas 人工智能改革正值令人兴奋的时刻,科技巨头竞相提供最先进的人工智能。该公司决定免费发布其最有价值的模型,这可能会使其在为许多人工智能工具和服务提供基础方面具有优势,特别是当公司开始探索人工智能代理的潜力时。