作者:Maxwell Zeff
Nvidia 在 CES 2025 上推出了一款可在 PC 桌面上运行的原型 AI 化身。人工智能助手,R2X,看起来像视频游戏角色,它可以帮助您导航计算机上的应用程序。
R2X 头像使用 Nvidia 的 AI 模型进行渲染和动画,用户可以在自己选择的流行 LLM 上运行头像,例如 OpenAI 的 GPT-4o 或 xAI 的 Grok。用户可以通过文本和语音与 R2X 交谈、上传文件进行处理,甚至可以让 AI 助手实时查看屏幕或摄像头上发生的情况。
科技公司最近正在创造大量人工智能化身,不仅在视频游戏中,而且还为企业和消费者客户创造了人工智能化身。早期的演示很奇怪,但有些人认为这些化身对于人工智能助手来说是一个有前途的用户界面。通过 R2X,Nvidia 试图将生成视频游戏功能与尖端的法学硕士结合起来,创建一个看起来和感觉都像人类的人工智能助手。
该公司计划在 2025 年上半年开源这些化身。Nvidia 认为这是一个供开发人员构建的新用户界面,允许用户插入他们最喜欢的人工智能软件产品,甚至在本地运行这些化身。
很像Microsoft 的召回功能(这已经是因隐私问题而延迟),R2X 可以不断地截取屏幕截图,并通过 AI 模型运行它们进行处理,尽管此功能默认情况下处于关闭状态。启用后,它可以提供有关计算机上运行的应用程序的反馈,例如帮助您完成复杂的编码任务。
R2X 仍然是一个原型,甚至 Nvidia 也承认仍有一些错误需要解决。在 TechCrunch 的演示中,Nvidia 的头像有一种恐怖谷的感觉——它的脸有时会卡在奇怪的位置,而且它的语气有时感觉有点咄咄逼人。总的来说,我觉得在我工作时让一个人形头像盯着我有点奇怪。
R2X 通常会提供有用的说明并准确地查看屏幕上的内容。但在某一时刻,化身给了我们错误的指令,后来,化身根本无法查看屏幕。这可能是底层 AI 模型(在本例中为 GPT-4o)的问题,但该示例显示了这种早期技术的局限性。
在一个演示中,Nvidia 产品负责人展示了 R2X 如何查看屏幕上的应用程序并帮助用户使用。具体来说,R2X 帮助我们使用 Adobe Photoshop 的生成填充功能。我们选择的照片是 Nvidia 首席执行官黄仁勋和两名餐厅工作人员站在一家亚洲餐厅里。Nvidia 的化身产生了幻觉,并给出了在 Photoshop 中哪里可以找到生成填充功能的错误指示。后来它失去了查看屏幕的能力,但在将我们使用的 AI 模型切换到 xAI 的 Grok 后,虚拟形象重新获得了屏幕查看能力。
在另一个演示中,R2X 能够从桌面获取 PDF,然后回答有关它的问题。此过程由本地检索增强生成 (RAG) 功能提供支持,该功能使这些 AI 化身能够从文档中提取信息并使用底层 LLM 对其进行处理。
英伟达正在使用其视频游戏部门的一些人工智能模型来支持这些化身的外观。为了生成头像,Nvidia 使用其 RTX 神经面部算法。为了自动化面部、嘴唇和舌头的运动,Nvidia 正在使用一种名为Audio2Face™-3D。该模型似乎在某些时候停滞不前,使头像的脸部处于尴尬的位置。
该公司还表示,这些 R2X 化身将能够作为个人助理加入 Microsoft Teams 会议。
Nvidia 的一位产品负责人表示,该公司正在努力赋予这些人工智能化身代理能力,以便有一天 R2X 可以在你的桌面上执行操作。这些能力似乎还有很长的路要走,它们可能需要与微软和 Adobe 等软件制造商合作,这些制造商正在尝试自己开发类似的代理系统。
目前尚不清楚英伟达是如何在这些产品中发出声音的。使用 GPT-4o 时,R2X 的声音听起来与任何 ChatGPT 的预设声音都不同,而 xAI 的 Grok 聊天机器人根本没有语音模式。
TechCrunch 有一份以人工智能为中心的时事通讯! 在这里注册每周三将其发送到您的收件箱。
Maxwell Zeff 是 TechCrunch 的高级记者,专门研究人工智能和新兴技术。此前,Zeff 曾在 Gizmodo、彭博社和 MSNBC 报道过人工智能的崛起和硅谷银行危机。他居住在旧金山。不报道的时候,他会徒步旅行、骑自行车,探索湾区的美食。