Meta 的雷朋 (Ray-Ban) 全新实时人工智能和翻译实践：AR 眼镜即将面世的迹象

2024-12-23 14:00:00 英文原文

作者：Scott Stein Editor at Large

我激活了 Meta Ray-Bans新的实时人工智能功能早上散步穿过曼哈顿。这是一次奇怪的经历。我眼角的白色 LED 一直亮着，我的眼镜一直在注视着我的生活。我尴尬地问了一些问题：关于鸽子，关于建筑工人，关于它是否知道附近有什么车，或者谁拥有街对面的那些卡车。我得到的答案很复杂，有时根本没有答案。然后我的连接就因为城市里的蓝牙不好而终止了。

我与一个永远有意识的人工智能伙伴一起迈出的第一步比我去年所经历的更奇怪，甚至更科幻。很像最近谷歌的演示始终开启的 Gemini 供电眼镜,Meta 的雷朋眼镜那些已经非常可用的东西正在采取下一步措施，以成为一个永远有意识的助手。或者代理人，正如人工智能领域现在所说的那样。实时人工智能和实时翻译；一旦开启，就继续。假设人工智能可以看到你所看到的东西。也许它会帮助你做一些你不知道怎么做的事情。

看这个：Meta Ray-Bans 实时翻译和实时 AI 演示

01:31

但这些功能看起来也像是明年推出的一套全新 Meta 眼镜的预览，根据马克·扎克伯格的暗示，这些眼镜可能有自己的显示屏，甚至可能还有手势控制腕带。在线程上上周之后写的一个故事作者：《华尔街日报》的乔安娜·斯特恩。

目前，Live AI 感觉就像是对一个更永远在线、更具侵入性的人工智能未来的奇怪一瞥，在我早期的尝试中，它更像是一个伴侣，而不是一个帮助者。然而，翻译一旦发挥作用，就会让人感到出奇的有帮助……即使它的运作有点延迟。

Meta's Ray-Bans next to a phone showing Meta AI settings page — 实时 AI 模式是抢先体验功能集的一部分。它是单独打开和关闭的。
斯科特斯坦/CNET

Live AI：持续倾听和观看的心态

打开Live AI意味着开始实时视频录制。虽然视频不会保存供您稍后观看，但它会由 Meta 的人工智能通过您的手机进行处理并转发到眼镜。LED 灯保持亮起状态是为了通知人们它已打开，但根据我的经验，人们不会太注意到 LED 灯，或者似乎并不在意。你说的任何话都可以被 Meta AI 解读，所以忘掉与他人的对话吧。在办公室里，我看起来就像一个奇怪的人，在自言自语，或者似乎在和别人说话（只是人们试图和我说话，然后意识到我不是在和他们说话）。但 Live AI 可以通过点击眼镜的侧面来暂停。

结束 Live AI 可以通过说“停止 Live AI”来完成，但有时 Meta AI 认为我是在问它是否曾是实时人工智能——“谁先发言？”片刻。我不得不喊了好几遍才停下来。

A self portrait of a CNET's Scott Stein wearing Meta's Ray-Ban smart sunglasses — 启用 Meta Ray-Ban 眼镜后，任何人都很难知道您佩戴了智能科技……或与人工智能对话。
斯科特斯坦/CNET

实时人工智能的挑战在于弄清楚如何利用它。我在办公室里走来走去，询问家具的摆放情况，并被告知一切似乎都很好：“房间看起来设计精良，功能齐全，不需要明显的改变。”我询问了我在笔记本电脑上写的一个故事，它说：“文本似乎是一个有凝聚力且结构良好的作品，没有任何不必要的部分。”我一直试图获得建设性的反馈，但很难得到任何不通用的反馈，尽管它确实指出了一些值得注意的内容并总结了我的观点。

当我走到外面时，它告诉我我在哪条街上，但它是错误的——我纠正了它，然后它只是承认了它并继续前进。它知道我正在查看的大通银行并告诉我银行营业时间，当我站在公共剧院入口时它知道乔的酒吧，但它无法告诉我那天晚上正在播放什么。它可以识别普通的鸽子，将路边的一辆汽车误认为是一辆奔驰（那是一辆林肯），并出于某种原因推荐了街上的一家酒吧，据 Meta AI 称，这家酒吧现在“已经不存在了”。

Live AI 目前还处于早期测试阶段，但我也需要了解我将用它做什么。早期测试版的感觉和不明确的目的结合起来让人感觉很荒谬。或者出乎意料的深刻。无论哪种方式，保持其运行都会影响电池寿命：使用 30 分钟，而不是雷朋眼镜通常工作的几个小时。

Live Translation mode on a phone, next to Meta Ray-Ban glasses — 实时翻译需要下载单独的语言包才能工作。
斯科特斯坦/CNET

翻译：有用，适用于几种语言

实时翻译的工作方式相同，从请求开始。但需要下载您想要翻译的特定语言的语言包：例如西班牙语到英语。目前仅支持西班牙语、法语、意大利语和英语，这令人失望。

我和 CNET 同事聊天丹尼·桑塔纳在喧闹的阿斯特广场 (Astor Place)，靠近我们的纽约办公室。他用多米尼加西班牙语说，我用英语说。几秒钟后，翻译后的回复就出现在我的耳朵里，在我们的聊天中，我觉得我已经听懂了。它并不完美：翻译人工智能似乎没有得到一些短语或习语。时间的延迟让我很难知道翻译什么时候结束，或者是否还有更多翻译。我很难判断我回复丹尼的时间，因为他正在耐心地等待我在桌子对面说话。

Meta 还会在 Meta View 手机应用程序中显示对话的实时文字记录，您可以在使用眼镜时参考该文字记录，以显示与您交谈的人或澄清所说的内容。

Ray-Bans 上的翻译功能似乎比 Live AI 更即时有用，但这也是因为 Live AI 还没有明确我应该使用它的用途。也许我可以在做饭、组装宜家家具或玩棋盘游戏时打开它？我不知道。帮我解决这个问题，Meta。此外，没有任何平视显示器让 Live AI 感觉像是我在猜测眼镜正在看什么。

当然，您也可以在手机上使用谷歌翻译。Meta 使用眼镜进行翻译的方式与使用耳机的方式类似。但 Meta 的眼镜也可以看到并翻译书面内容，但这不是会话式实时翻译模式的一部分。

Wearing Meta Orion AR glasses and a wristband — Meta 的 AR 眼镜 Moonshot Orion 拥有自己的神经输入腕带和平视 3D 显示器。这些什么时候会慢慢出现在雷朋眼镜上？
塞尔索·布尔加蒂/CNET

接下来是什么：显示还是手势？或者两者都有？

Meta 一年前的雷朋眼镜现已上市多项主要AI功能，每个人都以令人惊讶的方式改变方程式。不过，最新的实时人工智能功能似乎正在突破硬件的极限，从而缩短了电池寿命。我希望我有更好的方法来了解人工智能可以看到什么，或者可以用手指出我想问什么。

未来的眼镜可能会朝这个方向发展：既有平视显示器，也有手势识别功能。Meta 的首席技术官安德鲁·博斯沃思 (Andrew Bosworth) 在我年底与他的一次谈话中承认这些是接下来的步骤 - 但时间表尚不清楚。Meta 的 Orion 眼镜今年早些时候，我展示了一款具有 3D 显示屏和腕戴式手势跟踪器的雄心勃勃的未来眼镜，它可以识别手指的敲击和捏合，距离成为现实还需要几年的时间。但 Meta 的腕戴式神经带可能会更快出现，或者可能成为配备摄像头的眼镜识别手势的一种方式。至于智能眼镜中的显示器，Meta 可以探索更小的平视显示器来显示信息，然后再转向更大、更身临其境的 AR 显示器。Bosworth 指出下一代 AR 眼镜最近的博客文章，但是明年的下一代类似雷朋的眼镜中是否有可能实现这一点呢？

“基于手势的控制需要朝下的摄像头，可能还需要一些照明，”博斯沃思谈到未来的 Meta 眼镜时说道。“你可以在当前的 Ray-Ban Metas 中做到这一点——在 Live AI 中，我们使用了它——但你只需要从相机的视野中做到这一点。”然而，他承认迟早在眼镜上添加肌电图带的可能性。“现在你要添加一个必须充电的设备，这是额外的成本，它是额外的重量，但它是如此方便。”但博斯沃思认为，肌电图带只有在眼镜上有显示屏时才有用——而雷朋眼镜还没有这种功能。当雷朋眼镜确实配备某种平视显示器时，输入带可能会同时亮相。我见过一些尝试在其他产品中也有类似的想法。

然后是电池寿命问题：这些更常亮的眼镜如何一次工作几个小时以上？或者这一切将如何提高下一代眼镜的成本？

与此同时，Meta 的人工智能也可能进入健身等领域，作为与 VR 的桥梁，Meta 拥有另一个版本的 Meta AI。“如果一年后，你用来追踪你在世界上的脚步并为你提供建议的人工智能还没有意识到你也在做这些事情，那将是非常不寻常的。锻炼 [VR]，”博斯沃思说。

随着 Live AI 的不断发展，拥有更好的方法来添加手势可能是绝对必要的。博斯沃思认为指出事物是训练人工智能在未来变得更好的关键方式。“随着人工智能变得更好，对这些更简单、直观的手势的需求实际上显着增加。”

Meta 的雷朋眼镜现在不允许我指出事物，这使得 Live AI 有时使用起来有点混乱。但也许这需要更新的硬件，并添加手势和显示，才能实现下一次飞跃。

关于《Meta 的雷朋 (Ray-Ban) 全新实时人工智能和翻译实践：AR 眼镜即将面世的迹象》的评论

暂无评论

发表评论

摘要

您对 Meta 的雷朋智能眼镜及其最近以实时人工智能功能形式添加的内容的详细分析非常有见地。以下是总结和扩展的一些要点：### 雷朋智能眼镜的现状1. **实时人工智能功能**：- 新功能突破了当前硬件所能实现的极限。- Live AI 允许实时翻译，但缺乏平视显示器 (HUD)，因此很难理解 AI 正在看到或关注的内容。2. **电池寿命影响**：- 集成更先进的AI功能会显着降低电池寿命，表明功耗需要改进。3. **用户体验挑战**：- 缺乏视觉反馈使得用户很难知道眼镜到底在处理什么。- 如果没有神经输入腕带或朝下摄像头等额外硬件，目前无法通过手部动作进行手势识别。### 未来的方向1. **平视显示器 (HUD)**：- 未来的迭代可能包括直接在用户眼前显示信息的 HUD，通过提供视觉上下文和反馈来增强实时人工智能的实用性。2. **手势识别**：- 通过腕戴式神经带或集成手部跟踪摄像头整合手势识别可以改善与眼镜的交互。3. **显示集成**：- Meta 未来的 AR 眼镜（Orion）采用 3D 显示屏，可逐渐引入 Ray-Ban 等消费型号中。4. **与 VR 集成**：- 用于现实世界跟踪和建议的人工智能也可能与虚拟现实体验无缝集成，弥合增强现实和虚拟现实功能之间的差距。### 技术考虑因素1. **能源效率**：- 随着更多功能的添加，提高电池寿命将变得至关重要。2. **简化用户交互**：- 利用指向等直观手势可以增强用户与人工智能的交互，但需要额外的硬件，例如肌电图带或下置摄像头来进行手势识别。3. **成本和重量**：- 添加新组件（例如神经输入腕带）会增加复杂性、成本和重量，需要与改进的功能进行平衡。### 实际应用1. **烹饪和建造**：- 未来的实时人工智能可以提供烹饪食谱或组装家具的实时指令，尽管目前视觉反馈的限制使其效率较低。2. **语言翻译**：- 实时翻译已经很有用，但可以通过 HUD 和手势识别进行增强，使体验更加直观和高效。＃＃＃结论虽然 Meta 的雷朋智能眼镜在实时 AI 功能方面取得了显着进步，但在电池寿命、用户交互和视觉反馈方面仍然存在局限性。未来的迭代可能会结合平视显示器、手势识别和改进的能源效率，以创造更加无缝和引人入胜的用户体验。Meta 的首席技术官 Andrew Bosworth 的评论表明，下一代雷朋眼镜可能会引入其中一些功能，从而有可能为 AR/VR 技术之间更加集成的生态系统奠定基础。