作者:Scott Stein Editor at Large
我沉浸在虚拟事物的世界中:我的家和我从未去过的地方的 3D 地图、视频环绕在我的脑海中、浏览器页面漂浮在我周围。但我并不孤单。那里有一个友好的声音,倾听我的问题并理解我所看到的。这位同伴似乎看到了我所看到的,听到了我所听到的。谷歌的 Gemini AI 是在我身后、在我周围还是在我内心?我的感知在哪里结束,人工智能又从哪里开始?
我正在演示一个未来三星混合现实耳机里面有谷歌的 Gemini AI 2.0。这款耳机要到 2025 年晚些时候才会上市,但它是个人科技领域即将发生的事情的一个好兆头,更不用说是一个警告了。多年来,人工智能一直在倾听我们的意见并做出回应。它可以通过我们的笔记本电脑、手机和云端听到我们的语音提示、阅读我们的文本提示并扫描我们的照片。接下来,人工智能将目光投向了我们的眼睛。
这些想法并不新鲜,但我们即将看到公司翻转开关,使耳机和眼镜发生令人惊讶的事情——有些已经上市,有些仍在酝酿之中。谷歌的 Android XR 棋步只是第一步。预计 Meta、苹果、微软和许多其他公司也会紧随其后。有些已经是了。从我已经看到的情况来看,这将使我们现在对人工智能的看法看起来像是开场表演。
谷歌 Android 生态系统总裁 Sameer Samat 看到了 AI 和 XR(业界目前“扩展现实”的缩写,涵盖 VR、AR 和 AI 辅助可穿戴设备)成为天作之合。“它实际上可以帮助你控制用户界面。它可以与你协作解决问题,并与你一起在虚拟空间中采取行动,”萨马特告诉我。我在 Android XR 中的演示让我们对此有所了解,展示了与我之前尝试过的任何体验不同的 AI 伴侣体验。这感觉更加个性化,就好像人工智能几乎生活在我的脑海中,看到我所看到的。
那个未来已经到来。 Meta 更新的雷朋眼镜现在包括 实时人工智能协助和翻译,所有这些都包含在一副 300 美元的眼镜中,您今天就可以购买。
在过去的几年里,人工智能已经成为科技领域被大力炒作的一部分,这主要是由像这样的公司在生成人工智能方面取得的成功推动的开放人工智能。人工智能的魔术有时令人惊叹,有时令人失望,有时很有希望,有时却很垃圾。与许多过度炒作的技术一样,承诺和现实常常交织在一起,在真正影响被理解之前就会导致混乱和破坏。
即使在科技新闻工作多年后,我仍然发现整个人工智能领域令人困惑。我不知道我觉得它有用还是可怕。有时两者兼而有之,但我经常考虑复杂性和加速性。当新技术获得关注并成为主流时,结果可能会出乎意料——就像手机一样。大多数人目前不佩戴 VR 和 AR 耳机和眼镜,或者即使佩戴,也并不经常佩戴。但这种情况可能会改变,随着人工智能能够通过我们脸上越来越多的传感器收集数据,如果事情确实大规模发展,其可能性将很难理解。
我已经看到了潜力的片段。我的三星和谷歌演示向我展示了如何让我的眼镜或耳机成为我的记忆并回忆起我所看到的东西。我可以要求有关我正在做的任何事情的信息和澄清,就像我身边有一个活的搜索引擎。今年,我一直戴着 Meta 的雷朋眼镜——从去年秋天开始上市的普通眼镜。现在,他们可以通过语音命令和快速快门瞬间识别物体或翻译语言。我在我家附近闲逛,向我的眼镜询问我看到的东西。有时他们会提供帮助;有时他们会提供帮助。其他时候则不然。
我花更多时间在耳机和眼镜上。是的,这是为了我作为早期技术探索者的工作。但VR曾经是为了尝试新奇的体验和游戏,但现在它已经成为我日常生活的一部分。我用一个 任务耳机为 每周锻炼与虚拟教练一起跟踪我的心率。我穿上 Vision Pro上班时,在我周围伸展一个弧形显示器,让自己沉浸在音乐中,坐在月球上,休息时观看漂浮的电影。我戴眼镜散步播放冥想和音乐,为我打电话,捕捉点点滴滴的回忆我的生活。技术正日益成为我日常生活的一部分,就在我眼前,现在人工智能也准备加入我的旅程。接下来会发生什么?
一些公司,比如 Meta,开始探索神经输入设备,正如我在其身上所经历的那样 原型猎户座眼镜。小型腕带可以使用 EMG(肌电图)检测电信号,并将这些信号转化为预测手势。人工智能已经在 VR 和 AR 耳机上广泛应用,可以预测头部运动、跟踪眼球运动、将手势转化为动作并同步体验,让它们感觉真实而不令人作呕。但更先进的生成式人工智能助手也可能开始让耳机成为我们拥有的最接近脑机接口的东西(除了植入物)。
我参观过的一些公司,像 OpenBCI,已经在探索脑电图传感器和 VR/AR 的组合。但人工智能与视觉和音频提示以及手部动作和手势一起工作,也足以让人感觉像是读心术。眼动追踪已经是一个充满了可能性和风险至于眼神注视如何反映我们的思想和认知状态。
应对复杂性是很困难的,但我一直在思考雷·库兹韦尔。这位著名的(有时也有争议的)人工智能先驱,现任谷歌工程总监,几十年来一直在撰写有关人工智能崛起的文章。他 2004 年出版的书《奇点临近》探索了一个由人工智能加速发展所塑造的奇怪未来,并有大量图表和图表作为支撑。2024 年,库兹韦尔发布了 奇点更近了是 20 年的后续著作,对他早期的论点进行了更简洁的回顾。让我注意到的是,自从库兹韦尔上一本书出版以来,他关于人工智能的许多想法已经成为现实。他对未来的预测范围从奇异到令人难以置信,包括让我们恢复活力的纳米机器人、能源危机的解决方案以及经济差距的结束。然而,库兹韦尔设想在他预测的奇点和我们现在的时刻之间架起一座桥梁,他相信它存在于 AR 和 VR 中。
在今年早些时候与库兹韦尔的一次谈话中,他告诉了我同样的事情。“是的,这比仅仅尝试控制手机要好得多。在 AR 环境中,事物可以呈现给你,你可以更快地吸收它们。而且这比进入你的大脑更好。这更容易,我认为我确实认为,最终我们将把我们的大脑扩展到云中,但我认为这是我们现在的状态和最终目标之间的一步。”
混合现实耳机和智能眼镜还远不能直接与我们的大脑交互,但连接到日益活跃的摄像头和麦克风的生成式人工智能开始让人感觉朝着这一愿景迈出了一步。到 2025 年,我们可能会看到许多新的实验突破了这种方法的界限。
谷歌是最新的推动者,旨在将人工智能融入 XR,但 Meta 已经在探索这一领域。Meta 的首席技术官 Andrew Bosworth,一年前告诉我的随着时间的推移,人工智能将被更多地添加到 Meta 的眼镜和 Quest VR 耳机中。Meta Reality Labs 首席科学家 Michael Abrash 表示 期待已久的AR眼镜作为辅助记忆系统和基于代理的人工智能接口。Meta 的 Orion 原型眼镜在我最近经历的一次演示中展示了部分功能,而最新的雷朋眼镜则通过始终处于活动状态的记录摄像头引入提醒和持续帮助。
与此同时,虚拟现实中的生成式人工智能则专注于创意工具——至少目前是这样。Meta 的 Horizon 平台负责人 Mark Rabkin 表示:“我们从 Horizon [Quest 耳机] 中的 gen AI 开始,用于世界构建、您自己的身份和定制、化身、衣服和配件,以及为这些角色制作动画。”我今年早些时候参加了该公司的 Connect 开发者大会。但 Rabkin 认为 VR 和 AR 中必要的视觉感知 AI 层(就像 Android XR 的 Gemini 一样)是下一步的关键。“几乎所有你用雷朋眼镜做的事情最终都可以在虚拟宇宙中完成。但为了让它发挥作用,元人工智能需要告诉你有关虚拟宇宙的信息。”
博斯沃思在最近的一次谈话中向我提到,人工智能识别虚拟事物的训练数据仍然不够好。它更擅长根据照片和视频的训练来识别现实世界,而基于摄像头的眼镜可以做得更好。随着 Meta 的眼镜从基于语音的设备发展为带显示屏的设备,它们还可以集成手部追踪和腕带式配件。
苹果现在拥有自己的尖端混合现实耳机,但布满摄像头的 Vision Pro 还没有内置深度感知的生成人工智能层。苹果正在通过分层生成人工智能的点点滴滴苹果情报,早在 6 月份就宣布将进入其手机、iPad 和 Mac 中。Apple Vision Pro 是一款早期采用者的耳机,尚未获得 Apple Intelligence,但它会可能是下一个在甲板上。
已经有迹象表明苹果的混合现实人工智能可能如何运作。视觉智能刚刚在 iPhone 上首次亮相,只需按一下侧面按钮即可扫描和识别世界上的事物,就像 Google 的 Lens 功能一样。苹果预计最早将于今年推出更实惠的 Vision Pro 版本,并可能首次与 iPhone 连接。如果苹果准备好了,那么开始在机上添加更多基于摄像头的辅助人工智能功能将是很有意义的。
还有很多其他参与者。Snap 推出了以开发人员为中心的独立版 眼镜 AR眼镜去年秋天,我有机会尝试一下。它们已经具有一些集成了 ChatGPT 的生成人工智能功能。 Xreal最新款眼镜有专门针对此类未来人工智能功能的可选摄像头。
几乎所有 AR 和 VR 耳机现在都配备了大量更高质量的摄像头,这些摄像头已用于混合现实世界的视频源和虚拟叠加层以创建混合现实。添加更深层次的人工智能,这些传感器可以成为创建连续的代理式感知的一种方式。这些人工智能层也可能会改变应用程序和游戏的制作方式。未来的耳机更有可能同时混合多种体验,而不是暂时停留在一种体验上,而人工智能则可以帮助管理这一切。
手机会开始变得更加直接联系也有这些新的耳机和眼镜。就像 Android XR 已经暗示的那样,预计我们在耳机上管理这些额外服务的方式将是我们已经使用的手机的扩展。
人工智能已经可以扫描我们的言语、声音和照片。集成到耳机和眼镜中的人工智能让我们得以一睹这个世界,在这个世界里,他们的相机将扫描我们的整个生活,或者至少是我们看到的一切。这是一个令人不安的想法。为了实现这一目标,摄像头需要能够访问人工智能,公司需要制定权限和隐私功能,使其不会感到侵入或侵犯。
在我的 Android XR 演示中,感觉 Gemini 可以看到我在耳机中所做的一切,但也感觉它可以看到我房间里周围的一切。微软的召回功能Windows PC 上的人工智能面临强烈反对,人们担心它对计算机活动的始终感知可能会看到私人数据并暴露人们不希望人工智能服务共享或知道的时刻。这种对隐私的担忧阻碍了 Meta 和 Apple 等公司在其混合现实耳机中向开发者开放摄像头访问权限。但这些障碍正在消失。Meta 正在开放摄像头访问,苹果也在这样做——至少对于企业来说是这样。
Meta 的雷朋眼镜可以识别很多东西,但也有限制。我经常不被允许识别汽车或特定位置或地址——Meta AI 表示这违反了隐私条款。但有时,只要有正确的提示,我就可以做到。我不能询问产品中的健康或营养信息。在我最近与 Gemini 进行的 Android XR 演示中,我无法尝试识别同事的脸部。
这些人工智能记忆在哪里会感觉像是我们自己的延伸,它们会在哪里设置护栏——要么是为了我们的隐私,要么是为了对制造人工智能的公司提供法律保护?
我们已经拥有可以使用摄像头以各种方式与人工智能连接的手机。无论一个应用程序或操作系统似乎施加了什么限制,有时都可以通过另一个应用程序或操作系统来绕过。
然而,为了让未来的耳机和眼镜真正具有辅助性、真正了解世界,它们需要将人工智能与摄像头和其他传感器更深入地联系起来。我们所看到的 2025 年出现的情况可能只是表面现象,但潜力——无论好坏,还是完全怪异和混乱——即将到来。很难想象这到底意味着什么。
“无论你通过眼镜、手机、账户和服务传输的数据是什么,你都非常关心这些。你想要确保拥有这些数据的人是可信的,理想情况下他们拥有的数据越少越好,它尽可能本地化,它在服务器上保存得尽可能有限,而另一方面,你真的需要一个能够学习你的人工智能,”Meta 的首席技术官 Andrew Bosworth 在年底时通过 Zoom 告诉我。“我认为我们将从个性化人工智能中受益匪浅。我们的个性化人工智能没有理由以牺牲隐私为代价。”
但博斯沃思认为,人工智能将持续影响你的生活,这是未来发展的一部分——在眼镜、耳机和任何地方。“我认为作为一个社会,我们会对此感到非常满意。我很确定消费者对此的需求将会非常高。”
与此同时,也有很多人发出警告。艾德·齐特伦Better Offline 播客的主持人、人工智能炒作周期的长期批评者表示:“当生成式人工智能面向用户时,隐私问题远没有那么严重,但当它能够看到世界其他地方时,问题就来了。那些看到和处理现实世界的人必须受到监管且快速,否则我们将看到历史上一些最严重的侵犯隐私行为,并在社交网络的规模上扩散最严重的监视资本主义。”
当我在纽约漫步测试 Meta 眼镜最新的实时人工智能更新时,它可以在我漫步时连续录制视频并观察现实世界,我从未如此清晰地感觉到事情正在快速变化。现在,我和其他人一样对这一切感到惊讶、困惑和担忧。