一个能看到你所看到的东西的人工智能

2024-12-11 11:30:00 英文原文

作者：Adam Clark Estes

几乎很难记住整个世界似乎都由人工智能驱动之前是什么样子。无论你喜欢与否，科技行业都相信人工智能可以改善一切：你的iPhone到你与动物的关系。还有炒作并不止于此。

随着 2025 年的临近，人工智能驱动的产品不断推出。开放人工智能刚刚宣布Sora，其期待已久的逼真视频生成器，“Shipmas”的一部分与圣诞节押韵的为期 12 天的系列产品发布。红迪网推出AI搜索工具帮助你深入了解它的蜂巢思维不使用谷歌。这不应该困扰谷歌，它有一种名为 Willow 的新型量子计算芯片承诺增压人工智能可以做什么。

然后是微软。后向 OpenAI 投资 130 亿美元和成为先行者在几年前的生成式人工智能竞赛中，微软近几个月一直在构建其稳定的人工智能产品。3月，公司收购了 Inflection AI并任命联合创始人 Mustafa Suleyman 为 Microsoft AI 首席执行官，负责监管 Copilot、Bing 和 Edge 等消费者 AI 产品。

微软 12 月初的大型产品发布在规模和知名度方面与 Sora 不太相称，但新的人工智能工具确实做了一些完全原创的事情。

它是称为副驾驶视觉。其基本理念是，Vision 允许 Microsoft 人工智能聊天机器人 Copilot 看到您在互联网浏览器中看到的内容。微软将 Copilot 称为“AI 伴侣”，对于 Vision 来说，这是有道理的。例如，如果您在 Wayfair 上购买家具，您可以要求 Copilot 寻找带有一点孟菲斯设计氛围，即使您根本不知道“孟菲斯设计氛围”意味着什么。然后，Copilot 会扫描整个网页，查找与您要求的内容相匹配的图像，然后为您指明该方向。换句话说，它可以看到您在 Wayfair 上看到的内容，并且可以回答您有关它的所有问题。这与我曾经拥有过的任何网络浏览体验都不同。

这里有很多注意事项。Copilot Vision 正在为有限数量的已注册 Copilot Pro 订阅者推出预览版用于副驾驶实验室。您必须使用 Edge 浏览器，并且它仅适用于某些网站。Microsoft 还会在您完成后删除每个会话中的所有信息，这有助于保护您的隐私。

我已经使用 Copilot Vision 几天了，我承认，与机器人谈论您正在查看的网站有点奇怪。也就是说，人工智能非常擅长总结维基百科上的文章，探索 TripAdvisor 上的地图也很有趣。但由于它目前只能在大约十几个网站上运行，我承认它的功能感觉相当有限。

但对我来说，这里的野心感觉有点无限。如果人工智能助手可以看到你的整个世界，知道什么是什么，并帮助你导航，那会怎样呢？这就是 Copilot Vision 背后的伟大理念。让人工智能监视你浏览网页只是让人工智能伴侣无论你走到哪里都在你肩上的一步。

在最近的一次采访中，苏莱曼解释了为什么与人工智能的合作是计算的未来。坦率地说，这是我多年来听到科技公司宣传的东西。但按照事情的发展方向，我终于开始买它了。

为了清晰和长度，我们的对话经过了轻微编辑。

您对目前的情况有何看法？您对 2024 年人工智能的主流程度感到惊讶吗？或者您认为人工智能会进一步领先还是落后？

我的一部分感觉这进展缓慢得令人沮丧，我们可以更快地取得更多进展。但我的一部分也对这些模型的出色程度感到不知所措。历史上第一次，我们实际上拥有的科学知识超出了我们所知道的如何应用于技术和产品的范围。我们一直在开发的这些大型语言模型，我们才刚刚开始了解它们的局限性以及它们不能做什么。每周我都会看到人们解锁新功能。

这可能是技术、科技行业最具创造力的时期，我能想到真正发明和创造新的体验，而这正是我一直热衷的事情。例如，如何创建个人人工智能或个人人工智能伴侣？我怎样才能真正让人们感觉有一个顺畅、流利、健谈的同伴在他们的角落里帮助他们处理日常生活？现在我实际上有了粘土，可以在我的指尖雕刻这个新物种。

您认为人们在使用人工智能方面有哪些障碍？

大多数时候，人们会问自己，“我用它来做什么？”就像任何可以做任何事情的新的通用技术一样，它会让用户思考，“好吧，如果它我可以做任何事情，我要用它做什么？因此，我们设计 Copilot 的方式是帮助引导对话。它提出了很好的问题。这是询问。当您处于语音模式时，它会主动监听。它会在正确的时间中断。根据谈话的主题，它有不同的语调和速度。

我们试图解决我们所谓的“冷启动问题”的一些局限性，知道如何充分利用技术，或者通过创建一个多信息来从哪里开始对话。对话交互更加流畅。

Siri 和 Alexa 等语音助手已经出现了一段时间。我认识很多人并不是每天都使用它们。我并不是每天都使用它们。您是否认为需要一个突破性的时刻（也许现在就是这个时刻）来让人们与计算机交谈并让这种感觉变得自然？

我的意思是，我现在每天都使用语音。当我想要寻找某样东西时，这是我做的第一件事。速度快多了。这要容易得多。它比在手机或键盘上输入要准确得多。最疯狂的是，它可以向你反问问题，让对话继续进行。这是一种全新的模式。

这是第一次，它确实有效。与过去不同的是，语音命令仅限于一些固定短语，比如开灯，或者[法国]的首都是什么，而且它们从来没有真正发挥作用。如今，这就像与朋友交谈一样，开启了不同类型的互动。您不再需要将自己的想法表达为搜索查询，在页面上的一堆链接到达结果页面时阅读这些链接，然后再查看该网页。您实际上可以直接询问 Copilot，就像您在与朋友、知识渊博的专家或顾问交谈一样。

我们看到语音优先交互的巨大增长，会话时间更长，涵盖的主题种类更多，频率也更高，因为您只需单击一下即可通过耳机进行对话拥有一位知识渊博、乐于助人的专家。所以，是的，我绝对认为这是计算的未来。

基本上，自从网络存在以来，我们就一直以同样的方式浏览网络。您认为我们为何陷入困境？

20 年来，我们一直停留在搜索和浏览器领域，遵循同样的范式，这是因为计算机无法使用我们的语言。我们必须学习他们的语言，对吗？该界面层介导了我们的沟通，该层是按钮和搜索查询。搜索查询并不代表您在对话中想法的丰富性。你被迫以简短的形式、以一种非常奇怪、限制性的方式表达事物，对吗？而且您无法询问任何后续情况。而现在，计算机能够理解我们的语言，它们说的是简单的英语——快速、互动、友善和支持。

语音显然是一种全新的范例，并且界面总是会改变您使用一项技术可以做什么。因此，现在我们有了一个全新的界面，它将为您提出的问题类型和您所进行的学习体验类型开辟全新的可能性。

这就引出了副驾驶视觉。新的可能性范围是什么样的？

Copilot Vision 是一次令人兴奋的体验。这在业内尚属首例。我们将成为第一个大规模推出对整个网页的通用视觉理解的公司。这是变革性的，因为它意味着您可以对副驾驶说，“这是什么？”或者，“那是什么？”或者，“看看那边。”那东西看起来像什么？——而这种模棱两可的指称——这个、那个或那里——是一种更加人性化的思考与世界互动的方式。

当您站在朋友、同事或家人旁边，并且你们都在看着同一株植物或同一张沙发，或者看着同一条衣服时，我们就会这样做。这就是同伴的感觉。这就是我们与 Copilot Consumer 一起设计的视觉、交互式伴侣式体验，这真是令人兴奋。这是完全不同的。当人们有机会真正为自己使用它时，您会发现它只是一种与计算机交互的完全不同的方式。

看起来自然的下一步是让 Copilot Vision 在网络上实际为您做一些事情，而不仅仅是为您描述事情。

你说得完全正确。第一步是你的人工智能伴侣应该能够听到你所听到的内容并用你的语言与你交谈。第二步是它应该看到您所看到的内容，并能够与您谈论您同时看到的内容。第三步是它应该能够代表您采取行动，填写表格、购买东西、预订东西、计划、导航、单击下拉菜单等等。所有这一切都将在可预见的未来发生。

幻觉是许多生成式人工智能的一大缺点。Vision 是否会出现这种情况，还是因为它处理一定量的信息而有所不同？

人类会犯错。有时，当他们眺望远处时，他们会错误地标记颜色，或者弄错一件家具的类型。有时会发生这种情况，但很少见。实际上，它在识别图像中的此类对象方面比普通人更准确，因为它看到了更多的数据。它拥有更多的经验。因此，幻觉并不是零，但这并不是体验的重大限制。

展望未来，随着硬件的发展，您认为从手机到眼镜或耳机的转变将如何引导我们与人工智能的关系？

我认为人们对屏幕越来越感到厌倦，不得不拉出屏幕来输入内容或拍照。这是额外的一层摩擦，并且侵入你当下的存在。因此，我确信各种可穿戴设备将在未来几年内变得越来越普遍，我们当然正在非常仔细地考虑这一点。

人工智能似乎非常适合工作场所。它对于总结会议或进行演示非常有帮助。但我很难在家里让它变得有意义。我缺少什么？

想一想：任何时候你去搜索某些东西，任何想到的问题，无论是一家餐馆还是另一个国家的一天中的时间，或者你应该在哪里购买你的下一辆车，或者，你知道，一些常识性问题的答案是什么，或者昨天新闻中发生了什么，体育比分是多少——所有这些事情现在都变得更快、更容易，并且与副驾驶更具互动性和对话性。所以我认为你的第一个想法应该是，让我问我的人工智能伴侣，因为答案更容易理解。它更加简洁，如果您想深入了解，它可以立即用于后续问题。

关于《一个能看到你所看到的东西的人工智能》的评论

暂无评论

发表评论

摘要

听起来您正在探索生成式人工智能，特别是微软的 Copilot Vision 功能，如何改变我们与数字设备和信息的交互。让我们分解一下您的问题和观察结果：### 理解交互范式的演变1. **从搜索查询到对话界面：**- **为什么我们陷入困境？** 几十年来，用户必须调整他们的查询以适应搜索引擎算法，而不是获得计算机理解自然语言的对话体验。- **当前转变：** 随着人工智能的进步，计算机现在可以更有效地处理和响应人类语音。这允许更快、更直观的搜索。### 副驾驶愿景：新领域2. **视觉理解能力：**- **描述与操作：** 最初，重点是描述所看到的内容，例如识别对象或解释网页上的内容。- **未来的行动：** 正如您所指出的，人工智能的下一个逻辑步骤是根据视觉输入执行操作（例如，单击按钮、填写表格）。3. **准确性和幻觉：**- **视觉识别准确性：** Copilot Vision 利用大量数据集提供准确的标签和描述。- **人类错误比较：** 虽然人类有时会因分心或缺乏专业知识而错误地标记物体，但人工智能的准确性通常更高。### 未来硬件趋势4. **从手机到可穿戴设备的转变：**- **减少摩擦：** 可穿戴技术的发展旨在最大限度地减少对物理设备的需求并减少干扰。- **增强临场感：** 将人工智能集成到眼镜或耳机中可以提供实时信息，而无需拿出手机，从而增强社交互动中的临场感。### 工作之外的实际应用5. **工作与家庭使用：**- **办公应用程序：** 总结会议、创建演示文稿和处理复杂的数据分析已经是明确的用例。- **家庭场景创意：**- **个性化推荐：**人工智能可以根据你冰箱里的食材推荐食谱，或者根据你的兴趣提供旅行建议。- **日常协助：** 更有效地管理日程、设置提醒和回答一般知识问题。### 总结影响- **增强交互性：** 对话式人工智能让您更轻松地快速、自然地获取信息。- **情境理解：** 借助 Copilot Vision 等功能，人工智能可以从音频和视觉输入中理解情境，从而使交互更加丰富。- **无缝集成：** 随着技术向可穿戴设备发展，人工智能的集成变得更加无缝，增强日常生活而不会分心。通过利用这些进步，像 Microsoft Copilot 这样的生成式人工智能工具将彻底改变我们在日常生活中与数字信息和设备交互的方式。

一个能看到你所看到的东西的人工智能

关于《一个能看到你所看到的东西的人工智能》的评论

发表评论

摘要

相关新闻

相关讨论