英语轻松读发新版了,欢迎下载、更新

让人工智能充当第二双眼睛是其最佳用例

2024-12-23 14:28:00 英文原文

作者:Ian Carlos Campbell

第一波人工智能特征已经通过总结来定义。苹果、谷歌和三星都提供某些版本的注释、通知或电子邮件摘要,在某些情况下根本不需要连接到互联网。这是有道理的:大型语言模型是在大量文本上进行训练的,因此它们可能能够有效地压缩文本。

如果您使用过这些功能中的任何一个,您就会知道他们的质量充其量是好坏参半,但他们最终为更好的事情奠定了基础。下一波大浪潮人工智能工具不仅专注于向人工智能提供文本,还让它处理屏幕上发生的大量事情。各种实现各不相同,但它们都指向同一件事:上下文人工智能可以充当您正在做的任何事情的第二双眼睛。

这就是为什么它是生成式人工智能的最佳选择,以及为什么设备制造商在向用户提供这些功能时处于真正的优势。

A humanoid robot with large, glowing eyes and a tablet screen, set against a vibrant pink background featuring a network of digital connection lines.

有关的

打破 8 个常见的人工智能神话

人工智能不是来抢我们的工作的

第二双眼睛

圆圈搜索、像素屏幕截图和副驾驶视觉

Circle to Search running on a Google Pixel 9.

它并不依赖于生成式人工智能,而是依赖于谷歌的圈圈搜索感觉就像我能想到的第一个 2024 年例子,让软件看到你的屏幕带来的好处超过了成本。

Circle to Search 首次出现在三星 Galaxy S24 上,但从技术上讲,现在已经成为 Android 的一部分,本质上是反向图像搜索的专门版本。长按手机的导航栏,屏幕将冻结,您可以圈出手机上您想要了解更多信息的任何内容。

这可能是某人在 TikTok 视频中穿的一双鞋,或者海报上的文字。Circle to Search 可以提取所有相关信息,帮助您找到想要购买的产品、定义术语或翻译您不理解的文本。

A Google Pixel Tablet on light wood surface

有关的

自 2024 年 12 月起,您在“搜索圈子”中圈出的所有内容也可以发送至像素截图是与 Pixel 9 一起推出的一款新应用,用于对屏幕截图进行分类。它使用 AI 将屏幕截图分类为不同的类别,并且作为最近更新的一部分,将图像内容作为 GBoard 中的建议进行建议。

这些功能,再加上向双子座询问屏幕上的内容的一般能力(主要集中在摘要上,除非您正在观看视频),表明当您向人工智能提供您正在查看的内容时,可能会发生什么。

A screenshot of an Edge browser window running Copilot Vision.

微软

微软已经开始在 Edge 浏览器中进一步运用这些基本理念。这是新的实验副驾驶视野该功能可让您在浏览时与人工智能助手交谈并回答有关您正在查看的内容的问题。该功能是有限的,并且能够以与副驾驶正常文本聊天大致相同的方式产生错误,但它代表了我认为可能是此类人工智能功能的最佳点。

您可以询问基本的建议,您可以通过更彻底地探索网站来自己回答这些建议,但也可以提出更具体的请求,甚至让 Copilot 帮助您在一轮 Geoguesser 中作弊。

目前,您可以使用 Copilot Vision 的网站数量受到了故意限制,微软表示这是出于安全和版权考虑的一部分,但有计划扩大。关闭 Copilot Vision 后,与您在 Copilot Vision 会话期间实际所说内容相关的任何数据或与这些问题和请求相关的上下文网站信息都不会保存。

这似乎是比“圈搜索”或“像素屏幕截图”更自然的获取帮助的方式,如果它成为所有主要人工智能平台的常态,我不会感到惊讶。或者至少是集成到操作系统或网络浏览器中的。

让人工智能查看你的屏幕可能会有缺点

设备制造商在保证用户安全方面处于独特的地位

A screenshot of Windows Recall search results showing screen grabs that match.

微软/安卓警察

所有这些屏幕共享功能的问题在于,人们经常查看他们不想与 Al 共享的内容。这就是为什么微软坚持认为 Copilot Vision 不记得它“看到”的任何东西。该公司被严厉批评Windows 召回的隐私问题,与 Pixel Screenshots 不同,它无需您的输入即可捕获屏幕图像,以创建您在计算机上所做的所有操作的时间线。

这个想法存在明显的问题——人工智能不应该捕获你的银行帐户或政府身份证件的屏幕截图——微软必须彻底修改 Recall 的工作方式和存储屏幕截图的方式,以使其能够真正发布。

所有这些屏幕共享功能的问题在于,人们经常查看他们不想与 Al 共享的内容。

拥有一个操作系统及其运行的硬件可以为您提供这些人工智能功能的独特优势,因为您可以精确控制这些模型可以访问的内容和时间。这是苹果在 iPhone 上以隐私为中心的人工智能方法的一个关键要素,也是它没有发布的几个原因之一Siri 的更新版本可以访问您手机的屏幕和应用程序。

不太关注一般知识的人工智能是好的

A person using ChatGPT on a laptop

来源:Pexels

为生成式人工智能提供动力的大型语言模型可能会在大量数据上进行训练,但它们实际上拥有大量准确知识的能力并不能得到保证。他们可能会给出不完整的答案,就像他们可能对直截了当的问题撒谎一样。

像谷歌这样的人工智能应用程序的优势笔记本LM他们制作了一个人工智能模型,负责回答有关少量信息的问题:无论您自己上传什么来源。让人工智能看到你的屏幕感觉就像是同类技能的上限,你所提供的限制就是你所看到的任何东西。

它比几个 PDF 或 YouTube 视频更广泛,但比期望人工智能成为所有人类知识的答题机要窄得多。这似乎是一个有用的人工智能运行的正确水平。

关于《让人工智能充当第二双眼睛是其最佳用例》的评论


暂无评论

发表评论

摘要

本文讨论了苹果、谷歌和三星设备中人工智能功能的演变,重点关注它们总结文本和提供上下文感知帮助的能力。它强调了谷歌的“圈搜索”等新功能,该功能允许用户在屏幕上圈出项目以获取更多信息,而无需连接互联网。Microsoft Edge 浏览器中的 Copilot Vision 使用户能够就他们正在查看的网页内容提出人工智能问题。文章强调了实现这些功能时隐私和安全的重要性,并建议拥有硬件和软件控制权的设备制造商在提供先进人工智能服务的同时,在确保用户安全方面具有优势。