有一天,人工智能可能比你更擅长上网。那天不是今天。

2025-12-03 17:00:00 英文原文

作者:Victoria Song

我想要的只是一双新百伦鞋。我不再相信那些时尚影响力人士,他们发誓 Vans、Converse 和 Allbirds 能够迎接日复一日步行 20,000 步的挑战。他们不是。秋季是假日销售旺季,因此,如果您不被现代电子商务淹没,那么现在就是购物的最佳时机。

如果我可以跳过所有虚假交易和几乎不加掩饰的广告,并让互联网找到最好的东西,那该多好啊对我来说?如果我可以告诉互联网我的愿望并得到实现怎么办?

科技公司的首席执行官们一直在宣扬这就是未来。告诉机器人你想要什么,抬起你的脚,让人工智能来做剩下的事情。微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 最近在播客上说有一天,人工智能将能够“像人类一样使用计算机”。他并不是唯一一位吹捧机器人和代理可能很快在所有方面都比我们更好的高管。

在过去的几周里,很明显浏览器是人工智能军备竞赛的最新参与者。我们谈论的是 Perplexity 的 Comet、ChatGPT Atlas 甚至 Chrome 浏览器,这些浏览器本身就将聊天机器人嵌入到互联网体验中。其目的是重新调整我们的浏览方式,让我们远离过去三十年占据统治地位的搜索引擎。中心思想与我们从所有其他代理公司那里听到的一样:人工智能将和你上网冲浪一样好。可能更好

很大,如果是真的的话。

目前,人工智能浏览器主要有两种类型。有些常规浏览器在可折叠窗口中装有人工智能助手,例如Chrome 具有 Gemini 功能, 或带副驾驶模式的 Edge。然后还有更专业的人工智能浏览器,最著名的是ChatGPT Atlas,困惑彗星,以及浏览器公司的直径。第二类通常会用人工智能取代您的搜索栏,有时还包括“代理模式”,其中人工智能可以为您完成更复杂的、与浏览器相关的任务。理论上,这包括帮助您预订或将商品添加到购物车。

虽然人工智能浏览器采用类似的方法,但它们对理想的网络冲浪体验有不同的看法。有些需要您为某些功能付费,当然,底层模型也存在差异。但这并不意味着排名。在这篇文章中,我正在评估人工智能浏览器目前是否可以提供更好的互联网。因此,我决定重点关注三个主要标准:

  • AI浏览器什么时候最有用?我想看看通过添加人工智能,哪些浏览任务(如果有的话)变得更容易或更快。
  • 需要多少时间及时哺乳?从理论上讲,我不必精心设计一个过于具体的提示或回答无数的后续问题来获得我正在寻找的结果。Google 擅长弄清楚您要输入的内容 - 我希望 ChatGPT 也能做到这一点。
  • 如果有代理,我相信它可以为我完成任务吗?人工智能代理的全部意义就是让他们为我做事。您需要高度确信结果是值得信赖的。

为了进行测试,我决定了一些基本规则。我保留了五个浏览器:Chrome、Edge、Atlas、Comet 和 Dia。还有更多可用的,但这感觉像是来自该领域各种参与者的两个人工智能浏览器类别的代表性组合。我专注于桌面应用程序,并尝试使设置尽可能统一:我通常指示人工智能浏览器保持答案敏捷,尽可能分享我的位置信息,启用内存设置,并将自己描述为“专门从事健康和可穿戴技术的科技记者”。我还从各种人工智能技能水平进行了测试。如果我是一个完全的人工智能新手,而不是更擅长提示的人,结果会是什么样子?最后,如果我在浏览器中尝试一项任务,我会在所有浏览器中尝试一下,直到出现完全相同的提示。

最终,我的问题不是你应该使用哪种人工智能浏览器,而是它们中的任何一个是否值得你花时间和精力。这是一次看看他们中的任何一个是否辜负了炒作的旅程。

简短的回答是:他们不这样做。

将人工智能助手固定在浏览器上并不会神奇地重新定义您与聊天机器人的交互方式。这更像是亲自出去玩,而不是发短信。你们正在进行相同的对话,只是采用不同的形式,每种形式都有自己的优点和缺点。但无论使用什么浏览器,我都会遇到同样的基本问题:你必须格外努力地思考如何制作正确的提示。这与搜索(尤其是谷歌)的发展方式相反。

在谷歌的鼎盛时期,你可以在搜索栏中输入一串拼写错误的单词,不知何故你仍然会得到正确的答案。人工智能模型需要更多的准备和指导。在谷歌的鼎盛时期,你可以在搜索栏中输入一串拼写错误的单词,不知何故你仍然会得到正确的答案。

接受对电子邮件进行排序的普遍折磨。

在任何一天,我都想知道我最重要的电子邮件是什么,以及我需要尽快回复哪些电子邮件。前几次我尝试完成这项任务时,我要求各种浏览器总结我的电子邮件。(我知道“总结我的电子邮件”并不是一个出色的提示,但它通常是默认建议。默认值之所以存在,是因为它们应该总体上是有帮助的。)我收到的只是收件箱中电子邮件的字面描述。在我的个人收件箱中,它说我的主文件夹中有一个主题,列出了主题,总结了预览,然后指出它“日期为 11 月 20 日,并且被标记为未加星标或不重要。”

我尝试完善我的要求。我没有“总结”,而是提示人工智能“根据紧急程度识别重要电子邮件”。在我的工作收件箱中,这会生成一个不重要、不紧急的电子邮件线程列表,因为模型不知道我实际上认为什么是重要的。我想要读者的反馈、来自可信联系人的推介或我忘记回复的话题。相反,我得到的是无关紧要的宣传,主要是针对健康骗局。

我的进展为零,直到 Comet 提出提示“查找重要的未回复电子邮件”。出现的前四封电子邮件中充斥着对科技记者来说重要的关键字——紧急!禁运!专属于边缘!所有人都有多个后续请求。你可以理解为什么彗星会认为它们很重要,但在查看它们之后,所有这些都是我根本不需要阅读的电子邮件,更不用说回复了。人工智能陷入了书中最古老的把戏:将关键词与事实混为一谈。

当我注意到彗星的人工智能已经埋葬了lede时,我正准备取消这个实验。在冗长的摘要中,有四分之三的内容是一个标有“个性化请求/跟进”的要点。它突出显示了两封电子邮件:一封来自一位首席执行官,针对我在最近的产品文章中提出的反馈,另一封来自一位读者,其中提供了与我的节奏相关的提示。两者都不“紧急”,但都值得仔细研究。

我在其他 AI 浏览器中尝试了 Comet 的“查找重要的未回复电子邮件”提示。他们都强调了其他之前跳过的、充满关键词的推介。没有人标记我的两封电子邮件感兴趣。所以我更加努力:

查找我之前曾感兴趣或提供个性化请求/反馈的未回复电子邮件。然后,根据时效性和关键词(例如未来两周内的“禁运”)评估我应该回复哪些内容。忽略我尚未回复的包含多个后续内容的电子邮件。

Comet 和 Dia 的情况稍好一些。两者都出现了多个相关的电子邮件线程,但仅最终需要回应。Edge 中的 Copilot 突出显示了 1 个相关主题和 5 个垃圾主题。Chrome 中的 Gemini 很失败:它只显示了一封黑色星期五营销电子邮件。

在 Atlas 中,ChatGPT 只是回复:“看起来 Gmail 成功返回了未读邮件 ID,但这些邮件的实际内容没有返回”批量读取已返回空的,这意味着 Gmail API 这轮没有提供电子邮件正文。它接着询问了两个冗长的后续问题。此时,我的选择是进一步完善我的提示或放弃。

我放弃了。

电子邮件大部分都失败了,但有些日常任务人工智能浏览器还可以。为了解决家庭事务,我不得不搜索一份 48 页的法律文件,虽然 CMD-F 是经过验证的,但法律术语却让我的大脑融化了。因此,我将文档加载到选项卡中,并提示 AI 浏览器列出所有相关页面和部分,并附带摘要。所有浏览器都返回相同的页面,但摘要略有不同。我仍然需要自己阅读,但这让我更快地找到了一个有用的起点。

这些浏览器还可以很好地用于互联网搜索——只要你有足够的耐心重新编程谷歌 20 年的肌肉记忆。人工智能搜索最有效的地方是回答有关您所在网站的问题。在考虑手机升级时,我要求机器人将各种 iPhone 规格和尺寸编制到苹果网站和更广泛的网络上的表格中。这比翻阅多个选项卡更方便、更有帮助。在这个过程结束时,我对要升级到哪款 iPhone 更有信心了。

每当我将思维方式转变为“人工智能如何帮助我与此页面交互?”时,我就会取得更大的成功。

每当我开始要求人工智能执行任务时为我做事,我最终会感到沮丧。每当我将思维方式转移到“人工智能如何帮助我与此页面交互?”时,我就会取得更大的成功。例如,我试图解析一项临床研究,并找到一个用晦涩难懂的医学术语写成的特别技术性的段落。要求模型用简单的英语总结和解释一些我不确定的概念很有帮助。

像这样汇总或编译数据是使用AI浏览器最方便的部分。所有的浏览器都做得相当好,这是一个触手可及的有用的东西 - 并非没有偶尔的来回,但总的来说,我需要更少的时间和更少的选项卡来达到我可以接管在线完成工作的繁重工作的程度。我总是赞成在浏览时减少标签页。

不过,我们已经知道人工智能擅长总结和编译。复杂的查询是这些浏览器的亮点。在这方面,人们也必须加倍努力,让人工智能屈服。

领先于怪奇物语第五季首播,我正在和同事讨论观看的事情18 分钟的 YouTube 回顾视频。他们分别致力于另一个人工智能项目,并询问人工智能浏览器助手是否可以将视频转换为可下载的 .txt 转录文件。所以我尝试提示:你能翻录这段 YouTube 视频的文字记录吗?

<em>Note how Dia says it will export the full transcript.</em>

<em>Semantics matter. “Put in a txt file” versus “create a downloadable .txt file” may mean the same things</em> <em>to humans, but not to AI.</em>

1/2

请注意 Dia 所说的它将导出完整的成绩单。
截图:迪亚

副驾驶以视频版权为由拒绝了。(没关系,大多数 YouTube 视频已经有文字记录,就在页面上。这应该不是一个难题。)我能得到的是视频内容的摘要或大纲。Comet 撕下了前 25 秒的准确文字记录,然后表示“该文字记录将在第 1-4 季中继续,包含详细的情节和人物回顾。”迪亚提供了带有时间戳的文字记录,但仅限于前 15 分钟。Atlas 和 Chrome 是仅有的两家提供完整成绩单的公司。就像在聊天窗口中输入一个非常长的逐行文字记录一样。

接下来,我询问每个浏览器的人工智能是否可以将该记录转换为带有时间戳的可下载 .txt 文件。只有阿特拉斯完成了任务。其余的人说生成可下载的文件并不在卡片中,但我可以自己将纯文本复制粘贴到文件中。

就这么多——只是告诉人工智能我想要什么。——

走了几条弯路后,我又回到了最初的任务:弄清楚该买哪一双 New Balance,并找到最划算的价格。

当我说我想要一双 New Balance 时,是因为我花了大约三个月的时间进行研究。我查看社交媒体,询问朋友,阅读各种品牌的历史,然后最终选择一个。然后我会花几个小时在该品牌的网站上减少我的选择,直到我有大约三个。之后,我会尝试在网上寻找优惠。这是一个漫长而艰巨的过程,很容易出现人为错误。因此,为什么自从我开始寻找一双耐用、时尚、舒适的步行鞋以来,两年过去了,我仍然没有找到一双。

有了人工智能浏览器,研究部分就变得“容易”。简而言之,我必须给它非常具体的研究提示。这意味着告诉它我是:平足,穿宽鞋更舒服,正在寻找一款生活方式运动鞋,因此不穿跑鞋,正在寻找每天可以轻松行走 15,000 到 20,000 步的鞋子,对多功能颜色感兴趣,但更喜欢中性白色,想要搭配运动休闲和高级街头服装的鞋子,并且不希望花费超过 120 美元(但更愿意保持在 100 美元以下)。

Screenshot of ChatGPT Atlas working on putting a pair of New Balance 530 into a cart

接下来是多次来回,浏览器要么听从我的需求,要么不听我的需求。回复越长,我就越有可能得到相互矛盾的建议——这是一款 200 美元的超高性能跑鞋,带有碳板作为您的首选,但在最底层,这是一款 85 美元的型号,它更具生活方式的感觉,但颜色完全错误。冲洗并重复。在五个浏览器中进行了大约 20 轮之后,我最终选择了 New Balance 530。

当我手动完成该过程时,530 也进入了我的候选名单。不过,虽然我自己更快地缩小了 New Balance 型号的范围,但人工智能已经为每个选择提供了推理。诸如此类的事情,该型号具有额外的缓冲功能,经久耐用或该模型的廓形可搭配多种服装我的选择主要是基于共鸣。

进入第二阶段:寻找交易。我要求所有五个浏览器找到一双 New Balance 530 的最低价格,全白、白银或白粉,女式 8.5(25 厘米),我的邮政编码中有库存。如果有代理模式,我会要求人工智能将其放入我的购物车。

ChatGPT Atlas in agent mode describing an attempt to close a pop-up window. “The pop-up is still there, and clicking the ‘X’ hasn’t worked yet. I think I might need to click slightly more precisely—at coordinates 659,247. Let’s give that a try and see if it closes this time so I can move forward with the task.”

又进行了几次反复,我得到了不同的结果。Dia、Comet、Chrome 和 Edge 找到了相同的本地 Foot Locker,但选择了不同的颜色。阿特拉斯最终将合适的一双放入我的购物车,但没有经过多次检查以确保我真的想要。它还试图超越我对取货的偏好并改用送货。有一次,我看到阿特拉斯花了一分钟时间试图关闭一个弹出窗口,然后继续购物。

我多次运行完整的实验,每次我都确信浏览器会找到特定日期的最佳价格。然而,我越来越不相信这就是我真正想要的鞋子。尤其是当 Atlas 推出 New Balance 574 Core 作为替代品时,因为它们是“NB 最具标志性的日常鞋型之一”,并且是一款多功能、雌雄同体的鞋子。(ChatGPT 知道我喜欢中性风格。)

如果我判断这些浏览器的前提是人工智能可能比你更擅长上网,那么事实并非如此。我从来没有考虑过这种“放手”的体验。但更广泛地说,我的整个 AI 浏览器体验强化了我花了很多时间为 AI 做事,以便它有时可以为我做事。我正在改变我的思维方式、我提出问题的方式以及我搜索和消化信息的方式。与其说人工智能如何融入我的生活,不如说我如何调整我的自然行为以适应它不断增长的存在。

这些浏览器的良好体验需要满足很多条件。谷歌搜索也是如此,但 20 年后,它所需要的脑力劳动比目前最好的人工智能浏览器要少得多。使用人工智能浏览器,你必须相当擅长提示。您必须了解聊天机器人的优势,并有足够的耐心来解决它们的弱点。或者,至少,你必须愿意学习。对于很多人来说都是如此。但我没有信心任何人下载人工智能浏览器的人会发现学习曲线是值得的。

人工智能有时很有用,但它总是需要大量工作。而且我还需要新鞋。我决定亲自去逛逛 New Balance 商店。

关注主题和作者从这个故事中可以在您的个性化主页源中看到更多类似内容并接收电子邮件更新。

关于《有一天,人工智能可能比你更擅长上网。那天不是今天。》的评论


暂无评论

发表评论

摘要

本文讨论了人工智能浏览器的当前功能和局限性,其旨在通过集成聊天机器人助手来增强网页浏览。作者根据三个标准测试了五种人工智能浏览器(具有 Gemini 功能的 Chrome、具有 Copilot 模式的 Edge、ChatGPT Atlas、Perplexity 的 Comet 和 The Browser Company 的 Dia):实用性、即时细化要求和任务完成可靠性。虽然浏览器在汇总数据和编译信息方面表现出了良好的前景,但它们在处理复杂的查询时遇到了困难,并且需要详细的提示才能提供准确的结果。作者的结论是,人工智能浏览器还没有比传统的网页浏览方法更好,因为它们需要精确的指令和大量的用户努力才能达到预期的结果。