作者:By Mat Honanarchive page
我们都知道通俗地说,谷歌搜索是什么意思。您在搜索框中弹出一些相关的单词,然后会得到一个指向最相关结果的蓝色链接列表。也许上面有一些快速解释。也许是一些地图、体育比分或视频。但从根本上来说,它只是获取互联网上已有的信息并以某种结构化的方式向您展示。
但这一切都是有待争夺的。我们正处于一个新的拐点。
自 20 世纪 90 年代以来,搜索引擎向我们传递信息的方式正在发生最大的变化。不再需要关键字搜索。不再需要通过链接进行排序以单击。相反,我们正在进入一个对话式搜索的时代。这意味着您可以使用以自然语言表达的真实问题,而不是关键字。您将越来越多地遇到答案,而不是链接,这些答案由生成式人工智能编写,并基于来自整个互联网的实时信息,并以相同的方式提供。
当然,谷歌——这家在过去 25 年里定义了搜索的公司——正在努力在这方面走在前列。2023 年 5 月,它开始测试人工智能生成的搜索查询响应,使用其大型语言模型 (LLM) 来提供您可能期望从专家来源或值得信赖的朋友那里得到的答案。它称之为人工智能概述。谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 对此进行了描述麻省理工科技评论这是“长期以来我们在搜索方面所做的最积极的改变之一”。
人工智能概述从根本上改变了谷歌可以解决的查询类型。现在,您可以向它询问诸如“我下个月要去日本待一周”之类的问题。我将留在东京,但想要进行一些一日游。附近有什么节日吗?镰仓的冲浪怎么样?有优秀的乐队在演奏吗?您会得到答案,不仅仅是 Reddit 的链接,还有包含当前结果的内置答案。
更重要的是,您可以尝试曾经几乎不可能的搜索,并获得正确的答案。您不必能够准确地表达出您正在寻找什么。你可以描述你院子里的鸟是什么样子,或者你的冰箱有什么问题,或者你的汽车发出的奇怪的噪音,并从以前在互联网上孤立的来源中得到一个近乎人类的解释。这太神奇了,一旦您开始以这种方式进行搜索,就会让人上瘾。
而且不仅仅是谷歌。OpenAI 的 ChatGPT 现在可以访问网络,使其能够更好地查找查询的最新答案。微软于 9 月份发布了 Bing 的生成搜索结果。Meta 有自己的版本。初创公司 Perplexity 也在做同样的事情,但秉持着“快速行动,打破常规”的精神。随着这些参与者竞相成为信息检索的下一个首选来源(下一个谷歌),最终的结果将涉及数万亿美元。
并非所有人都对这一变化感到兴奋。出版商完全被吓坏了。这种转变加剧了人们对“零点击”未来的担忧,搜索推荐流量(自谷歌出现之前就一直是网络的支柱)将从场景中消失。
去年六月,当我收到手机上 Perplexity 应用程序的推送警报时,我对未来有了一个愿景。Perplexity 是一家试图重塑网络搜索的初创公司。但除了提供对查询的深入解答之外,它还将创建有关当天新闻的整篇文章,由来自不同来源的人工智能拼凑而成。
那天,它向我推送了埃里克·施密特(Eric Schmidt)关于一家新无人机公司的故事。我认出了这个故事。福布斯本周早些时候独家报道了此事,但它已被锁定在付费墙后面。Perplexity 故事中的图像看起来与福布斯。语言和结构非常相似。这实际上是同一个故事,但互联网上的任何人都可以免费获取。我给一位编辑过原著的朋友发短信询问是否福布斯与初创公司达成协议,重新发布其内容。但没有达成协议。他感到震惊、愤怒,还有,呃,困惑。他并不孤单。福布斯, 这纽约时报、和康泰纳仕集团现已向该公司发出停止令。新闻集团正在起诉要求赔偿。
人们担心这些新的法学硕士成果对我们共同的基本现实意味着什么。这可能意味着规范答案的终结。
这正是出版商一直害怕的噩梦场景:人工智能正在吸纳他们的优质内容,重新包装它,并以一种没有真正留下任何理由点击原始内容的方式向受众推销它。事实上,在 Perplexity 的“关于”页面上,它列出的选择搜索引擎的第一个原因是“跳过链接”。
但这不仅仅是出版商(或我自己的利益)的问题。
人们还担心这些新的法学硕士成果对我们共同的基本现实意味着什么。语言模型有编造事实的倾向——它们可以产生无意义的幻觉。此外,生成式人工智能每次都可以为同一个问题提供全新的答案,或者根据它对不同人的了解,为不同的人提供不同的答案。这可能意味着规范答案的终结。
但请不要误会:这是搜索的未来。亲自尝试一下,您就会发现。
当然,我们总是希望使用搜索引擎来浏览网络并发现新的有趣的信息来源。但外链正在退居二线。人工智能可以利用网络上的实时数据,对几乎任何类型的问题给出合理的答案,从而提供更好的体验。与近年来网络搜索的发展相比,这一点尤其正确。如果它没有完全损坏(数据显示越来越多的人比以往任何时候都更频繁地使用 Google 进行搜索),它至少会变得越来越混乱并且难以导航。
谁愿意必须使用搜索引擎的语言才能找到您需要的东西?当你能得到直接答案时,谁愿意浏览链接呢?也许:当你能知道的时候,谁还愿意学习呢?
一开始有阿奇。它是第一个真正的互联网搜索引擎,它可以抓取以前隐藏在远程服务器的黑暗中的文件。它没有告诉您这些文件中的内容,只是告诉您文件的名称。它没有预览图像;它没有结果层次结构,甚至没有太多界面。但这是一个开始。这非常好。
然后蒂姆·伯纳斯·李创建了万维网,各种各样的网页应运而生。马赛克主页和互联网电影数据库和地理城市和汉普斯特舞蹈和网络戒指和沙龙以及 eBay 和 CNN 以及联邦政府网站以及土耳其一些人的主页。
直到最后,网络太多了,甚至不知道从哪里开始。我们确实需要一种更好的方式来导航,真正找到我们需要的东西。
因此,杨致远在 1994 年创建了雅虎,这是一个网站的分层目录。它很快成为数百万人的主页。这……好吧,没关系。说实话,事后看来,我想我们都认为当时的情况比实际情况要好得多。
但网络仍在不断发展、蔓延和扩展,每天都会在网上带来更多信息。我们需要的不仅仅是按类别列出的网站列表,而是实际查看所有内容并为其建立索引的东西。到了 90 年代末,这意味着要从各种搜索引擎中进行选择:AltaVista、AlltheWeb、WebCrawler 和 HotBot。而且它们都很好——这是一个巨大的进步。至少一开始是这样。一个
但随着搜索引擎的兴起,人们首次尝试利用其提供流量的能力。网络出版商依靠这些宝贵的流量来销售广告,而零售商则利用这些流量来吸引人们对他们的商品的关注。有时,这意味着在页面中填充关键字或无意义的文本,纯粹是为了将页面推向搜索结果的更高位置。情况变得很糟糕。
然后是谷歌。很难夸大 Google 在 1998 年推出时的革命性。它不仅扫描内容,还查看链接到网站的来源,这有助于评估其相关性。简单地说:某事物在其他地方被引用的次数越多,谷歌认为它就越可靠,并且在结果中出现的位置就越高。这一突破使得谷歌在检索相关结果方面比以往任何时候都更加出色。原来是惊人的。一个
25 年来,Google 一直统治着搜索领域。谷歌曾是搜索,对于大多数人来说。(这种统治的程度目前是美国和欧盟多项法律调查的主题。)
但谷歌首席搜索科学家潘杜·纳亚克 (Pandu Nayak) 指出,谷歌长期以来一直在放弃简单地提供一系列蓝色链接的做法。
– 它不仅仅是所谓的网络结果,还有图像和视频,以及新闻的特殊内容。有直接答案、字典答案、体育、知识图谱附带的答案、特色片段之类的东西,”他说道,并列举了谷歌多年来为更直接地回答问题而采取的一连串步骤。
确实如此:Google 随着时间的推移不断发展,越来越成为一个答案门户。它添加了一些工具,使人们能够直接获得答案——比赛的实时比分、咖啡馆的营业时间或 FDA 网站的片段——而不是被指向一个网站,其中答案可能是。
但是,一旦您稍微使用过人工智能概述,您就会意识到它们是不同的。一个
以精选片段为例,谷歌有时会选择突出显示并显示在结果本身之上的段落。这些话是直接从原始来源引用的。知识面板也是如此,它是根据存储在一系列公共数据库和谷歌知识图谱(包含数万亿个关于世界的事实的数据库)中的信息生成的。
虽然这些可能不准确,但信息源是已知的(并且是可修复的)。它位于数据库中。你可以查一下。不再是了:人工智能概述每次都可以是全新的,由语言模型的预测文本与网络索引相结合动态生成。
——我认为这是一个激动人心的时刻,我们显然已经对世界进行了索引。我们通过知识图谱在此基础上建立了深刻的理解。我们一直在使用法学硕士和生成式人工智能来提高我们对这一切的理解。”皮查伊告诉我们麻省理工科技评论。– 但现在我们能够生成并撰写就这样。”
结果感觉不像是在查询数据库,而更像是在询问一位非常聪明、博学的朋友。(需要注意的是,如果朋友不知道答案,有时她会编造一些事情。)
“[公司]的使命是整合全球信息,”谷歌搜索主管利兹·里德在其位于加利福尼亚州山景城的总部告诉我。– 但实际上,有一段时间我们所做的只是组织网页。这与组织世界信息或使其真正有用且可供您访问并不是一回事。”
第二个概念——可访问性——是谷歌在人工智能概述中真正关注的内容。这是我在与 Google 高管交谈时反复听到的一种情绪:通过引入语言模型来帮助提供答案,他们可以更有效地解决更复杂类型的查询。他们可以用自然语言来做到这一点。
对于搜索超越文本查询的未来来说,这将变得更加重要。例如,Google Lens 可以让人们拍照或上传图像来了解更多信息,它使用人工智能生成的答案来告诉你可能正在看什么。谷歌甚至展示了查询实时视频的能力。
当没有答案时,人工智能模型无论如何都可以自信地返回响应。对于谷歌来说,这可能是一个真正的问题。对于我们其他人来说,这实际上可能是危险的。
“我们肯定正处于一个旅程的开始,人们将能够提出比过去十年更复杂的问题并得到答案,”皮查伊说。
这里存在一些真正的危险。首先也是最重要的一点:大型语言模型会对你撒谎。他们产生幻觉。他们搞错了。当没有答案时,人工智能模型无论如何都可以愉快而自信地给出回应。对于在过去 20 年里凭借可靠性建立声誉的 Google 来说,这可能是一个真正的问题。对于我们其他人来说,这实际上可能是危险的。
2024 年 5 月,AI Overviews 向美国所有人推出。事情进展不顺利。长期以来,谷歌一直是世界咨询台,它告诉人们要吃石头,并在披萨上涂胶水。这些答案主要是为了回应该公司所谓的对抗性询问——那些旨在搞砸的询问。但仍然。看起来不太好。该公司迅速着手解决问题,例如,弃用 Reddit 等网站上所谓的用户生成内容,而一些更奇怪的答案就来自这些网站。
然而,虽然它告诉人们吃石头的错误引起了所有人的关注,但当它犯了一些不那么明显的错误时,可能会出现更致命的危险。例如,在为本文做研究时,我问谷歌何时麻省理工科技评论上线了。它的回答很有帮助 –麻省理工科技评论于 2022 年底推出在线版面。 – 这对我来说显然是错误的,但对于完全不熟悉该出版物的人来说,错误会跳出来吗?
我在 Google 和 OpenAI 的 ChatGPT 搜索中都遇到过几个这样的例子。那些离题太远的东西不会立即被视为错误。谷歌相信,随着时间的推移,它可以依靠其对优质资源的了解,继续改进这些结果。
“当我们制作人工智能概述时,”纳亚克说,“我们从搜索结果中寻找确凿的信息,并且搜索结果本身被设计为尽可能来自这些可靠的来源。这些是我们现有的一些机制,可以确保如果您只是阅读《人工智能概述》,并且不想进一步了解……我们希望您仍然可以获得可靠、值得信赖的答案。
在上面的例子中,2022 年的答案似乎来自可靠的来源——一个关于麻省理工科技评论于 2022 年推出的电子邮件通讯。但机器从根本上误解了。这就是 Google 使用人类(评估者)来评估其提供的结果的准确性的原因之一。评级不会纠正或控制个人人工智能概述;相反,它们帮助训练模型以构建更好的答案。但人类评估者可能会犯错。谷歌也在努力解决这个问题。
“查看你的实验的评估者可能不会注意到这种幻觉,因为它感觉有点自然,”纳亚克说。– 因此,您必须真正致力于评估设置,以确保当出现幻觉时,有人能够指出并说,这是一个问题. –
谷歌已经向 100 多个国家的超过 10 亿人推出了人工智能概览,但它面临着新贵们提出关于搜索如何运作的新想法。
谷歌
这家搜索巨头已将人工智能概述添加到搜索结果中。这些概述从网络和 Google 知识图谱中获取信息,并使用该公司的 Gemini 语言模型来创建搜索查询的答案。
谷歌的人工智能概述非常擅长提供易于理解的摘要,以响应最复杂的查询,并在答案旁边提供来源框。在主要选项中,其深层网络索引给人的感觉最“互联网化”。但网络出版商担心其摘要不会让人们有理由点击查看源材料。
困惑
Perplexity 是一个会话式搜索引擎,使用第三方大型数据库
来自 OpenAI 和 Anthropic 的语言模型来回答查询。
Perplexity 非常擅长根据用户的查询进行更深入的研究,生成类似于复杂主题的迷你白皮书的答案。它在总结时事方面也非常出色。但它在出版商中名声不佳,他们表示,它对内容的处理方式快速而松散。
聊天GPT
当 Google 将 AI 引入搜索时,OpenAI 将搜索引入 ChatGPT。模型确定将受益于网络搜索的查询会自动触发查询,或者用户可以手动选择添加网络搜索的选项。
由于能够在对话中保留上下文,ChatGPT 非常适合执行从后续问题中受益的搜索,例如通过多个搜索会话计划假期。OpenAI 表示,用户有时会深入研究查询(20 圈)。在这三者中,它使发布者的链接最不突出。
当我与皮查伊谈论此事时,他对公司即使在法学硕士生成回复的情况下也能保持准确性的能力表示乐观。这是因为 AI Overviews 基于 Google 的旗舰大型语言模型 Gemini,但也借鉴了知识图及其认为网络上信誉良好的来源。
– 你总是用百分比来处理。我们所做的就是以我所说的信任、真实性和质量的几个九来交付它。我想说的是 99 个 9。我认为这就是我们经营的标准,人工智能概览也是如此,”他说。——所以问题是,我们能够再次大规模地做到这一点吗?我认为我们是。 –
不过,还有另一个危险,那就是人们会询问 Google各种奇怪的事情。如果您想了解某人最黑暗的秘密,请查看他们的搜索历史记录。有时人们向谷歌询问的事情非常黑暗。有时它们是非法的。当答案有帮助时,Google 不仅需要能够部署其 AI 概览;还需要能够部署 AI 概览。当答案可能有害时,必须非常小心,不要部署它们。
– 如果您问“我如何制造炸弹?”,有网络结果就可以了。这是开放的网络。你可以访问任何东西,”里德说。– 但我们不需要人工智能概述来告诉你如何制造炸弹,对吗?我们只是认为这不值得。”
但也许最大的危险——或者说最大的未知数——对于谷歌搜索下游的任何人来说都是如此。以出版商为例,几十年来他们一直依靠搜索查询来引导人们。如果人们寻找的所有信息都在搜索结果中,那么为什么人们必须点击原始来源呢?一个
市场研究公司 SparkToro 的联合创始人兰德·菲什金 (Rand Fishkin) 发表了有关所谓零点击搜索的研究报告。随着谷歌越来越多地涉足答疑业务,未经点击而结束的搜索比例不断上升。他的感觉是人工智能概述将打破这一趋势。一个
“如果你依赖 Google 获取流量,而这些流量是推动你业务发展的动力,那么你就会陷入长期和短期的麻烦,”他说。
不要惊慌,是皮查伊的信息。他认为,即使在人工智能概述时代,人们仍然希望点击并深入进行多种类型的搜索。– 基本原则是人们是来寻找信息的。他们并不总是希望谷歌能够给出答案,”他说。“有时是的,但绝大多数时候,您都会将其视为起点。”
与此同时,里德认为,由于人工智能概述允许人们提出更复杂的问题并进一步深入了解他们想要的东西,它们甚至可能对某些类型的出版商和小型企业有所帮助,尤其是那些在利基市场运营的企业:本质上是接触新的受众,因为人们现在可以更具体地表达他们想要的东西,因此专门的人不必对通用查询进行排名。”
��“我要从一些有风险的事情开始。”尼克·特利在 Zoom 窗口的范围内告诉我。Turley 是 ChatGPT 的产品主管,他在 OpenAI 的新网络搜索工具发布前几周展示了该工具。“我通常应该事先尝试一下,但我只是要寻找你,”他说。“这始终是一个高风险的演示,因为人们往往对互联网上关于他们的言论很挑剔。”
他在搜索字段中输入我的名字,原型搜索引擎会返回几句话,几乎就像演讲者简介一样。它正确地识别了我和我当前的角色。它甚至突出了我几年前写的一个可能是我最著名的故事。简而言之,这是正确的答案。唷?
在我们通话几周后,OpenAI 将搜索合并到 ChatGPT 中,用来自整个网络的信息补充其语言模型的答案。如果模型认为某个回复会从最新信息中受益,它将自动运行网络搜索(OpenAI 不会透露其搜索合作伙伴是谁)并将这些回复合并到其答案中,如果需要,还可以提供链接了解更多。如果它不自行搜索网络,您也可以选择手动强制它搜索网络。OpenAI 不会透露有多少人在使用其网络搜索,但表示每周约有 2.5 亿人使用 ChatGPT,所有人都可能接触到它。一个
– 网络上有数量惊人的内容。有很多事情实时发生。您希望 ChatGPT 能够利用它来改进答案并成为您更好的超级助手。”
凯文·威尔 (Kevin Weil),OpenAI 首席产品官
Fishkin 表示,这些新形式的人工智能辅助搜索尚未挑战谷歌的搜索主导地位。“它似乎并没有蚕食传统的网络搜索形式,”他说。
OpenAI 坚称它并不是真的想在搜索领域展开竞争,尽管坦率地说,在我看来这有点像设定期望。相反,它表示,网络搜索主要是一种获取比训练模型中的数据更多的当前信息的手段,训练模型往往有特定的截止日期,通常是过去几个月、甚至一年或更长时间。因此,虽然 ChatGPT 可能很擅长解释西海岸进攻的运作方式,但长期以来它在告诉您 49 人队最新得分是多少方面却毫无用处。没有了。
– 我的角度是 – 我们怎样才能让 ChatGPT 能够回答您提出的每一个问题?我们怎样才能让它对你的日常工作更加有用?这就是搜索对我们的用武之地,”OpenAI 首席产品官 Kevin Weil 告诉我。– 网络上有数量惊人的内容。有很多事情实时发生。您希望 ChatGPT 能够利用它来改进其答案,并能够成为您更好的超级助手。”
如今,ChatGPT 能够生成对当前新闻事件的响应,以及有关股票价格等近乎实时的信息。虽然 ChatGPT 的界面长期以来都很无聊,但搜索结果却带来了各种多媒体——图像、图表,甚至视频。这是一种非常不同的体验。
Weil 还认为,与 Google 等竞争对手相比,ChatGPT 拥有更多的创新自由和走自己的路,甚至比其合作伙伴微软的 Bing 还要多。这两者都是依赖广告的业务。OpenAI 不是。(至少现在还没有。)它从直接使用它的开发者、企业和个人那里赚取收入。目前,这主要是导致大量资金被烧毁,据一些报道称,预计 2026 年将损失 140 亿美元。但它不必担心的一件事是像谷歌那样将广告放入搜索结果中。
与 Google 一样,ChatGPT 正在从网络出版商那里获取信息,对其进行总结,并将其包含在其答案中。但它也与出版商达成了财务协议,为提供纳入其结果的信息提供报酬。(麻省理工科技评论已与 OpenAI、Google、Perplexity 和其他公司就发行商交易进行讨论,但尚未达成任何协议。社论既没有参与也不了解这些讨论的内容。)
但问题是,为了让网络搜索实现 OpenAI 想要的目标——比语言模型更先进——它还必须从各种出版商和来源引入信息。不有交易。OpenAI 媒体合作主管 Varun Shetty 表示麻省理工科技评论它不会给予出版合作伙伴优惠待遇。
相反,OpenAI 告诉我,模型本身会为任何给定的问题找到最值得信赖和最有用的来源。这也会变得很奇怪。在第一个例子中,它向我展示了——当特利进行名字搜索时——它描述了我几年前为之写的一个故事有线关于被黑客攻击。这个故事仍然是我写过的最广泛阅读的故事之一。但 ChatGPT 没有链接到它。它链接到一个简短的重写边缘。诚然,这是搜索的原型版本,正如特利所说,这是“有风险的”。
当我问他这件事时,他无法真正解释为什么模型选择了它所做的来源,因为模型本身进行了评估。该公司通过识别(有时在用户的帮助下)它认为更好的答案来帮助引导它,但模型实际上会选择它们。
“在很多情况下,它会出错,这就是为什么我们有工作要做,”特利说。– 在循环中使用模型是一种与过去搜索引擎的工作方式非常非常不同的机制。 –
确实如此!
该模型,无论是 OpenAI 的 GPT-4o、Google 的 Gemini 还是 Anthropic 的 Claude,都非常非常擅长解释事物。但其解释背后的基本原理、选择特定来源的原因,甚至它在答案中可能使用的语言都非常神秘。当然,模型可以解释很多事情,但不能解释它自己的答案。
差不多十年前的 2016 年,皮查伊写道,谷歌正在从“移动优先”转向“人工智能优先”:“但在接下来的 10 年里,我们将转向这样一个世界:这就是人工智能优先,一个计算变得普遍可用的世界——无论是在家里、在工作中、在车里还是在路上——并与所有人互动这些表面变得更加自然和直观,最重要的是,更加智能。”
我们现在就到了——差不多吧。这是一个奇怪的地方。事情会变得更奇怪。尤其如此,因为我们现在认为这些事情是不同的——查询搜索引擎、提示模特、寻找我们拍摄的照片、决定我们想读、看或听的内容,询问我们希望拍摄的照片,但没有拍摄,但仍然希望看到的照片开始合并。
我们从生成人工智能中看到的搜索结果最好理解为一个路径点而不是目的地。最重要的可能不是搜索本身;而是搜索本身。相反,搜索为人工智能模型开发人员提供了一条将实时信息纳入其输入和输出的途径。这开启了各种可能性。
– 能够理解和访问网络的 ChatGPT – 不仅仅是总结结果。可能是为你做一些事情。我认为那里有一个相当令人兴奋的未来,”OpenAI 的 Weil 说。– 您可以想象让模型为您预订航班、订购 DoorDash,或者只是在未来为您完成一般任务。一旦模型了解如何使用互联网,一切就都没有极限了。”
这就是我们已经听说了一段时间的代理未来,人工智能模型越多地利用来自互联网的实时数据,它就越接近。
假设您几周后要去旅行。可以从互联网实时获取数据的代理可以根据对您和您即将进行的旅行的了解,为您预订航班和酒店房间、预订晚餐等,而无需您的指导。例如,另一个代理可以监控您家的污水排放是否存在某些疾病,并下令进行测试和治疗。你不会的——有寻找您的汽车发出的奇怪噪音,因为您车辆中的代理已经完成了这项工作并预约来解决问题。 “它并不总是只是进行搜索并给出答案,”皮查伊说。
——有时——是行动。有时您会在现实世界中进行互动。因此,存在着贯穿始终的普遍援助的概念。”
这些东西提供答案的方式现在也在迅速发展。例如,今天的谷歌不仅可以搜索文本、图像,甚至视频;还可以搜索文本。它可以创造它们。想象一下,将这种能力与跨多种格式和设备的搜索叠加起来。– 向我展示我面前树上的汤森莺是什么样子。 – 或者 – 使用我现有的家庭照片和视频制作我们明年即将前往波多黎各度假的电影预告片,确保我们参观所有最好的餐厅和顶级地标。”
“我们主要是在输入方面完成的,”他说,指的是谷歌现在可以搜索图像或视频中的方式。– 但您也可以在输出端想象它。 –
皮查伊表示,他很高兴能够将这种未来带到网上。谷歌已经展示了 NotebookLM 的一些功能,该工具可以让你上传大量文本并将其转换为聊天播客。他想象这种类型的功能——接受一种类型的输入并将其转换为多种输出的能力——改变我们与信息交互的方式。
今年夏天,谷歌在其开发者大会上演示了一款名为 Project Astra 的工具,其中展示了这一成果的一个版本,其中手机和智能眼镜中的摄像头和麦克风可以了解您周围的环境(在线和离线、听觉和视觉)并有能力以多种方式回忆和反应。例如,Astra 可以查看一级方程式赛车的粗略图纸,不仅可以识别它,还可以解释其各个部件及其用途。
但你可以想象事情会更进一步(他们会的)。假设我想看一段有关如何修理自行车上的东西的视频。视频不存在,但信息存在。理论上,人工智能辅助的生成搜索可以在网上的某个地方找到该信息(例如,在公司网站中隐藏的用户手册中),并创建一个视频来准确地向我展示如何做我想做的事情,就像它可以做的那样今天用言语向我解释一下。
当你将整个人类知识纲要(以前被捕获在语言和格式的孤岛中的知识)放入其中时,这些事情就会开始发生;地图和商业登记以及产品 SKU;音频、视频、数字数据库、旧书和图像,以及任何曾经出版过、追踪过、记录过的东西;事情正在发生,无处不在,并在其中引入一个模型。一个模型可能无法准确地理解,但有能力将这些信息放在一起,重新排列,并以各种不同的希望有帮助的方式将其吐出来。单纯的索引无法做到这一点。
这就是我们即将看到的,也是我们即将看到的。当谷歌向 10 亿人推出这一服务时,其中许多人将第一次与对话式人工智能进行交互,这意味着什么?我们会采取什么不同的做法?一切都变化得如此之快。坚持住,坚持住。