英语轻松读发新版了,欢迎下载、更新

人工智能代理最终可以让 Siri 和 Alexa 真正有用

2025-01-02 11:30:00 英文原文

作者:Richard Nieva

SIri 和 Alexa 等语音助手可以通过人工智能代理获得急需的提升。

NurPhoto 来自 Getty Images

2016 年,新任谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 推出了 Google Assistant,作为其“人工智能优先”新议程的一部分,他将这款刚刚起步的语音助手吹捧为帮助人们完成任务的工具。

“Google Assistant 可以让你完成工作,随时随地为你提供所需的信息,”他在一篇文章中写道。博客文章当时。

这是一个崇高的目标,但在很大程度上未能实现。很多时候,该软件会被请求所困扰,默认进行网络搜索,并抱歉地说它无能为力。这导致人们将语音助手归咎于简单的任务,例如设置烹饪计时器、播放音乐或控制灯光。十年前发布的亚马逊 Alexa 的表现也好不到哪里去。Siri 是 Apple 于 2011 年推出的最早的一个最受批评的

但随着生成式人工智能在过去两年中成为主流,它为人工智能“代理”铺平了道路:经过专门编程以代表用户采取行动或完成任务(例如预订)的软件或者在网上买东西。随着皮查伊所说的“代理时代”在 2025 年到来,该技术有机会做一些迄今为止大型科技平台无法做到的事情:让他们的语音助手真正有用。

这意味着 Google Assistant、Alexa 和 Siri 最终可以兑现其充当私人助理的承诺。它不仅可以像 Google Assistant 现在那样背诵当天的会议安排,还可以预订会议、联系联系人并找到适合双方的时间。他们可能能够像数字旅行社一样为您预订假期的航班和酒店,而除了旅行日期和目的地之外,几乎没有更多信息。

根据 Forrester 研究,代理是科技行业最新的热潮,有 470 多个平台致力于该技术。其中包括从大型科技巨头到 LangChain、CrewAI 和 Play.ai 等小型初创公司。除了消费者功能之外,它们还可以通过代理提供客户服务或软件开发。根据 PitchBook 的数据,人工智能代理初创公司的交易数量比去年增长了 81% 以上,该领域的投资超过 80 亿美元。

“比赛已经开始,”史蒂夫·张 (Steve Jang) 说道。福布斯创富榜投资者也是 Kindred Ventures 公司的创始人。– 初创公司将与成熟的平台竞争,看谁能以更高的保真度来协调这一过程。谁可以创造更加人性化和现实的声音和对话,并访问我们都想要的数据和操作。”

大型科技语音助手已经为人工智能的快速发展做好了最佳准备。谷歌推出了其旗舰型号 Gemini 来增强其语音搜索功能。苹果今年早些时候宣布与 OpenAI 合作,使用 ChatGPT 来支持一些 Siri 查询。去年,亚马逊向 Anthropic 投资了 80 亿美元,该公司生产了功能强大的 Claude 聊天机器人。谷歌拒绝让任何高管接受采访。苹果和亚马逊没有回复采访请求。

– 我只在一些琐碎的事情上使用 Siri,并且我知道它不会搞砸。 –

Jang 认为真正的创新将在实际的语音人工智能模型中实现。与支持 ChatGPT 等服务的大型语言模型不同,语音模型不会接受文本训练,然后由软件大声朗读。相反,语音模型是根据实际语音音频进行训练的,因此它们可以捕捉语音中的微妙之处,例如节奏或情绪暗示。Jang 投资了专门从事语音代理的 Play.ai;它正在与 ElevenLabs、OpenAI 和 Google 等致力于语音模型研究的公司竞争。

然而,有些人并不那么相信代理会让大型语音助手变得更好。Imbue 的创始人邱侃军(Kanjun Qiu)是一家致力于开发编码软件代理的公司,他认为在这些产品中添加更多人工智能只会“逐步”改进它们。她表示,新的人工智能功能仍然不足以让人们信任它们。“授权作为一种范式实际上对人们来说真的很难,”邱说。– 我只在一些琐碎的事情上使用 Siri,而且我知道它不会搞砸。 –

但她认为语音人工智能的最新改进将以其他方式帮助消费者。例如,她预测,更多的应用程序将集成语音功能。Qiu 说,通过改进延迟和自然语言理解,您将能够向应用程序发出指令,它会执行该操作,就像告诉电子商务应用程序您想要退回这双鞋一样不太合适。(她是一名受过培训的工程师,她说她为自己开发了一款应用程序,可以将漫无目的的内容变成待办事项列表。)

人工智能和语音技术的改进也可以释放硅谷多年来一直在尝试的硬件雄心。十多年前,谷歌在推出谷歌眼镜时就臭名昭著地进行了面部识别,这款智能眼镜引发了人们对隐私的担忧,而且用处不大。本月早些时候,该公司嘲笑了一副新的原型眼镜与 Google 的 AI 代理新平台 Project Astra 一起使用。在演示中,当佩戴者查看进入键盘时,语音控制的眼镜会自动从佩戴者的电子邮件中提取门禁密码。该技术还可以唤起有关他前面的公共汽车或他走过的艺术雕塑的路线信息。

与此同时,Facebook 今年早些时候推出的 Orion 眼镜结合了语音和手势来控制人工智能工具,比如查看食品储藏室中的食材,并要求技术人员找到使用它们的食谱。

基于语音的创新也让技术变得更容易获得。张说,并不是每个人都能读、写或打字,但更多的人有能力说话。而且年轻人越来越喜欢这种方式:根据 YouGov 和 Vox 的一项研究,美国 18 至 29 岁的年轻人中有 42% 至少每周在聊天应用程序中发送语音消息。

人工智能的新进步可以使语音工具得到更广泛的使用,并改变人们与其技术交互的方式。“它使语音代理和语音本身成为迄今为止在计算领域尚未开发的出色的新用户界面,”Jang 说。

更多来自《福布斯》的内容

福布斯这些初创公司正在确保人工智能公司为获取内容付费经过拉什·施里瓦斯塔瓦福布斯谷歌的原型眼镜将人工智能代理放在你的脸上经过理查德·尼瓦福布斯程序员担心这家价值 20 亿美元的初创公司的人工智能会取代他们的工作经过拉什·施里瓦斯塔瓦

关于《人工智能代理最终可以让 Siri 和 Alexa 真正有用》的评论


暂无评论

发表评论

摘要

随着生成式人工智能的进步,Siri 和 Alexa 等语音助手可能会变得更加有用,使软件能够代表用户完成任务。谷歌、亚马逊和苹果等科技巨头正在将先进的人工智能模型集成到他们的语音助手中以增强功能,目标是到 2025 年实现“个人助理”级别的交互。而像 Play.ai 这样的初创公司则专注于开发更人性化的语音和交互通过实际的语音音频训练,一些专家质疑这些改进是否会显着提高用户对语音助手的信任。尽管如此,人工智能与语音技术的集成可以使设备更易于使用,并改变人们与设备交互的方式。