我花了过去两周与AI交流,这里是我最大的三个收获

2024-10-09 15:54:07 英文原文

作者:Opinion By Graham Barlow published 9 October 2024 The current state of play for talking AI

A person using dictation with a smartphone.
(图片来自Shutterstock)

如果你关注最新的AI新闻,就会知道可以使用语音与之对话的聊天机器人已经出现了。开放人工智能组织是首批展示该技术的公司之一与其ChatGPT高级语音模式(目前每月只有10分钟免费),但谷歌是第一个推出市场的公司带着 Gemini直播(现在免费提供给所有Android用户),最近微软也加入了这一行列,通过对其应用程序进行重大更新来参与其中。副驾网站和应用程序(对所有人免费)包括语音通话。

用我们的声音与AI对话,并让它像人类一样回应,自从Captain James T. Kirk向飞船计算机讲话以来,这一直是科幻小说中的梦想。星际迷航但是后来那些无法与人类区分的科幻创作,比如HAL 9000和《银翼杀手》中的复制人,点燃了我们对于能够像人类一样互动的人工智能的可能性的想象。

现在我们似乎生活在未来,因为你可以用你现在阅读的智能手机或电脑与AI进行对话。但尽管我们在打造类似人类的伴侣方面取得了巨大进展,仍然有很长的路要走,正如我最近通过测试最新的语音控制AI所发现的那样——ChatGPT高级语音模式、Gemini Live 和 Copilot——经过两周的试用。这是我总结出的三大要点:

ChatGPT Advanced Voice mode on a smartphone.

(图片版权:OpenAI)

中断是个好主意,但执行起来并不理想

我发现与聊天AI对话时最大的问题是能够成功打断它们,或者在你不希望被打断的时候它们会打断你。很高兴ChatGPT、Gemini Live和Copilot都允许你进行打断,主要是因为它们对所有问题的回答往往冗长且拖沓,如果没有这个功能的话,你就不会继续使用它们了。然而,这一过程常常存在缺陷;要么它们没有注意到你的打断,要么在你打断后仍然继续说话。通常情况下,它们会以某种形式回应说:“好的,你想知道些什么别的吗?”,而实际上你只是希望它们停止说话好让你开始说话。结果往往是对话变得杂乱无章、断断续续,破坏了自然流畅的交流感觉,让人觉得不像是和人聊天。

这周我经常发现自己对着手机大喊“别说了!”,只为了插一句话,这看起来不太好。尤其是因为我一整天大部分时间都坐在办公室里,周围都是人。

与所有聊天机器人频繁遇到的另一个问题是,我以为自己已经说完话了,但实际上我只是暂停了一下来思考我的想法,并且还处在句子的中间部分。整个AI体验需要像黄油一样顺畅,才能让你对它产生信心,否则这种感觉就会破灭。

2. 当地信息不足

询问当前任何一款聊天机器人在哪里可以找到当地最好的披萨店,除了Gemini Live之外,你会得到它们无法搜索网络的回答。而在这一方面,Gemini Live遥遥领先——它会为你推荐一个好吃披萨的好地方。这些推荐还不错,并且虽然它不能帮你预订,但它会给你提供餐厅的电话号码。

语音激活的聊天机器人显然需要能够浏览网页,就像目前基于文本的聊天机器人一样,但现在ChatGPT高级语音模式和Copilot做不到这一点,这在提供相关信息时是一个巨大的缺点。

A hand holding a phone showing the ChatGPT Advanced voice mode

(图片版权:OpenAI)

它们不够个人化

为了让语音AI对你有用,它需要了解很多关于你的信息。它还需要能够访问你的重要应用,如收件箱和日历。目前它还做不到这些。如果你问它,“嘿,我这个周五下午4点有空吗?” 或者,“下一次家人的生日是什么时候?”,你会被告知它目前无法做到这一点。没有这种能力的话,语音AI的实用性就会大打折扣。

Hand holding iPhone 15 Pro with Siri in front of an AI background

(图片版权:Future / Apple)

会话式人工智能有什么用呢?

目前,语音AI的最佳用途是回答问题、给你一些做事情的动力或提供你自己想不到的想法。选择一个话题让AI与你进行对话,你会发现它对很多事情都有令人惊讶的了解。这很有趣!例如,我实际上非常熟悉巴西柔术,我发现我可以和每个聊天机器人就这个话题展开相当不错的对话,甚至在技术和位置等细节上也出乎意料地详细。根据我的经验,Copilot给出的答案是最好的。双子座更可能臆想出不真实的事情。

就界面而言,我认为ChatGPT它引领着潮流。我真的很喜欢它的旋转光球似乎随着你说的话有节奏地脉动,这让你觉得它真的在听你说什么。相比之下,Gemini Live 主要是一个黑暗的屏幕,在底部有一个发光区域,这没有给你一个焦点来看,导致体验稍微有些缺乏灵魂。

你现在可以与之对话的AI非常适合深入研究话题,但它也感觉有点不完整,它还需要与我们的智能手机进行更多的整合,才能达到我们期望的水平。当然,它会随着时间的推移而变得更好。目前摆在桌面上的问题是苹果智能以及它的关联功能Siri,它们都来晚了。我们仍在等待一个苹果公司智能发行日期甚至到了那时,我们也不会得到完整的全功能Siri,那得等到明年。

目前,我们可以与之像朋友或真正虚拟助手一样对话的AI似乎触手可及,但仍然感觉遥不可及。

您也可能会喜欢...

注册获取最新新闻、评论、观点、顶级科技优惠等信息。

格雷厄姆是TechRadar的人工智能高级编辑。拥有超过25年的在线和印刷媒体新闻工作经验,格雷厄姆曾为包括Computeractive、PC Pro、iMore、MacFormat、Mac|Life、Maximum PC在内的多个市场领先的科技品牌工作。他专注于报道与人工智能相关的一切,并且出现在BBC电视节目如BBC一台早间新闻以及在Radio 4上就最新的科技趋势发表评论。格雷厄姆拥有计算机科学荣誉学位,在业余时间从事播客和博客写作。

关于《我花了过去两周与AI交流,这里是我最大的三个收获》的评论


暂无评论

发表评论

摘要

(图片来自:Shutterstock) 如果您关注最新的AI新闻,您会知道可以通过语音与之对话的聊天机器人已经问世。很高兴ChatGPT、Gemini Live和Copilot都允许您打断它们,主要是因为它们通常会对您的每一个问题给出冗长而沉闷的回答,如果没有这种能力,您就不会使用它们了。我甚至拿着电话,只为了插上一句话,这并不是一个好的表现。显然,语音激活的聊天机器人需要能够浏览网络,就像当前基于文本的聊天机器人一样,但目前ChatGPT高级语音模式和Copilot都不能做到这一点,在提供相关信息方面这是一个巨大的缺点。(图片来自:OpenAI) 3. 如果您问它,“嘿,这个星期五下午4点我有空吗?”