如果你关注最新的AI新闻,就会知道可以使用语音与之对话的聊天机器人已经出现了。开放人工智能组织是首批展示该技术的公司之一与其ChatGPT高级语音模式(目前每月只有10分钟免费),但谷歌是第一个推出市场的公司带着 Gemini直播(现在免费提供给所有Android用户),最近微软也加入了这一行列,通过对其应用程序进行重大更新来参与其中。副驾网站和应用程序(对所有人免费)包括语音通话。
用我们的声音与AI对话,并让它像人类一样回应,自从Captain James T. Kirk向飞船计算机讲话以来,这一直是科幻小说中的梦想。星际迷航但是后来那些无法与人类区分的科幻创作,比如HAL 9000和《银翼杀手》中的复制人,点燃了我们对于能够像人类一样互动的人工智能的可能性的想象。
现在我们似乎生活在未来,因为你可以用你现在阅读的智能手机或电脑与AI进行对话。但尽管我们在打造类似人类的伴侣方面取得了巨大进展,仍然有很长的路要走,正如我最近通过测试最新的语音控制AI所发现的那样——ChatGPT高级语音模式、Gemini Live 和 Copilot——经过两周的试用。这是我总结出的三大要点:
中断是个好主意,但执行起来并不理想
我发现与聊天AI对话时最大的问题是能够成功打断它们,或者在你不希望被打断的时候它们会打断你。很高兴ChatGPT、Gemini Live和Copilot都允许你进行打断,主要是因为它们对所有问题的回答往往冗长且拖沓,如果没有这个功能的话,你就不会继续使用它们了。然而,这一过程常常存在缺陷;要么它们没有注意到你的打断,要么在你打断后仍然继续说话。通常情况下,它们会以某种形式回应说:“好的,你想知道些什么别的吗?”,而实际上你只是希望它们停止说话好让你开始说话。结果往往是对话变得杂乱无章、断断续续,破坏了自然流畅的交流感觉,让人觉得不像是和人聊天。
这周我经常发现自己对着手机大喊“别说了!”,只为了插一句话,这看起来不太好。尤其是因为我一整天大部分时间都坐在办公室里,周围都是人。
与所有聊天机器人频繁遇到的另一个问题是,我以为自己已经说完话了,但实际上我只是暂停了一下来思考我的想法,并且还处在句子的中间部分。整个AI体验需要像黄油一样顺畅,才能让你对它产生信心,否则这种感觉就会破灭。
2. 当地信息不足
询问当前任何一款聊天机器人在哪里可以找到当地最好的披萨店,除了Gemini Live之外,你会得到它们无法搜索网络的回答。而在这一方面,Gemini Live遥遥领先——它会为你推荐一个好吃披萨的好地方。这些推荐还不错,并且虽然它不能帮你预订,但它会给你提供餐厅的电话号码。
语音激活的聊天机器人显然需要能够浏览网页,就像目前基于文本的聊天机器人一样,但现在ChatGPT高级语音模式和Copilot做不到这一点,这在提供相关信息时是一个巨大的缺点。
它们不够个人化
为了让语音AI对你有用,它需要了解很多关于你的信息。它还需要能够访问你的重要应用,如收件箱和日历。目前它还做不到这些。如果你问它,“嘿,我这个周五下午4点有空吗?” 或者,“下一次家人的生日是什么时候?”,你会被告知它目前无法做到这一点。没有这种能力的话,语音AI的实用性就会大打折扣。
会话式人工智能有什么用呢?
目前,语音AI的最佳用途是回答问题、给你一些做事情的动力或提供你自己想不到的想法。选择一个话题让AI与你进行对话,你会发现它对很多事情都有令人惊讶的了解。这很有趣!例如,我实际上非常熟悉巴西柔术,我发现我可以和每个聊天机器人就这个话题展开相当不错的对话,甚至在技术和位置等细节上也出乎意料地详细。根据我的经验,Copilot给出的答案是最好的。双子座更可能臆想出不真实的事情。
就界面而言,我认为ChatGPT它引领着潮流。我真的很喜欢它的旋转光球似乎随着你说的话有节奏地脉动,这让你觉得它真的在听你说什么。相比之下,Gemini Live 主要是一个黑暗的屏幕,在底部有一个发光区域,这没有给你一个焦点来看,导致体验稍微有些缺乏灵魂。
你现在可以与之对话的AI非常适合深入研究话题,但它也感觉有点不完整,它还需要与我们的智能手机进行更多的整合,才能达到我们期望的水平。当然,它会随着时间的推移而变得更好。目前摆在桌面上的问题是苹果智能以及它的关联功能Siri,它们都来晚了。我们仍在等待一个苹果公司智能发行日期甚至到了那时,我们也不会得到完整的全功能Siri,那得等到明年。
目前,我们可以与之像朋友或真正虚拟助手一样对话的AI似乎触手可及,但仍然感觉遥不可及。