作者:By Andrew Tarantola
谁还需要基于文本的提示,当你可以直接与你最喜欢的AI对话呢?语音交互是开发者们急于添加到他们模型中的热门新功能,比如ChatGPT的高级语音模式、Copilot的自然语音互动和Gemini Live。
自ChatGPT发布以来还不到两年,我们已经见证了AI聊天机器人在与人类交流方式上的根本性变化。随着这些模型迅速发展并获得了多模态能力,它们不再局限于基于文本的提示和回复。如今,它们可以像与真人对话一样与你交谈,并且就拿Gemini Live来说,它可以使用四十多种语言进行交流。显然,传统的书面提示仍然有其地位——我的意思是,没有人会坐下来对着聊天机器人口述数千行Python代码——但语音交互和会话式AI有望进一步改变我们与现代世界的互动方式。
OpenAI首先通过高级语音模式将该技术推向市场,但很快谷歌的Gemini Live紧随其后,最近则是Meta的自然语音交互。每个系统都提供了自己独特的功能和限制。本指南将帮助您获取所需的信息和洞察力,以便根据您的具体需求选择最佳选项。
ChatGPT的高级语音模式(AVM) 利用了 OpenAI 最新的大型语言模型 GPT-4o,以促进与用户更自然、互动的对话。这使其非常适合需要实时交互的任务,例如头脑风暴或讨论复杂主题。由于它内置了 GPT-4o,AVM 能够胜任广泛话题的讨论,从生物化学到14世纪日本哲学无所不包。更重要的是,它可以提供这些话题上的深入回答,而其他AI只能给出简要摘要。我个人认为,它在自然语言理解、适应性和个性化方面表现出色,并且拥有广泛的知识库。
AVM 是第一个进入市场的对话式人工智能功能。它首次在 OpenAI 的春季更新活动中于五月亮相,之后在七月作为测试版提供给选定的 ChatGPT Plus 订阅用户进行测试和反馈。最终,在九月底向 Plus 和 Teams 用户推出。可以通过 ChatGPT 移动应用程序以及桌面端访问该功能,但遗憾的是,如果您使用的是免费版本的 ChatGPT,则目前尚不可用。此外,它在欧盟、英国、瑞士、冰岛、挪威和列支敦士登也尚未提供。如果您居住在这些地区之一,您仍需继续手动输入。
双子星直播这是谷歌对高级语音模式的回应。它基于Gemini 1.5 Pro模型构建,这是谷歌迄今为止最先进的模型。该公司在5月的I/O 2024大会上发布了Live,并在8月首先将其提供给Gemini Advanced订阅用户试用,之后在9月底免费向所有用户发布。仅这一点就让我认为Gemini Live比AVM更具优势,因为我不必每月花费20美元来尝试它。
Gemini 1.5 Pro 不能发布相同的基准测试結果作为GPT-4o,它确实提供了AVM所不具备的一系列功能。我无法夸大这一点,它是免费使用的,可以通过谷歌应用或专为Gemini设计的iOS和Android应用程序使用。与AVM不同,它没有地区限制。目前唯一不能使用Gemini Live的地方是桌面端,尽管据报道Google正在努力在未来添加这一功能。除了英语之外,Gemini Live 当前支持五种语言:法语、德语、葡萄牙语、印地语和西班牙语,并将在未来几周内扩展到近四十种语言。
Copilot语音是众多新功能之一。最近 debut(或 最近登场) alongside the revamped 重新设计的旁边副驾个人界面,它运行在一个自定义的GPT-4实例上。就像AVM和Live一样,它可以让你自然地与AI对话,而不需要输入查询内容。和其它功能类似,Voice主要设计用于回答通用问题并充当数字助手,但由于它是基于GPT-4运行的,因此可以访问该模型庞大的训练语料库。与Live不同的是,Voice可以通过Copilot桌面门户使用。
微软收费如下:(由于提供的英文句子不完整,仅给出了前半部分“Microsoft bills it”,无法提供准确完整的翻译内容,故在此基础上完成可理解的中文表述。若需完整翻译,请提供完整句子。)原文:Microsoft bills it作为“随时随地头脑风暴、快速提问或甚至在艰难一天结束时宣泄情绪的最直观自然的方式。”因为当你可以在回家的路上对着口袋电脑喊叫时,谁还需要真正的朋友呢?
它免费使用,与AVM不同,尽管目前仅限于英语对话,并且只适用于居住在澳大利亚、加拿大、新西兰、英国或美国的用户。微软正计划在未来几周内扩大该功能的语言能力和地理覆盖范围。
这是一个取决于多个变量的问题,比如你愿意支付多少费用、你打算如何使用AI以及你订阅的是哪个品牌的生态系统。对我来说,我更喜欢Google Live。不仅仅是因为它是免费的,还因为我已经完全融入了Google的生态系统。我的意思是,我在Android手机上使用Gemini,并且我是用Acer Chromebook来写这篇帖子的。
如果我是用Windows的人,我会更倾向于使用语音功能,仅仅是为了减少与我已经使用的其他应用程序之间的潜在摩擦点。如果是iOS系统的话,那我就会耐心等待苹果智能的推出,期待它带来增强版和大幅提升的Siri。另一方面,如果你确实需要ChatGPT提供的烧湖推断能力和性能,并且你的钱包里有20美元急着要用掉,那么高级语音模式可能是你最好的选择。