谁需要 GPT-4o 高级语音模式?Hume 的 EVI 2 推出了带有情感变化的语音 AI 和 API - VentureBeat

2024-09-18 19:04:55 英文原文

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多

我们上次报道 Hume 这家人工智能初创公司是由前 Google DeepMinder/计算科学家 Alan Cowen 共同创立并领导的,那是 2024 年春天,该公司刚刚通过一轮融资筹集了 5000 万美元。B 轮私募股权融资,因其开发语音人工智能助手的独特方法。

Hume 以 18 世纪苏格兰哲学家 David Hume 的名字命名,使用不同说话者的跨文化录音,并与自我识别相匹配。报告情感调查结果,以创建其专有的人工智能模型,该模型可以在多种语言和方言中提供逼真的声音表达和理解。

即使在当时,休姆也是最早提供应用程序编程接口 (API) 直接推出,使第三方开发人员和外部企业能够连接应用程序或在其模型上构建新应用程序,或者简单地将其合并到功能中,例如接听客户服务电话和检索适当的信息来自组织数据库的上下文答案。

现在,在接下来的六个月里,Hume 一直忙于构建该 AI 语音模型和 API 的更新版本。新的 Empathic Voice Interface 2 (EVI 2) 于上周发布,引入了一系列增强功能,旨在提高自然度、情感响应能力和可定制性,同时显着降低开发人员和企业的成本。通过 API,它的延迟也降低了 40%,并且比其前身便宜 30%。

我们希望开发人员将其构建到任何应用程序中,创建他们想要的品牌声音,并针对用户进行调整,以便Cowen 在上周的视频通话中告诉 VentureBeat,这种声音让人感觉可信且个性化。

事实上,Cowen 告诉 VentureBeat,他看到并希望看到更多的企业不再将人们踢出他们的应用程序,而是采取行动。将它们发送到单独的配备 EVI 的 AI 语音助手来处理技术和客户支持问题。

相反,他提到,特别感谢 EVI 2s 的设计,现在已经成为可能,并且在许多情况下提供了更好的用户体验最终用户可以直接在应用程序内连接到由 EVI 2 提供支持的语音助手,并且 EVI 2 提供支持的语音助手现在可以代表用户获取信息或采取操作,而无需将用户连接到任何外部电话号码,如果使用 Humes 开发人员工具以正确的方式连接到底层客户应用程序。

开发人员开始意识到他们不必将语音放在电话线上;只需在电话线上发送语音即可。Cowen 告诉 VentureBeat,他们可以将其放在应用程序中的任何位置。

例如,如果我想更改在线帐户中的地址信息,如果将 EVI 2 集成到要求它为我更改我的地址,而不是让它引导我完成所有步骤和屏幕。

适时的发布

EVI 2 的发布时机特别重要对休谟有利。尽管不如 OpenAI 或什至潜在的竞争对手 Anthropic 那样广为人知,但据报道后者正在为其投资者亚马逊 Alexa 语音助手开发一个改进版本,以推出 Hume,它已经准备好先于 Anthropic 和 OpenAI 推出一个功能强大的、前沿的——企业现在就可以利用边缘类人语音助手。

相比之下,令人印象深刻的 OpenAI ChatGPT 高级语音模式由 5 月份展示的 GPT-4o 模型提供支持,但仍然仅向有限数量的用户开放。等待名单上的用户。此外,Cowen 认为 EVI 2 实际上在检测和响应用户情绪方面更胜一筹,并通过自己的情感表达表达出来。

EVI 2 是完全端到端的。他告诉 VentureBeat,它只是接收音频信号并输出​​音频信号,这更像是 [OpenAI] GPT 的语音处理方式。也就是说,EVI 2 和 GPT-4o 都将音频信号波形和数据直接转换为标记,而不是首先将它们转录为文本并将其输入到语言模型。第一个 EVI 模型使用了后一种方法,但在 VentureBeats 独立演示使用中仍然具有令人印象深刻的快速和响应能力。

对于希望构建语音 AI 功能以脱颖而出、降低成本或通过使用语音 AI 代替人类呼叫中心来降低成本,Humes EVI 2 可能是一个引人注目的选择。

EVI 2 对话式 AI 进步

Cowen 和 Hume 声称 EVI 2 允许更快、更流畅的对话、亚秒级响应时间以及各种语音定制。

他们表示,EVI 2 旨在实时预测和适应用户偏好,使其成为广泛应用的理想选择。从客户服务机器人到虚拟助理的一系列应用程序。

EVI 2 的主要改进包括先进的语音生成系统,可增强语音的自然度和清晰度,以及情绪智能,可帮助模型理解用户音调并相应地调整其响应。

EVI 2 还支持语音调制等功能,允许开发人员根据音高、鼻音和性别等参数微调语音,使其具有多功能性和可定制性,而无需承担相关风险

在 VentureBeta,我们还看到并报告了许多专有和开源语音 AI 模型。在网络上,人们发布了让两个或多个语音 AI 模型进行对话的示例,从而导致奇怪的、令人不安的结果,例如痛苦的尖叫。

当我向考恩询问这些示例时,他似乎很有趣,但他并没有这么做。过度担心它们与休谟一起发生。

这些绝对是这些模型存在的问题。他告诉我,你必须用正确的数据从模型中提取这些东西,而且我们非常擅长这一点。也许偶尔,人们会尝试玩弄它,但这种情况很少见。

此外,Cowen 表示 Hume 没有计划提供语音克隆,即获取扬声器的声音并从几个扬声器中复制它 -数秒长的样本,以便它可以用来说出任何给定的文本。

当然,我们可以用我们的模型克隆声音,但我们没有提供它,因为它的风险如此之高,而且好处往往是考恩说,还不清楚。人们真正想要的是定制自己声音的能力。我们开发了新的声音,您可以在其中创建不同的个性,这对开发人员来说似乎比克隆特定的声音更令人兴奋。

全新的功能集

EVI 2 引入了多项新功能它与其前身的区别在于:

响应时间更快:与 EVI 1 相比,EVI 2 的延迟减少了 40%,平均响应时间现在在 500 毫秒到 800 毫秒之间。这一改进增强了对话的流畅性,让对话感觉更加自然和直接。

情感智能:通过将语音和语言集成到单个模型中,EVI 2 可以更好地理解用户输入背后的情感背景。这使其能够生成更合适、更有同理心的响应。

可定制的语音:新的语音调制方法使开发人员能够调整各种语音参数,例如性别和音调,以创建适合特定应用程序或用户的独特语音。此自定义功能不依赖于语音克隆,为需要灵活而安全的语音选项的开发人员提供了更安全的替代方案。

对话中提示:EVI 2 允许用户动态修改 AI 的说话风格。例如,用户可以提示它在对话过程中说得更快或更兴奋,从而实现更具吸引力的互动。

多语言功能:虽然 EVI 2 目前支持英语,但 Hume 计划推出对多种语言的支持,到 2024 年底,包括西班牙语、法语和德语。

此外,Cowen 告诉 VentureBeat,由于经过训练,EVI 2 实际上自己学会了多种语言,而没有直接被要求或指导。它的人类工程师创造者。

我们没有专门训练模型来输出某些语言,但它仅从数据中学会了说法语、西班牙语、德语、波兰语等,Cowen 解释道。

>

定价和可升级性

EVI 2 的突出优势之一是其成本效益。Hume AI 将 EVI 2 的定价降低至每分钟 0.072 美元,与传统 EVI 1 型号(每分钟定价 0.102 美元)相比,降低了 30%。

企业用户还可以从批量折​​扣中受益,从而使平台可扩展,适合具有高容量需求的企业。

但是,Open AI 当前通过其语音 API 提供的文本转语音产品(而不是新的 GPT-4o/ChatGPT 高级语音模式)似乎显着增加根据我们的计算,OpenAI TTS 的成本比 Hume EVI 2 便宜,OpenAI TTS 每 1,000 个字符的成本为 0.015 美元(大约每分钟语音 0.015 美元),而 Humes EVI 2 每分钟为 0.072 美元。

EVI 2 目前处于测试版和测试阶段。已开放通过 Humes API 进行集成。

开发人员可以使用与 EVI 1 相同的工具和配置选项,从而实现顺利迁移。

此外,希望继续使用 EVI 1 直到 2024 年 12 月,届时 Hume 计划淘汰旧的 API。

EVI 2 代表着 Hume AI 优化人工智能以促进人类福祉的使命向前迈出了重要一步。该模型旨在通过将其响应与用户的情感线索和偏好相结合来提高用户满意度。在接下来的几个月中,Hume 将继续改进该模型,包括扩展其语言支持并微调其遵循复杂指令的能力。

根据 Hume AI 的说法,EVI 2 还定位于与其他大型语言模型 (LLM) 无缝协作,并与网络搜索等工具集成,确保开发人员能够访问其应用程序的全套功能。

表达式测量 API 和自定义模型 API

除了 EVI 2 之外,Hume AI 还继续提供表达式测量 API 和自定义模型 API,为希望构建情感响应 AI 应用程序的开发人员提供额外的功能层。

表达式测量 API:该 API 允许开发人员测量语音韵律、面部表情、声音爆发和情感语言。此 API 的起价为每分钟 0.0276 美元(带音频的视频),企业客户可享受批量折扣。

自定义模型 API:对于那些需要训练和部署自定义 AI 模型的人,Hume 提供免费模型训练,推理成本与表达式测量 API 相匹配。

Hume 和 EVI 2 的下一步是什么?

Hume AI 计划在未来几个月内对 EVI 2 进行进一步改进,包括增强了对其他语言的支持、更自然的语音输出以及更高的可靠性。

该公司表示,希望确保开发人员拥有构建功能强大且具有同理心响应能力的应用程序所需的工具。

>

摘要

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。适时的发射 EVI 2 的发射时机对 Hume 特别有利。此外,考恩表示,休谟没有计划提供语音克隆,即获取说话者的声音并从几秒钟长的样本中复制它,以便它可以用于说出任何给定的文本。据 Hume AI 称,EVI 2 还可以与其他大型语言模型 (LLM) 无缝协作,并与网络搜索等工具集成,确保开发人员能够访问其应用程序的全套功能。对于带音频的视频,此 API 的起价为每分钟 0.0276 美元,企业客户可享受批量折扣。自定义模型 API:对于那些需要训练和部署自定义 AI 模型的人,Hume 提供免费模型训练,推理成本与表达式测量 API 相匹配。Hume 和 EVI 2 的下一步是什么?Hume AI 计划对 EVI 2 进行进一步改进在接下来的几个月中,包括增强对其他语言的支持、更自然的语音输出以及更高的可靠性。