英语轻松读发新版了,欢迎下载、更新

这个新的文本到语音AI模型理解它在说什么 - 如何免费尝试

2025-02-26 12:00:00 英文原文

作者:Written by Sabrina Ortiz, Editor Feb. 26, 2025 at 4:00 a.m. PT

Hume Octave

文本到语音AI模型是通常使用人音演员的实例的绝佳工具,例如有声读物,配音,广告等。但是,由于这些模型不是人类的,也不意识到他们说的话,因此有时它们听起来很明显。休ume的新AI模型旨在解决这个问题。 

另外: AI一夜之间成为主流的10个关键原因 - 接下来会发生什么

八度

周三,休ume推出了八度文本到语音语言模型(LLM)具有上下文意识。据该公司称,LLM可以利用这种意识来调整其曲调,节奏和语音音色,以根据其含义阅读的单词。例如,在阅读句子时,启用AI的声音可以传达一种厌恶感。

除了了解文本的上下文外,该模型还可以采用指示。用户可以指示它是“冷静”,“窃窃私语”,“恶心”,“愤怒”等。休ume说,八度的优势比配音演员可以接受任何声音,甚至可以根据用户描述发明新的声音。 

另外: 为什么Anthropic的最新Claude模型可能是要击败的新AI?

例如,休ume说,用户可以提供像“明智的巫师”一样简单的提示,也可以像结合不同的口音,人口统计组,职业角色等一样复杂。本质上,该模型将仅在脚本上发明声音,但是当提示时,它可以通过脚本和描述来指导。 

测试模型

用户界面易于浏览,其中一个文本框用于语音,您可以在其中描述要声音听起来像是什么,而另一个则用于脚本,其中您输入了您想要的型号所说的内容。对于我的第一次测试,我使用了详细的预制提示来查看它的声音。 

Hume LLM for text-to-speech
Sabrina Ortiz/Zdnet的屏幕截图

单击“生成”后,八度产生了三个语音结果,首先听到我印象深刻。尽管我不相信这些几代人捕捉到了“山谷女孩”的声音,但我对语调和弯曲感到非常印象。” 

在我的提示下,我创建了一个场景,主要扬声器从跑步和急忙呼吸。脚本写着:“是的,我几乎在终点线。我很累,但是要继续推动,因为我快到了。 

另外: 3个轻松的侧hustles Openai的操作员刚刚成为可能 - 加上如何开始

我对这些结果同样满意。八度主要传达了我想要的东西,如果您因跑步而筋疲力尽,就放置了适量的兴奋和停顿。但是,就像先前的示例一样,声音并不是我所描述的。在这种情况下,演讲者不会说超级快。” 

总体而言,该模型的力量似乎将人类言语的细微差别放在其输出中。经常给出的东西AI发声离开是他们的单调,使输出听起来很无聊。有了八度,您就可以听到读者的情绪,无论是挫败感,失败还是疲倦。诸如“ ugh”之类的词具有确切的长度和呼吸,创造了引人入胜的体验。 

如何访问

有不同的级别用于访问该模型,包括具有10,000个字符限制(约10分钟)的免费级别,如果您想尝试一下,则无限的角色声音。除了免费级别之外,还有六个额外的级别,根据访问需求,每月从3美元到900美元不等。一个 

另外: Anthropic向可以越狱其新的AI安全系统的人提供20,000美元

例如,入门级别为每月3美元,包括30,000个字符(大约30分钟),而商业层的每月为900美元,每月10,000,000个字符(约10,000分钟)。还有一个企业选项可以根据您的需求进行自定义。您可以查看所有产品,并开始休ume网站

关于《这个新的文本到语音AI模型理解它在说什么 - 如何免费尝试》的评论


暂无评论

发表评论

摘要

休ume启动了八度,这是一种具有上下文意识的文本到语音语言模型,使其能够根据单词的含义来调整其音调,节奏和声音。用户可以指示AI传达诸如厌恶或愤怒之类的情绪,并根据特定的描述自定义声音。该模型擅长添加类似人类的细微差别,例如语调和呼吸模式,使自己与听起来很有声音的AI声音区分开来。访问层范围从有限用途的免费计划到企业级定制选项。