作者:Written by Sabrina Ortiz, Editor Feb. 26, 2025 at 4:00 a.m. PT
文本到语音AI模型是通常使用人音演员的实例的绝佳工具,例如有声读物,配音,广告等。但是,由于这些模型不是人类的,也不意识到他们说的话,因此有时它们听起来很明显。休ume的新AI模型旨在解决这个问题。
另外: AI一夜之间成为主流的10个关键原因 - 接下来会发生什么
周三,休ume推出了八度文本到语音语言模型(LLM)具有上下文意识。据该公司称,LLM可以利用这种意识来调整其曲调,节奏和语音音色,以根据其含义阅读的单词。例如,在阅读句子时,启用AI的声音可以传达一种厌恶感。
除了了解文本的上下文外,该模型还可以采用指示。用户可以指示它是“冷静”,“窃窃私语”,“恶心”,“愤怒”等。休ume说,八度的优势比配音演员可以接受任何声音,甚至可以根据用户描述发明新的声音。
另外: 为什么Anthropic的最新Claude模型可能是要击败的新AI?
例如,休ume说,用户可以提供像“明智的巫师”一样简单的提示,也可以像结合不同的口音,人口统计组,职业角色等一样复杂。本质上,该模型将仅在脚本上发明声音,但是当提示时,它可以通过脚本和描述来指导。
用户界面易于浏览,其中一个文本框用于语音,您可以在其中描述要声音听起来像是什么,而另一个则用于脚本,其中您输入了您想要的型号所说的内容。对于我的第一次测试,我使用了详细的预制提示来查看它的声音。
单击“生成”后,八度产生了三个语音结果,首先听到我印象深刻。尽管我不相信这些几代人捕捉到了“山谷女孩”的声音,但我对语调和弯曲感到非常印象。”
在我的提示下,我创建了一个场景,主要扬声器从跑步和急忙呼吸。脚本写着:“是的,我几乎在终点线。我很累,但是要继续推动,因为我快到了。
另外: 3个轻松的侧hustles Openai的操作员刚刚成为可能 - 加上如何开始
我对这些结果同样满意。八度主要传达了我想要的东西,如果您因跑步而筋疲力尽,就放置了适量的兴奋和停顿。但是,就像先前的示例一样,声音并不是我所描述的。在这种情况下,演讲者不会说超级快。”
总体而言,该模型的力量似乎将人类言语的细微差别放在其输出中。经常给出的东西AI发声离开是他们的单调,使输出听起来很无聊。有了八度,您就可以听到读者的情绪,无论是挫败感,失败还是疲倦。诸如“ ugh”之类的词具有确切的长度和呼吸,创造了引人入胜的体验。
有不同的级别用于访问该模型,包括具有10,000个字符限制(约10分钟)的免费级别,如果您想尝试一下,则无限的角色声音。除了免费级别之外,还有六个额外的级别,根据访问需求,每月从3美元到900美元不等。一个
另外: Anthropic向可以越狱其新的AI安全系统的人提供20,000美元
例如,入门级别为每月3美元,包括30,000个字符(大约30分钟),而商业层的每月为900美元,每月10,000,000个字符(约10,000分钟)。还有一个企业选项可以根据您的需求进行自定义。您可以查看所有产品,并开始休ume网站。