AI的声音通常打算以友好的方式实现,模仿放松,快乐,乐于助人的人。但是,一个名为DIA的新开源模型正在倾向于更情感的声音,包括一些非常强烈的尖叫声。
纳里实验室(Nari Labs)的迪亚(Dia)的创作者是一个很小的群体,但AI声音听起来像是一个有些戏剧性的表演者,能够使逼真的笑声,咳嗽,清除喉咙,嗅探,是的,是的。
您可能认为这一点对AI大喊大叫,但尖叫很难伪造。它不能只是大声说话。这是完全不同的语音模式。
在大多数AI声音中,情感表现力是一个差距。语音模型很容易阅读睡前故事。但是,听起来很难像试图让朋友平静下来,或者像看到令人震惊的东西一样。大多数商业模型通过平滑声音来避免发出机器人的声音,这不会为语音不对称而在情感上留出空间。
DIA将非语言交流视为表现的一部分。它知道“(咳嗽)”是不容忽视或从字面上读取的东西。它知道尖叫只是一条更大的路线。它以一定程度的时间安排,音高调节和呼吸控制,使它们感觉更加真实。
一个进取的用户甚至使用它重建著名的勒罗伊·詹金斯(Leroy Jenkins)草图进行魔兽世界。
这并不是说Openai,Elevenlabs,谷歌,,,,芝麻以及其他人没有制作出惊人的AI语音模型。您可以自定义Openai的高级语音模式以不同的情绪交流,而Elevenlabs擅长解释大写和标点符号以调整语音,但这与惊喜或笑声大喊大叫不同。
芝麻特别擅长发出和反应就像一个真实的人一样,但即使是其模型也偏向开朗,总体上积极的举止。
当然,现实主义是主观的,您可能很快就会弄清楚DIA是AI的声音。再说一次,假尖叫和笑声也是在正确的背景下发挥的人类声音。
两个本科生。一个仍在军队中。零资金。一个荒谬的目标:建立一个TTS模型,该模型可与NotebookLM播客,Elevenlabs Studio和Sesame csm.sm.smothow之类的匹配。这是如何ðpic.twitter.com/8cfjsegcix2025年4月21日
尖叫AI
这使这是一个更大的故事,而不是AI的声音了解党的窍门,这是AI在情商中更广泛的种族的信号。
我们迅速进入一个时代,在这个时代,您的助手说正确的话是不够的。它需要以正确的方式说出来。认为听起来确实很抱歉的客户支持机器人,听起来鼓励而不是教学的老师以及传达诚意的游戏中的角色。
当然,赋予AI令人信服的能力使其更具说服力,因此可能更具操纵性。如果情感演讲可能只是另一个AI工具,那么多人可能会想尖叫自己。
尽管如此,我仍然可以想象一些有趣的文章为Dia写一个幽灵故事,不仅要阅读,而且要尖叫,所有内容。