英语轻松读发新版了,欢迎下载、更新

哭泣的AI!

2025-04-25 21:30:00 英文原文

作者:Eric Hal SchwartzSocial Links NavigationContributor

Tech frustration
(图片来源:盖蒂图像)

AI的声音通常打算以友好的方式实现,模仿放松,快乐,乐于助人的人。但是,一个名为DIA的新开源模型正在倾向于更情感的声音,包括一些非常强烈的尖叫声。

纳里实验室(Nari Labs)的迪亚(Dia)的创作者是一个很小的群体,但AI声音听起来像是一个有些戏剧性的表演者,能够使逼真的笑声,咳嗽,清除喉咙,嗅探,是的,是的。

您可能认为这一点对AI大喊大叫,但尖叫很难伪造。它不能只是大声说话。这是完全不同的语音模式。

在大多数AI声音中,情感表现力是一个差距。语音模型很容易阅读睡前故事。但是,听起来很难像试图让朋友平静下来,或者像看到令人震惊的东西一样。大多数商业模型通过平滑声音来避免发出机器人的声音,这不会为语音不对称而在情感上留出空间。

DIA将非语言交流视为表现的一部分。它知道“(咳嗽)”是不容忽视或从字面上读取的东西。它知道尖叫只是一条更大的路线。它以一定程度的时间安排,音高调节和呼吸控制,使它们感觉更加真实。

一个进取的用户甚至使用它重建著名的勒罗伊·詹金斯(Leroy Jenkins)草图进行魔兽世界

这并不是说Openai,Elevenlabs,谷歌,,,,芝麻以及其他人没有制作出惊人的AI语音模型。您可以自定义Openai的高级语音模式以不同的情绪交流,而Elevenlabs擅长解释大写和标点符号以调整语音,但这与惊喜或笑声大喊大叫不同。

报名参加突发新闻,评论,意见,顶级技术交易等等。

芝麻特别擅长发出和反应就像一个真实的人一样,但即使是其模型也偏向开朗,总体上积极的举止。

当然,现实主义是主观的,您可能很快就会弄清楚DIA是AI的声音。再说一次,假尖叫和笑声也是在正确的背景下发挥的人类声音。

两个本科生。一个仍在军队中。零资金。一个荒谬的目标:建立一个TTS模型,该模型可与NotebookLM播客,Elevenlabs Studio和Sesame csm.sm.smothow之类的匹配。这是如何ðpic.twitter.com/8cfjsegcix2025年4月21日

尖叫AI

这使这是一个更大的故事,而不是AI的声音了解党的窍门,这是AI在情商中更广泛的种族的信号。

我们迅速进入一个时代,在这个时代,您的助手说正确的话是不够的。它需要以正确的方式说出来。认为听起来确实很抱歉的客户支持机器人,听起来鼓励而不是教学的老师以及传达诚意的游戏中的角色。

当然,赋予AI令人信服的能力使其更具说服力,因此可能更具操纵性。如果情感演讲可能只是另一个AI工具,那么多人可能会想尖叫自己。

尽管如此,我仍然可以想象一些有趣的文章为Dia写一个幽灵故事,不仅要阅读,而且要尖叫,所有内容。

您可能还喜欢

埃里克·哈尔·施瓦茨(Eric Hal Schwartz)是Techradar的自由作家,拥有超过15年的经验,涵盖了世界与技术的交集。在过去的五年中,他担任VoiceBot.ai的首席作家,并处于报道生成AI和大型语言模型的领先优势。此后,他成为了生成AI模型产品的专家,例如Openai的Chatgpt,Anthropic的Claude,Google Gemini和所有其他合成媒体工具。他的经验贯穿了媒体的范围,包括印刷,数字,广播和现场活动。现在,他继续讲述人们想要的故事,需要听到有关迅速发展的AI空间及其对生活的影响的故事。埃里克(Eric)总部位于纽约市。

关于《哭泣的AI!》的评论


暂无评论

发表评论