哭泣的AI！

作者：Eric Hal SchwartzSocial Links NavigationContributor

（图片来源：盖蒂图像）

AI的声音通常打算以友好的方式实现，模仿放松，快乐，乐于助人的人。但是，一个名为DIA的新开源模型正在倾向于更情感的声音，包括一些非常强烈的尖叫声。

纳里实验室（Nari Labs）的迪亚（Dia）的创作者是一个很小的群体，但AI声音听起来像是一个有些戏剧性的表演者，能够使逼真的笑声，咳嗽，清除喉咙，嗅探，是的，是的。

您可能认为这一点对AI大喊大叫，但尖叫很难伪造。它不能只是大声说话。这是完全不同的语音模式。

在大多数AI声音中，情感表现力是一个差距。语音模型很容易阅读睡前故事。但是，听起来很难像试图让朋友平静下来，或者像看到令人震惊的东西一样。大多数商业模型通过平滑声音来避免发出机器人的声音，这不会为语音不对称而在情感上留出空间。

DIA将非语言交流视为表现的一部分。它知道“（咳嗽）”是不容忽视或从字面上读取的东西。它知道尖叫只是一条更大的路线。它以一定程度的时间安排，音高调节和呼吸控制，使它们感觉更加真实。

一个进取的用户甚至使用它重建著名的勒罗伊·詹金斯（Leroy Jenkins）草图进行魔兽世界。

这并不是说Openai，Elevenlabs，谷歌，，，，芝麻以及其他人没有制作出惊人的AI语音模型。您可以自定义Openai的高级语音模式以不同的情绪交流，而Elevenlabs擅长解释大写和标点符号以调整语音，但这与惊喜或笑声大喊大叫不同。

报名参加突发新闻，评论，意见，顶级技术交易等等。

芝麻特别擅长发出和反应就像一个真实的人一样，但即使是其模型也偏向开朗，总体上积极的举止。

当然，现实主义是主观的，您可能很快就会弄清楚DIA是AI的声音。再说一次，假尖叫和笑声也是在正确的背景下发挥的人类声音。

两个本科生。一个仍在军队中。零资金。一个荒谬的目标：建立一个TTS模型，该模型可与NotebookLM播客，Elevenlabs Studio和Sesame csm.sm.smothow之类的匹配。这是如何ðpic.twitter.com/8cfjsegcix2025年4月21日

尖叫AI

这使这是一个更大的故事，而不是AI的声音了解党的窍门，这是AI在情商中更广泛的种族的信号。

我们迅速进入一个时代，在这个时代，您的助手说正确的话是不够的。它需要以正确的方式说出来。认为听起来确实很抱歉的客户支持机器人，听起来鼓励而不是教学的老师以及传达诚意的游戏中的角色。

当然，赋予AI令人信服的能力使其更具说服力，因此可能更具操纵性。如果情感演讲可能只是另一个AI工具，那么多人可能会想尖叫自己。

尽管如此，我仍然可以想象一些有趣的文章为Dia写一个幽灵故事，不仅要阅读，而且要尖叫，所有内容。

您可能还喜欢

埃里克·哈尔·施瓦茨（Eric Hal Schwartz）是Techradar的自由作家，拥有超过15年的经验，涵盖了世界与技术的交集。在过去的五年中，他担任VoiceBot.ai的首席作家，并处于报道生成AI和大型语言模型的领先优势。此后，他成为了生成AI模型产品的专家，例如Openai的Chatgpt，Anthropic的Claude，Google Gemini和所有其他合成媒体工具。他的经验贯穿了媒体的范围，包括印刷，数字，广播和现场活动。现在，他继续讲述人们想要的故事，需要听到有关迅速发展的AI空间及其对生活的影响的故事。埃里克（Eric）总部位于纽约市。

OC

哭泣的AI！

尖叫AI

您可能还喜欢

关于《哭泣的AI！》的评论

发表评论

摘要

相关新闻

相关讨论