Zypher的语音模型可以用5秒的音频克隆您的声音

2025-02-16 18:58:00 英文原文

动手总部位于Palo Alto的AI创业公司Zyphra本周推出了一对开放的文本到语音（TTS）模型，据说能够用短短五秒钟的示例音频来克隆您的声音。在测试中，我们以不到半分钟的记录语音产生了现实的结果。

该初创公司由丹尼·马丁内利（Danny Martinelli）和克里西克·普塔拉特（Krithik Puthalath）于2021年成立，旨在建立一个称为Maiaos的多模式代理系统。迄今为止，这些努力已经发布了其小语言模型的Zamba家族，例如树木的注意力以及现在发布其Zonos TTS模型。

该模型的尺寸为16亿个参数，在超过200,000个小时的语音数据上进行了培训，其中包括中性色调的语音，例如有声读物的叙述和“高度表现力”的语音。根据新贵的说法发行说明对于Zonos而言，其大多数数据都是英语的，但有“大量”的中文，日语，法语，西班牙语和德语。Zyphra告诉El Reg该数据是从网络中获取的，并且不是从数据经纪人那里获得的。

结果实际上是两个Zonos模型：一种使用完全基于变压器的体系结构，另一个是结合变压器和的混合动力车曼巴状态空间模型（SSM）体系结构。Zyphra声称，后者使其成为第一个使用此拱门的TTS模型。毫无疑问，基于变压器的模型是当今生成AI中最常用的模型，但像Mamba这样的替代体系结构正在获得吸引力。

从实际的角度来看，这两个模型的行为与其他文本到语音模型的行为相似。但是，与Elevenlabs和其他人开发的那些不同，Zyphra选择释放其模型权重拥抱脸在允许的Apache 2.0许可下。

测试它

Zyphra提供了一个演示环境，您可以在其中使用其Zonos模型以及其网站上的付费API访问和订阅计划。但是，如果您不愿将声音上传到随机的启动服务器中，那么在本地运行该模型是相对容易的。

我们将进一步详细介绍如何将其设置为一点点，但首先，让我们看看它在野外的实际功能。

为了测试它，我们在NVIDIA RTX 6000 ADA Generation Generation Graphics卡上在本地启动了Zyphra的Zonos演示。然后，我们上传了自己的20到30秒剪辑，阅读了随机的文本段落，并将其馈送到Zonos-V0.1变压器和混合模型中，以及50左右的单词文本提示提示，将所有超级参数留在了他们的默认情况下。目的是让训练有素的模型预测您的声音，并从提供的示例记录和提示中将其作为音频文件输出。

使用24秒的示例剪辑，我们能够实现一个足够好的语音克隆，至少在第一次脸红时就愚弄了亲密的朋友和家人。在揭示了剪辑是AI产生的后，他们确实指出，演讲的起搏和速度确实有些偏离，他们相信他们会发现音频并不是真实的剪辑，因为较长的剪辑却不是真实的。

您可以听自己的话，这是两个剪辑。第一个样本是对现实生活中的人，您不起眼的秃鹰的录制，从H.G. Wells的《 Time Machine》中读到，而第二个是AI生成的克隆人从Jules Verne的20,000个海底的联赛中阅读。

人类样本：

mp3音频

AI使用非杂交模型生成音频：

mp3音频

起搏和语音都是可以控制的参数，Zonos支持音频前缀，这允许更具动态的范围，例如窃窃私语。

Zyphra在其文档中声称其混合变压器模型的执行速度比Pure Transformer模型快20％。这种速度在较短的提示中并不那么明显，但是我们可以说这两个型号的声音有显着的区别。

至少在我们的耳朵上，混合模型产生了稍微抛光的音频，具有讽刺意味的是，它在某种程度上消除了克隆声音的真实性。倾听自己的谈话总是一个奇怪的经历，因此，我们将让您成为法官。

AI使用混合模型生成音频：

mp3音频

该模型的性能也与Zyphra的主张相一致，因为它在RTX 4090上运行时，每秒运行时每秒都会产生大约两秒钟的音频。RTX6000 ADA ADAâââ– a aDa a a ada a ada a a a ada''s距RTX 4090在计算条款需要9到10秒钟才能将大约50个单词转换为18至20秒的音频剪辑。我们会注意到，在第一次运行中，我们确实观察到了一个持续大约一分钟的热身时间，而在GPU存储器中加载了一分钟，因此它不会立即开始输出蝙蝠。

自己尝试

如果您想使用Zonos克隆自己的声音，则假设您有兼容的GPU并且对Linux和容器化有些熟悉，则部署模型相对容易。

您需要什么：

一个带有相当现代的NVIDIA图形卡的Linux盒，至少具有8 GB的VRAM。您也许可以将其运行到6 GB，但是您的里程可能会有所不同。对于操作系统，我们使用Ubuntu 24.04 LTS。
本指南还假设您已经安装了最新版本的Docker引擎和NVIDIA的最新版本的容器运行时。有关设置此设置的更多信息，请查看我们有关GPU加速码头容器的指南这里。我们还假设您对Linux命令行感到满意。

为了开始，我们将使用git拉下Zonos仓库：

git克隆https://github.com/zyphra/zonos.git

从那里，我们将导航到文件夹中，并使用Docker组成：

CD ZonosDocker组成

注意：根据您的系统，您可能需要运行此Docker具有提高特权的命令使用Sudo或者，在某些情况下，doas。

几秒钟后，您应该能够通过导航到http：// localhost：7860或者，如果您远程运行此操作，则需要将Localhost交换为机器的IP地址或主机名。我们强烈建议您不要在公共互联网上留下这项特殊的服务。

Zypher的Zonos演示包装有一个易于使用的Gradio仪表板 - 单击以放大

从那里开始，您将获得Gradio仪表板的欢迎。在这里，您需要选择要使用，上传或记录示例音频的Zonos模型的版本，并输入要转换的文本。

在此之下，您会发现各种超参数，使您可以调整这一代方面，包括音调和说话速度。我们不会假装完全理解所有这些参数，但是，在我们的测试中，我们在很大程度上将这些设置留给了它们的默认设置。

拨入所有内容后，单击“生成音频”。根据您的硬件和输入文本的长度，这可能需要几秒钟到几分钟的时间。完成后，剪辑应开始自动播放。

更广泛的含义

正如我们以前在图像生成和其他AI技术中看到的那样，Zonos提出的语音克隆功能本质上是有争议的，从那里挖掘了培训数据到实际在实践中的实际使用方式。

考虑到实现可通过的结果所需的样本音频需要多少，很容易看出如何滥用该技术。像Audible这样的公司是探索文本到语音AI以扩展有声读物的生产，使叙述者能够创建自身的AI生成的语音克隆。同时，法律挑战周围的AI语音克隆已经在遇到类似的业务。

我们还可以看到，这项技术用来骗取毫无戒心的受害者，以为亲人有麻烦，他们只需要价值几百美元的礼品卡即可使他们摆脱困境。或通过使用它来滥用某人的职业来毁灭他们的职业。或产生虚假的政治信息，或者...例子是无穷无尽的。

话虽如此，这些模型也有仁慈的用途。从可访问性的角度来看，语音克隆和文本到语音可以帮助患有人声绳索创伤的人，或者有影响语音的条件，使声音恢复。实际上，这是苹果给的原因之一证明合法2023年底在iOS中包括语音克隆技术。

这项技术已经广泛可用的事实 - 无论是在IDEVICES上还是通过付费服务，还是作为开源模型，这就是为什么我们甚至可以愿意演示如何在本地部署和运行Zonos的原因。

话虽如此，如果您确实选择接受AI文本之间的声音功能，我们鼓励您以最尊重和负责任的方式这样做。®

编者注： 寄存器由NVIDIA提供了RTX 6000 ADA生成图形卡，Intel的ARC A770 GPU，以及AMD的Radeon Pro W7900 DS，以支持这样的故事。这些供应商都没有关于此或其他文章的内容的任何意见。

关于《Zypher的语音模型可以用5秒的音频克隆您的声音》的评论

暂无评论

发表评论

摘要

Zyphra的Zonos是一个强大的文本到语音（TTS）系统，可以使用最小的样本音频克隆声音，从而引发了重大的道德问题和潜在的滥用场景。这是关键点的概述：###技术设置1。**硬件要求**： - 带有现代NVIDIA GPU的Linux盒子（至少8 GB VRAM）。 - 安装了Docker Engine和NVIDIA容器运行时。2。**部署步骤**： - 克隆Zonos存储库：`git克隆https：// github.com/zyphra/zonos.git` - 导航到文件夹：`cd Zonos` - 启动Docker容器：`docker compose up'3。**访问接口**： - http：// localhost：7860`或远程计算机的IP地址打开Gradio仪表板。 - 上传示例音频和输入文本，用于语音克隆。###道德含义1。**滥用潜力**： - **骗局**：说服亲人以虚假的借口汇款。 - **模仿**：通过其他人的声音伪造滥用电话或政治信息。 - **声誉损害**：通过用受害者的声音造成假电话来破坏职业。2。**法律和道德问题**： - 培训数据来源：培训数据来自何处，它在道德上是从伦理上来源的吗？ - 法律挑战：使用类似技术的企业可能会面临法律问题。3。**积极用例**： - **可访问性**：帮助患者遭受言语障碍或创伤性的声音伤害，使他们的声音恢复了。 - **创意应用程序**：通过叙述者的AI生成的克隆扩大有声读物的生产。###负责任的用法 - 鼓励TTS技术的尊重和道德使用，以减轻潜在的危害，同时利用其利益来获得诸如可访问性和创造性应用等积极成果。通过了解功能和局限性以及此类技术的更广泛含义，用户可以就其部署和利用语音克隆系统的方式做出明智的决定。

Zypher的语音模型可以用5秒的音频克隆您的声音

测试它

自己尝试

您需要什么：

更广泛的含义

关于《Zypher的语音模型可以用5秒的音频克隆您的声音》的评论

发表评论

摘要

相关新闻

相关讨论