英语轻松读发新版了,欢迎下载、更新

Zypher的语音模型可以用5秒的音频克隆您的声音

2025-02-16 18:58:00 英文原文

动手总部位于Palo Alto的AI创业公司Zyphra本周推出了一对开放的文本到语音(TTS)模型,据说能够用短短五秒钟的示例音频来克隆您的声音。在测试中,我们以不到半分钟的记录语音产生了现实的结果。

该初创公司由丹尼·马丁内利(Danny Martinelli)和克里西克·普塔拉特(Krithik Puthalath)于2021年成立,旨在建立一个称为Maiaos的多模式代理系统。迄今为止,这些努力已经发布了其小语言模型的Zamba家族,例如树木的注意力以及现在发布其Zonos TTS模型。

该模型的尺寸为16亿个参数,在超过200,000个小时的语音数据上进行了培训,其中包括中性色调的语音,例如有声读物的叙述和“高度表现力”的语音。根据新贵的说法发行说明对于Zonos而言,其大多数数据都是英语的,但有“大量”的中文,日语,法语,西班牙语和德语。Zyphra告诉El Reg该数据是从网络中获取的,并且不是从数据经纪人那里获得的。

结果实际上是两个Zonos模型:一种使用完全基于变压器的体系结构,另一个是结合变压器和的混合动力车曼巴状态空间模型(SSM)体系结构。Zyphra声称,后者使其成为第一个使用此拱门的TTS模型。毫无疑问,基于变压器的模型是当今生成AI中最常用的模型,但像Mamba这样的替代体系结构正在获得吸引力。

从实际的角度来看,这两个模型的行为与其他文本到语音模型的行为相似。但是,与Elevenlabs和其他人开发的那些不同,Zyphra选择释放其模型权重拥抱脸在允许的Apache 2.0许可下。

测试它

Zyphra提供了一个演示环境,您可以在其中使用其Zonos模型以及其网站上的付费API访问和订阅计划。但是,如果您不愿将声音上传到随机的启动服务器中,那么在本地运行该模型是相对容易的。

我们将进一步详细介绍如何将其设置为一点点,但首先,让我们看看它在野外的实际功能。

为了测试它,我们在NVIDIA RTX 6000 ADA Generation Generation Graphics卡上在本地启动了Zyphra的Zonos演示。然后,我们上传了自己的20到30秒剪辑,阅读了随机的文本段落,并将其馈送到Zonos-V0.1变压器和混合模型中,以及50左右的单词文本提示提示,将所有超级参数留在了他们的默认情况下。目的是让训练有素的模型预测您的声音,并从提供的示例记录和提示中将其作为音频文件输出。

使用24秒的示例剪辑,我们能够实现一个足够好的语音克隆,至少在第一次脸红时就愚弄了亲密的朋友和家人。在揭示了剪辑是AI产生的后,他们确实指出,演讲的起搏和速度确实有些偏离,他们相信他们会发现音频并不是真实的剪辑,因为较长的剪辑却不是真实的。

您可以听自己的话,这是两个剪辑。第一个样本是对现实生活中的人,您不起眼的秃鹰的录制,从H.G. Wells的《 Time Machine》中读到,而第二个是AI生成的克隆人从Jules Verne的20,000个海底的联赛中阅读。

人类样本:

mp3音频

AI使用非杂交模型生成音频:

mp3音频

起搏和语音都是可以控制的参数,Zonos支持音频前缀,这允许更具动态的范围,例如窃窃私语。

Zyphra在其文档中声称其混合变压器模型的执行速度比Pure Transformer模型快20%。这种速度在较短的提示中并不那么明显,但是我们可以说这两个型号的声音有显着的区别。

至少在我们的耳朵上,混合模型产生了稍微抛光的音频,具有讽刺意味的是,它在某种程度上消除了克隆声音的真实性。倾听自己的谈话总是一个奇怪的经历,因此,我们将让您成为法官。

AI使用混合模型生成音频:

mp3音频

该模型的性能也与Zyphra的主张相一致,因为它在RTX 4090上运行时,每秒运行时每秒都会产生大约两秒钟的音频。RTX6000 ADA ADAâââ– a aDa a a ada a ada a a a ada''s距RTX 4090在计算条款需要9到10秒钟才能将大约50个单词转换为18至20秒的音频剪辑。我们会注意到,在第一次运行中,我们确实观察到了一个持续大约一分钟的热身时间,而在GPU存储器中加载了一分钟,因此它不会立即开始输出蝙蝠。

自己尝试

如果您想使用Zonos克隆自己的声音,则假设您有兼容的GPU并且对Linux和容器化有些熟悉,则部署模型相对容易。

您需要什么:

  • 一个带有相当现代的NVIDIA图形卡的Linux盒,至少具有8 GB的VRAM。您也许可以将其运行到6 GB,但是您的里程可能会有所不同。对于操作系统,我们使用Ubuntu 24.04 LTS。
  • 本指南还假设您已经安装了最新版本的Docker引擎和NVIDIA的最新版本的容器运行时。有关设置此设置的更多信息,请查看我们有关GPU加速码头容器的指南这里。我们还假设您对Linux命令行感到满意。

为了开始,我们将使用git拉下Zonos仓库:

git克隆https://github.com/zyphra/zonos.git

从那里,我们将导航到文件夹中,并使用Docker组成:

CD ZonosDocker组成

注意:根据您的系统,您可能需要运行此Docker具有提高特权的命令使用Sudo或者,在某些情况下,doas

几秒钟后,您应该能够通过导航到http:// localhost:7860或者,如果您远程运行此操作,则需要将Localhost交换为机器的IP地址或主机名。我们强烈建议您不要在公共互联网上留下这项特殊的服务。

Zypher's Zonos demo comes packaged with an easy to use Gradio dashboard

Zypher的Zonos演示包装有一个易于使用的Gradio仪表板 - 单击以放大

从那里开始,您将获得Gradio仪表板的欢迎。在这里,您需要选择要使用,上传或记录示例音频的Zonos模型的版本,并输入要转换的文本。

在此之下,您会发现各种超参数,使您可以调整这一代方面,包括音调和说话速度。我们不会假装完全理解所有这些参数,但是,在我们的测试中,我们在很大程度上将这些设置留给了它们的默认设置。

拨入所有内容后,单击“生成音频”。根据您的硬件和输入文本的长度,这可能需要几秒钟到几分钟的时间。完成后,剪辑应开始自动播放。 

更广泛的含义

正如我们以前在图像生成和其他AI技术中看到的那样,Zonos提出的语音克隆功能本质上是有争议的,从那里挖掘了培训数据到实际在实践中的实际使用方式。

考虑到实现可通过的结果所需的样本音频需要多少,很容易看出如何滥用该技术。像Audible这样的公司是探索文本到语音AI以扩展有声读物的生产,使叙述者能够创建自身的AI生成的语音克隆。同时,法律挑战周围的AI语音克隆已经在遇到类似的业务。

我们还可以看到,这项技术用来骗取毫无戒心的受害者,以为亲人有麻烦,他们只需要价值几百美元的礼品卡即可使他们摆脱困境。或通过使用它来滥用某人的职业来毁灭他们的职业。或产生虚假的政治信息,或者...例子是无穷无尽的。

话虽如此,这些模型也有仁慈的用途。从可访问性的角度来看,语音克隆和文本到语音可以帮助患有人声绳索创伤的人,或者有影响语音的条件,使声音恢复。实际上,这是苹果给的原因之一证明合法2023年底在iOS中包括语音克隆技术。

这项技术已经广泛可用的事实 - 无论是在IDEVICES上还是通过付费服务,还是作为开源模型,这就是为什么我们甚至可以愿意演示如何在本地部署和运行Zonos的原因。

话虽如此,如果您确实选择接受AI文本之间的声音功能,我们鼓励您以最尊重和负责任的方式这样做。®

编者注: 寄存器由NVIDIA提供了RTX 6000 ADA生成图形卡,Intel的ARC A770 GPU,以及AMD的Radeon Pro W7900 DS,以支持这样的故事。这些供应商都没有关于此或其他文章的内容的任何意见。

关于《Zypher的语音模型可以用5秒的音频克隆您的声音》的评论


暂无评论

发表评论

摘要

Zyphra的Zonos是一个强大的文本到语音(TTS)系统,可以使用最小的样本音频克隆声音,从而引发了重大的道德问题和潜在的滥用场景。这是关键点的概述:###技术设置1。**硬件要求**: - 带有现代NVIDIA GPU的Linux盒子(至少8 GB VRAM)。 - 安装了Docker Engine和NVIDIA容器运行时。2。**部署步骤**: - 克隆Zonos存储库:`git克隆https:// github.com/zyphra/zonos.git` - 导航到文件夹:`cd Zonos` - 启动Docker容器:`docker compose up'3。**访问接口**: - http:// localhost:7860`或远程计算机的IP地址打开Gradio仪表板。 - 上传示例音频和输入文本,用于语音克隆。###道德含义1。**滥用潜力**: - **骗局**:说服亲人以虚假的借口汇款。 - **模仿**:通过其他人的声音伪造滥用电话或政治信息。 - **声誉损害**:通过用受害者的声音造成假电话来破坏职业。2。**法律和道德问题**: - 培训数据来源:培训数据来自何处,它在道德上是从伦理上来源的吗? - 法律挑战:使用类似技术的企业可能会面临法律问题。3。**积极用例**: - **可访问性**:帮助患者遭受言语障碍或创伤性的声音伤害,使他们的声音恢复了。 - **创意应用程序**:通过叙述者的AI生成的克隆扩大有声读物的生产。###负责任的用法 - 鼓励TTS技术的尊重和道德使用,以减轻潜在的危害,同时利用其利益来获得诸如可访问性和创造性应用等积极成果。通过了解功能和局限性以及此类技术的更广泛含义,用户可以就其部署和利用语音克隆系统的方式做出明智的决定。