动手总部位于Palo Alto的AI创业公司Zyphra本周推出了一对开放的文本到语音(TTS)模型,据说能够用短短五秒钟的示例音频来克隆您的声音。在测试中,我们以不到半分钟的记录语音产生了现实的结果。
该初创公司由丹尼·马丁内利(Danny Martinelli)和克里西克·普塔拉特(Krithik Puthalath)于2021年成立,旨在建立一个称为Maiaos的多模式代理系统。迄今为止,这些努力已经发布了其小语言模型的Zamba家族,例如树木的注意力以及现在发布其Zonos TTS模型。
该模型的尺寸为16亿个参数,在超过200,000个小时的语音数据上进行了培训,其中包括中性色调的语音,例如有声读物的叙述和“高度表现力”的语音。根据新贵的说法发行说明对于Zonos而言,其大多数数据都是英语的,但有“大量”的中文,日语,法语,西班牙语和德语。Zyphra告诉El Reg该数据是从网络中获取的,并且不是从数据经纪人那里获得的。
结果实际上是两个Zonos模型:一种使用完全基于变压器的体系结构,另一个是结合变压器和的混合动力车曼巴状态空间模型(SSM)体系结构。Zyphra声称,后者使其成为第一个使用此拱门的TTS模型。毫无疑问,基于变压器的模型是当今生成AI中最常用的模型,但像Mamba这样的替代体系结构正在获得吸引力。
从实际的角度来看,这两个模型的行为与其他文本到语音模型的行为相似。但是,与Elevenlabs和其他人开发的那些不同,Zyphra选择释放其模型权重拥抱脸在允许的Apache 2.0许可下。
Zyphra提供了一个演示环境,您可以在其中使用其Zonos模型以及其网站上的付费API访问和订阅计划。但是,如果您不愿将声音上传到随机的启动服务器中,那么在本地运行该模型是相对容易的。
我们将进一步详细介绍如何将其设置为一点点,但首先,让我们看看它在野外的实际功能。
为了测试它,我们在NVIDIA RTX 6000 ADA Generation Generation Graphics卡上在本地启动了Zyphra的Zonos演示。然后,我们上传了自己的20到30秒剪辑,阅读了随机的文本段落,并将其馈送到Zonos-V0.1变压器和混合模型中,以及50左右的单词文本提示提示,将所有超级参数留在了他们的默认情况下。目的是让训练有素的模型预测您的声音,并从提供的示例记录和提示中将其作为音频文件输出。
使用24秒的示例剪辑,我们能够实现一个足够好的语音克隆,至少在第一次脸红时就愚弄了亲密的朋友和家人。在揭示了剪辑是AI产生的后,他们确实指出,演讲的起搏和速度确实有些偏离,他们相信他们会发现音频并不是真实的剪辑,因为较长的剪辑却不是真实的。
您可以听自己的话,这是两个剪辑。第一个样本是对现实生活中的人,您不起眼的秃鹰的录制,从H.G. Wells的《 Time Machine》中读到,而第二个是AI生成的克隆人从Jules Verne的20,000个海底的联赛中阅读。
人类样本:
AI使用非杂交模型生成音频:
起搏和语音都是可以控制的参数,Zonos支持音频前缀,这允许更具动态的范围,例如窃窃私语。
Zyphra在其文档中声称其混合变压器模型的执行速度比Pure Transformer模型快20%。这种速度在较短的提示中并不那么明显,但是我们可以说这两个型号的声音有显着的区别。
至少在我们的耳朵上,混合模型产生了稍微抛光的音频,具有讽刺意味的是,它在某种程度上消除了克隆声音的真实性。倾听自己的谈话总是一个奇怪的经历,因此,我们将让您成为法官。
AI使用混合模型生成音频:
该模型的性能也与Zyphra的主张相一致,因为它在RTX 4090上运行时,每秒运行时每秒都会产生大约两秒钟的音频。RTX6000 ADA ADAâââ– a aDa a a ada a ada a a a ada''s距RTX 4090在计算条款需要9到10秒钟才能将大约50个单词转换为18至20秒的音频剪辑。我们会注意到,在第一次运行中,我们确实观察到了一个持续大约一分钟的热身时间,而在GPU存储器中加载了一分钟,因此它不会立即开始输出蝙蝠。
如果您想使用Zonos克隆自己的声音,则假设您有兼容的GPU并且对Linux和容器化有些熟悉,则部署模型相对容易。
为了开始,我们将使用git
拉下Zonos仓库:
git克隆https://github.com/zyphra/zonos.git
从那里,我们将导航到文件夹中,并使用Docker组成:
CD ZonosDocker组成
注意:根据您的系统,您可能需要运行此Docker
具有提高特权的命令使用Sudo
或者,在某些情况下,doas
。
几秒钟后,您应该能够通过导航到http:// localhost:7860
或者,如果您远程运行此操作,则需要将Localhost交换为机器的IP地址或主机名。我们强烈建议您不要在公共互联网上留下这项特殊的服务。
从那里开始,您将获得Gradio仪表板的欢迎。在这里,您需要选择要使用,上传或记录示例音频的Zonos模型的版本,并输入要转换的文本。
在此之下,您会发现各种超参数,使您可以调整这一代方面,包括音调和说话速度。我们不会假装完全理解所有这些参数,但是,在我们的测试中,我们在很大程度上将这些设置留给了它们的默认设置。
拨入所有内容后,单击“生成音频”。根据您的硬件和输入文本的长度,这可能需要几秒钟到几分钟的时间。完成后,剪辑应开始自动播放。
正如我们以前在图像生成和其他AI技术中看到的那样,Zonos提出的语音克隆功能本质上是有争议的,从那里挖掘了培训数据到实际在实践中的实际使用方式。
考虑到实现可通过的结果所需的样本音频需要多少,很容易看出如何滥用该技术。像Audible这样的公司是探索文本到语音AI以扩展有声读物的生产,使叙述者能够创建自身的AI生成的语音克隆。同时,法律挑战周围的AI语音克隆已经在遇到类似的业务。
我们还可以看到,这项技术用来骗取毫无戒心的受害者,以为亲人有麻烦,他们只需要价值几百美元的礼品卡即可使他们摆脱困境。或通过使用它来滥用某人的职业来毁灭他们的职业。或产生虚假的政治信息,或者...例子是无穷无尽的。
话虽如此,这些模型也有仁慈的用途。从可访问性的角度来看,语音克隆和文本到语音可以帮助患有人声绳索创伤的人,或者有影响语音的条件,使声音恢复。实际上,这是苹果给的原因之一证明合法2023年底在iOS中包括语音克隆技术。
这项技术已经广泛可用的事实 - 无论是在IDEVICES上还是通过付费服务,还是作为开源模型,这就是为什么我们甚至可以愿意演示如何在本地部署和运行Zonos的原因。
话虽如此,如果您确实选择接受AI文本之间的声音功能,我们鼓励您以最尊重和负责任的方式这样做。®
编者注: 寄存器由NVIDIA提供了RTX 6000 ADA生成图形卡,Intel的ARC A770 GPU,以及AMD的Radeon Pro W7900 DS,以支持这样的故事。这些供应商都没有关于此或其他文章的内容的任何意见。