Google 研究团队开发了一种零样本语音传输 (VT) 模型,可用于使用特定人的声音自定义文本转语音 (TTS)。这使得失去声音(例如帕金森病或 ALS)的说话者可以使用 TTS 设备复制他们的原始声音。该模型还可以跨语言工作。
该模型支持少样本和零样本操作,只需几秒钟的参考语音音频即可复制语音。对于那些在丢失声音之前可能没有“存储”多个声音样本的说话者来说,这是一个关键功能。说话者编码器使用语音音频频谱图来创建语音的嵌入向量表示;然后嵌入被传递到 Google 模块化 TTS 系统的解码器阶段。在实验中,Google 团队发现该系统可以跨语言工作,以参考说话者不说的语言生成语音。
言语治疗师理查德·凯夫 (Richard Cave) 就 X 上的工作撰写了文章,他说:
>这是一个令人惊叹的例子,展示了自然语音的合成近似的发展方向 - 以及如此精彩的用例!激动人心的时刻。
新的 VT 模型基于 Google 开发的 TTS 系统,该系统接受多语言“发现”数据的训练:数据包括纯文本数据、语音文本配对数据,以及未转录的语音数据。该系统可以用 100 多种语言进行 TTS。该系统使用文本编码器将文本数据转换为标记序列。然后,令牌被传递到持续时间预测器,该预测器创建与输出音频的预期持续时间相匹配的不同序列。最后,它被传递到应用声学特征的解码器;VT 是由该解码器完成的。
语音传输模型架构。图片来源:Google 研究博客
Google 进行了实验,向人类评委提供一对音频样本,其中一个来自真实的人类说话者(“参考”语音),另一个由 VT 模型生成。评委们被要求判断这些样本是否来自同一位说话者,76% 的情况下,评委们认为是同一个人。他们进行了类似的实验,评委的母语是英语以外的其他语言。音频对包括英语参考语音和法官母语生成的语音。73% 的情况下,评委们认为说话者是同一个人。
人工智能语音传输是一个活跃的研究课题,InfoQ 最近涵盖了多个 VT 系统。2023 年,InfoQ 报道了微软的 VALL-E,它可以在录音三秒后复制声音;Meta 的 Voicebox,可以产生六种语言的语音,以及编辑和消除语音录音中的噪音;以及 Google 的 AudioPaLM,它可以通过语音传输执行 TTS、自动语音识别 (ASR) 和语音到语音翻译 (S2ST)。今年早些时候,InfoQ 报道了亚马逊支持语音克隆的 BASE TTS。
人工智能模型克隆语音的能力引起了人们对滥用的担忧。在谷歌的新 VT 模型中,研究人员在输出中添加了音频水印:“合成音频波形中难以察觉的信息”可以被软件检测到。