谷歌开发语音传输人工智能来恢复语音 - InfoQ.com

Google 研究团队开发了一种零样本语音传输 (VT) 模型，可用于使用特定人的声音自定义文本转语音 (TTS)。这使得失去声音（例如帕金森病或 ALS）的说话者可以使用 TTS 设备复制他们的原始声音。该模型还可以跨语言工作。

该模型支持少样本和零样本操作，只需几秒钟的参考语音音频即可复制语音。对于那些在丢失声音之前可能没有“存储”多个声音样本的说话者来说，这是一个关键功能。说话者编码器使用语音音频频谱图来创建语音的嵌入向量表示；然后嵌入被传递到 Google 模块化 TTS 系统的解码器阶段。在实验中，Google 团队发现该系统可以跨语言工作，以参考说话者不说的语言生成语音。

言语治疗师理查德·凯夫 (Richard Cave) 就 X 上的工作撰写了文章，他说：

这是一个令人惊叹的例子，展示了自然语音的合成近似的发展方向 - 以及如此精彩的用例！激动人心的时刻。

新的 VT 模型基于 Google 开发的 TTS 系统，该系统接受多语言“发现”数据的训练：数据包括纯文本数据、语音文本配对数据，以及未转录的语音数据。该系统可以用 100 多种语言进行 TTS。该系统使用文本编码器将文本数据转换为标记序列。然后，令牌被传递到持续时间预测器，该预测器创建与输出音频的预期持续时间相匹配的不同序列。最后，它被传递到应用声学特征的解码器；VT 是由该解码器完成的。

语音传输模型架构。图片来源：Google 研究博客

Google 进行了实验，向人类评委提供一对音频样本，其中一个来自真实的人类说话者（“参考”语音），另一个由 VT 模型生成。评委们被要求判断这些样本是否来自同一位说话者，76% 的情况下，评委们认为是同一个人。他们进行了类似的实验，评委的母语是英语以外的其他语言。音频对包括英语参考语音和法官母语生成的语音。73% 的情况下，评委们认为说话者是同一个人。

人工智能语音传输是一个活跃的研究课题，InfoQ 最近涵盖了多个 VT 系统。2023 年，InfoQ 报道了微软的 VALL-E，它可以在录音三秒后复制声音；Meta 的 Voicebox，可以产生六种语言的语音，以及编辑和消除语音录音中的噪音；以及 Google 的 AudioPaLM，它可以通过语音传输执行 TTS、自动语音识别 (ASR) 和语音到语音翻译 (S2ST)。今年早些时候，InfoQ 报道了亚马逊支持语音克隆的 BASE TTS。

人工智能模型克隆语音的能力引起了人们对滥用的担忧。在谷歌的新 VT 模型中，研究人员在输出中添加了音频水印：“合成音频波形中难以察觉的信息”可以被软件检测到。

OC

谷歌开发语音传输人工智能来恢复语音 - InfoQ.com

关于《谷歌开发语音传输人工智能来恢复语音 - InfoQ.com》的评论

发表评论

摘要

相关新闻

相关讨论