推动音频生成的前沿

2024-10-30 15:01:53 英文原文

作者:Zalán Borsos, Matt Sharifi and Marco Tagliasacchi

技术

已发表
作者
An illustration depicting speech patterns, iterative progress on dialogue generation,  and a relaxed conversation between two voices.

我们开创性的语音生成技术正在帮助世界各地的人们与更自然、对话式和直观的数字助理和人工智能工具进行交互。

言语是人际关系的核心。它帮助世界各地的人们交流信息和想法、表达情感并建立相互理解。随着我们为生成自然、动态声音而构建的技术不断改进,我们正在解锁更丰富、更具吸引力的数字体验。

在过去的几年里,我们一直在推动音频生成的前沿,开发可以根据文本、节奏控制和特定声音等一系列输入创建高质量、自然语音的模型。该技术为许多 Google 产品和实验中的单扬声器音频提供支持 - 包括双子座现场,阿斯特拉计划,旅程之声YouTube 的自动配音– 正在帮助世界各地的人们与更自然、对话式和直观的数字助理和人工智能工具进行交互。

最近,我们与 Google 的合作伙伴合作,帮助开发了两项新功能,这些功能可以生成长格式的多发言者对话,从而使复杂的内容更容易理解:

  • NotebookLM 音频概述将上传的文档变成引人入胜且生动的对话。只需一键点击,两位人工智能主持人就会总结用户材料,在主题之间建立联系并来回开玩笑。
  • 照亮创建由人工智能生成的关于研究论文的正式讨论,以帮助使知识更容易获取和消化。

在这里,我们概述了支持所有这些产品和实验工具的最新语音生成研究。

音频生成的开创性技术

多年来,我们一直投资于音频生成研究,并探索在我们的产品和实验工具中生成更自然对话的新方法。在我们之前的研究中声音风暴,我们首先展示了在多个说话者之间生成 30 秒自然对话片段的能力。

这扩展了我们之前的工作,声流音频LM,这使我们能够将许多基于文本的语言建模技术应用于音频生成问题。

SoundStream 是一种神经音频编解码器,可以有效地压缩和解压缩音频输入,而不会影响其质量。作为训练过程的一部分,SoundStream 学习如何将音频映射到一系列声学标记。这些令牌捕获以高保真度重建音频所需的所有信息,包括诸如韵律音色

AudioLM 将音频生成视为一种语言建模任务,以生成 SoundStream 等编解码器的声学标记。因此,AudioLM 框架不对所生成的音频的类型或构成做出任何假设,并且可以灵活处理各种声音,而无需进行架构调整,这使其成为多说话人对话建模的良好候选者。

由 NotebookLM Audio Overview 生成的多扬声器对话示例,基于一些与土豆相关的文档。

基于这项研究,我们最新的语音生成技术可以生成 2 分钟的对话,在给出对话脚本和发言者转向标​​记时,其自然度、发言者一致性和音质都得到了改善。该模型还可以在 3 秒内完成此任务张量处理单元 (TPU) v5e 芯片,在一次推理过程中。这意味着它生成音频的速度比实时速度快 40 倍以上。

扩展我们的音频生成模型

将我们的单扬声器生成模型扩展到多扬声器模型就变成了数据和模型容量的问题。为了帮助我们最新的语音生成模型生成更长的语音段,我们创建了一种更高效的语音编解码器,用于将音频压缩为令牌序列,速度低至每秒 600 位,而不会影响其输出质量。

我们的编解码器生成的令牌具有分层结构,并按时间范围分组。组中的第一个标记捕获语音和韵律信息,而最后一个标记则编码精细的声学细节。

即使使用我们新的语音编解码器,生成 2 分钟的对话也需要生成超过 5000 个令牌。为了对这些长序列进行建模,我们开发了一种专门的变压器可以有效处理信息层次结构的架构,与我们的声学标记的结构相匹配。

通过这种技术,我们可以在单个自回归推理过程中有效地生成与对话相对应的声学标记。一旦生成,这些令牌就可以使用我们的语音编解码器解码回音频波形。

动画展示了我们的语音生成模型如何自回归生成音频标记流,并将其解码回由两个说话者对话组成的波形。

为了教会我们的模型如何在多个说话者之间生成真实的交流,我们使用数十万小时的语音数据对其进行了预训练。然后,我们在一个较小的对话数据集上对其进行了微调,该数据集具有高音质和精确的说话者注释,其中包括来自许多配音演员的即兴对话和真实的对话不流利– 真实对话中的“嗯”和“啊”。此步骤教会模型如何在生成的对话期间可靠地在扬声器之间切换,并仅输出具有真实停顿、音调和计时的录音室质量音频。

符合我们的人工智能原理以及我们对负责任地开发和部署人工智能技术的承诺,我们正在整合 SynthID 技术,为这些模型中人工智能生成的非瞬态音频内容添加水印,以帮助防止该技术的潜在滥用。

全新演讲体验即将来临

我们现在专注于提高模型的流畅性、音质,并为韵律等功能添加更细粒度的控制,同时探索如何最好地将这些进步与视频等其他模式相结合。

高级语音生成的潜在应用是巨大的,特别是与我们的 Gemini 系列模型结合使用时。从增强学习体验到让内容更普及,我们很高兴能够继续突破基于语音的技术的可能性界限。

关于《推动音频生成的前沿》的评论


暂无评论

发表评论

摘要

我们开创性的语音生成技术通过数字助理和人工智能工具实现自然直观的交互。最近的进展包括生成高质量的多扬声器对话以实现复杂的内容可访问性、改进音频编解码器以实现高效压缩,以及开发用于长序列建模的专用 Transformer 架构。最新型号可在 3 秒内生成 2 分钟的对话,增强了自然度和说话者的一致性。这些技术已集成到 Gemini Live 和 YouTube 自动配音等 Google 产品中,旨在通过结合 SynthID 技术为人工智能生成的音频添加水印,从而负责任地增强用户体验。未来的工作重点是提高流畅性、音质以及将语音生成与其他模式相集成。