一组生成式人工智能研究人员创造了一把声音瑞士军刀,它允许用户仅使用文本来控制音频输出。
虽然一些人工智能模型可以创作歌曲或修改声音,但没有一个模型具有新产品的灵活性。
被称为富加托(Foundational Generative Audio Transformer Opus 1 的缩写),它使用文本和音频文件的任意组合生成或转换提示描述的音乐、语音和声音的任意组合。
例如,它可以根据文本提示创建音乐片段,从现有歌曲中删除或添加乐器,改变声音中的口音或情感,甚至让人们发出以前从未听过的声音。
“这件事太疯狂了,”多白金唱片制作人兼词曲作者 Ido Zmishlany 说道,同时也是一拍音频, 的成员NVIDIA 创始阶段尖端初创企业计划。– 声音是我的灵感来源。这就是我创作音乐的动力。我可以在工作室中即时创作全新的声音,这一想法令人难以置信。”
对音频的正确把握
“我们希望创建一个能够像人类一样理解和生成声音的模型,”NVIDIA 应用音频研究经理 Rafael Valle 说道,他是 Fugatto 背后的十几个人之一,同时也是一名管弦乐指挥和作曲家。
Fugatto 支持众多音频生成和转换任务,是第一个基础生成式 AI 模型,它展示了新兴属性(由各种经过训练的能力相互作用而产生的能力)以及组合自由格式指令的能力。
“Fugatto 是我们迈向未来的第一步,未来音频合成和转换中的无监督多任务学习将从数据和模型规模中出现,”Valle 说。
用例播放列表示例
例如,音乐制作人可以使用 Fugatto 快速制作原型或编辑歌曲的想法,尝试不同的风格、声音和乐器。他们还可以添加效果并提高现有曲目的整体音频质量。
– 音乐史也是一部技术史。电吉他给世界带来了摇滚乐。当采样器出现时,嘻哈音乐就诞生了,”兹米什拉尼说。– 借助人工智能,我们正在书写音乐的下一个篇章。我们有一种新乐器、一种制作音乐的新工具,这非常令人兴奋。”
广告公司可以应用 Fugatto 快速定位多个地区或情况的现有广告活动,对配音应用不同的口音和情感。
语言学习工具可以个性化,以使用说话者选择的任何声音。想象一下以任何家庭成员或朋友的声音讲授的在线课程。
视频游戏开发人员可以使用该模型修改其标题中预先录制的资产,以适应用户玩游戏时不断变化的动作。或者,他们可以根据文本指令和可选的音频输入动态创建新资产。
发出快乐的声音
“我们特别引以为豪的模型功能之一就是我们所说的鳄梨椅,”Valle 说道,他指的是一款新颖的视觉效果由用于成像的生成式人工智能模型创建。
例如,Fugatto 可以发出喇叭声或萨克斯管喵叫声。用户可以描述什么,模型就可以创建什么。
通过微调和少量的歌唱数据,研究人员发现它可以处理未经预先训练的任务,例如根据文本提示生成高质量的歌声。
用户获得艺术控制
多项功能增添了 Fugatto 的新颖性。
在推理过程中,该模型使用一种称为 ComposableART 的技术来组合仅在训练期间单独看到的指令。例如,提示的组合可以要求用法国口音说出带有悲伤感觉的文本。
该模型在指令之间进行插值的能力使用户能够对文本指令进行细粒度控制,在本例中是重音或悲伤的程度。
“我想让用户以主观或艺术的方式组合属性,选择他们对每个属性的重视程度,”设计该模型这些方面的人工智能研究员 Rohan Badlani 说。
“在我的测试中,结果常常令人惊讶,让我感觉自己有点像一名艺术家,尽管我是一名计算机科学家,”拥有计算机科学硕士学位的巴德拉尼说道。斯坦福大学专注于人工智能。
该模型还生成随时间变化的声音,他将这一功能称为时间插值。例如,它可以产生暴风雨穿过雷声逐渐增强的区域的声音,然后逐渐消失到远处。它还使用户能够对音景的演变进行精细控制。
此外,与大多数模型不同的是,大多数模型只能重新创建他们所接触过的训练数据,Fugatto 允许用户创建以前从未见过的音景,例如伴随着鸟鸣声的雷暴逐渐进入黎明。
深入了解
Fugatto 是一个基础生成变压器模型,它建立在团队之前在以下领域的工作基础上:语音建模,音频声码和音频理解。
完整版本使用 25 亿个参数,并在一组NVIDIA DGX 系统包装32NVIDIA H100 张量核心 GPU。
Fugatto 是由来自世界各地的不同群体制作的,包括印度、巴西、中国、约旦和韩国。他们的合作使 Fugatto 的多口音和多语言能力变得更强。
这项工作最困难的部分之一是生成一个混合数据集,其中包含数百万个用于训练的音频样本。该团队采用多方面的策略来生成数据和指令,大大扩展了模型可以执行的任务范围,同时实现更准确的性能并无需额外数据即可实现新任务。
他们还仔细检查了现有数据集,以揭示数据之间的新关系。整个工作历时一年多。
瓦莱记得有两个时刻,团队知道他们正在做某事。“它第一次根据提示生成音乐时,让我们大吃一惊,”他说。
随后,团队演示了 Fugatto 响应提示来创作电子音乐,狗随着节拍而吠叫。
“当大家在欢声笑语中散去时,我的心真的很温暖。”
听听 Fugatto 可以做什么: