该公司将 Fugatto(Foundational Generative Audio Transformer Opus 1 的缩写)称为“声音瑞士军刀”。
电脑芯片巨头英伟达周二(11 月 26 日)宣布推出新型号 Fugatto,加入人工智能音乐竞赛。该公司将 Fugatto(Foundational Generative Audio Transformer Opus 1 的缩写)称为“声音领域的瑞士军刀”。
使用文本或音频提示,Fugatto 可以通过单击按钮生成新音乐并编辑现有音频,包括从歌曲中删除或添加乐器或更改声音中的口音和情感,只需几秒钟。
Nvidia 旨在通过 Fugatto 挑战当今顶级的 AI 音乐模型,包括 Suno、Udio 等。尽管 Fugatto 在创建最佳音乐 AI 模型的竞赛中起步较晚,但它似乎拥有清晰的音质和许多可以改变制作人和作曲家的音乐制作过程的功能。
根据公告显示Nvidia 的博客“这项工作中最困难的部分之一是生成一个混合数据集,其中包含数百万个用于训练的音频样本,”该公司表示,他们花了一年多的时间才完成这项工作。“该团队采用了多方面的策略来生成数据和指令,大大扩展了模型可以执行的任务范围,同时实现了更准确的性能并启用新任务,而无需额外的数据。”该公司表示,其模型经过训练在知识共享许可下的开源数据集上,并遵守版权法。
Nvidia 为 Fugatto 提出了许多用例,包括为视觉媒体生成分数;编辑乐谱的某些部分;改变声音以具有不同的口音、情绪和音色。– Fugatto 可以发出喇叭声或萨克斯管喵喵声。无论用户可以描述什么,模型都可以创建,”说拉斐尔·瓦莱是 Nvidia 的应用音频研究经理。
“音乐史也是技术史,”说道伊多·兹米什兰尼是 One Take Audio 的制作人/词曲作者兼联合创始人,也是 Nvidia Inception(针对尖端初创公司的计划)的成员。– 借助人工智能,我们正在书写音乐的下一个篇章。我们有一种新乐器、一种制作音乐的新工具,这非常令人兴奋。”
Nvidia 声称这是第一个人工智能音乐模型,展示了“新兴属性”,即由各种受过训练的能力相互作用而产生的能力,以及结合自由格式指令的能力。“Valle 补充道,Fugatto是“我们迈向未来的第一步,未来音频合成和转换中的无监督多任务学习将从数据和模型规模中出现。”
只有一个问题:到目前为止,该公司将其描述为一项内部研究项目,不向公众开放。