至此,任何一直关注人工智能研究的人都久已熟悉和生成模型那可以合成语音或者旋律音乐从除了文字提示什么都没有。英伟达的新发布的“Fugatto”模型看起来更进一步,使用新的综合训练方法和推理级组合技术来“改变音乐、声音和声音的任何组合”,包括从未存在的声音的合成。
虽然 Fugatto 尚未可供公开测试,充满样本的网站展示了如何使用 Fugatto 向上或向下调节许多不同的音频特征和描述,从而产生从萨克斯管的叫声到人们在水下说话的声音,再到救护车警报器在合唱团中唱歌的声音。虽然显示的结果可能有点偶然,但这里显示的大量功能有助于支持 Nvidia 将 Fugatto 描述为“声音的瑞士军刀”。
在解释性研究论文,十多名 Nvidia 研究人员解释了制作可以“揭示音频和语言之间有意义的关系”的训练数据集的困难。虽然标准语言模型通常可以从基于文本的数据本身推断出如何处理各种指令,但如果没有更明确的指导,很难概括音频的描述和特征。
为此,研究人员首先使用法学硕士生成一个 Python 脚本,该脚本可以创建大量基于模板的自由格式指令,描述不同的音频“角色”(例如“标准、年轻人群、三十多岁”), 专业的”)。然后,他们生成一组可应用于这些角色的绝对(例如,“合成快乐的声音”)和相对(例如,“增加该声音的快乐”)指令。
默认情况下,用作 Fugatto 基础的各种开源音频数据集通常不会嵌入此类特征测量。但研究人员利用现有的音频理解模型,根据提示为其训练剪辑创建“合成字幕”,创建自然语言描述,可以自动量化性别、情感和语音质量等特征。音频处理工具还用于在更声学级别上描述和量化训练剪辑(例如“基本频率方差”或“混响”)。