图片:彼得·阿恩施泰特
Nvidia 在当前人工智能热潮中发挥了重要作用,但主要是作为为所有下一代人工智能处理任务提供支持的 GPU 制造商。但该公司并不满足于仅仅为所有挖掘机提供铲子。他们已经用自己的人工智能模型加入了这场竞争,该模型做了一些真正新颖的事情。
报道者技术艺术Nvidia 的新 AI 模型称为 Fugatto,它结合了新的 AI 训练方法和技术,以前所未有的方式转换音乐、声音和其他声音,创造出前所未有的音景。
Fugatto 基于先进的人工智能架构,拥有 25 亿个参数,经过超过 50,000 小时的带注释音频数据的训练。该模型使用了一种称为 Composable ART(音频表示转换)的技术,可以根据文本或音频提示组合和控制不同的声音属性。结果是培训材料中没有出现的全新声音组合。
例如,Fugatto 可以生成听起来像孩子大笑的小提琴音频,或发出金属疼痛尖叫的工厂机器的音频。该模型还允许对特定特征进行微调,例如放大或减少法国口音或调整录音中的悲伤程度。
除了组合和转换声音之外,Fugatto 还可以执行经典的 AI 音频任务,例如改变声音的情感、隔离音乐中的人声或使乐器适应新的声源。
有关所有细节,您可以阅读有关 Fugatto 的内容:Nvidia 官方白皮书(PDF)。否则,请检查赋加托页面包括紧急声音和紧急任务的示例。
这篇文章最初发表在我们的姊妹刊物上M3是从瑞典语翻译和本地化的。