英伟达的新人工智能模型可以创造出前所未有的“闻所未闻的声音”

Speakers Soundwave

图片：彼得·阿恩施泰特

Nvidia 在当前人工智能热潮中发挥了重要作用，但主要是作为为所有下一代人工智能处理任务提供支持的 GPU 制造商。但该公司并不满足于仅仅为所有挖掘机提供铲子。他们已经用自己的人工智能模型加入了这场竞争，该模型做了一些真正新颖的事情。

报道者技术艺术Nvidia 的新 AI 模型称为 Fugatto，它结合了新的 AI 训练方法和技术，以前所未有的方式转换音乐、声音和其他声音，创造出前所未有的音景。

Fugatto 基于先进的人工智能架构，拥有 25 亿个参数，经过超过 50,000 小时的带注释音频数据的训练。该模型使用了一种称为 Composable ART（音频表示转换）的技术，可以根据文本或音频提示组合和控制不同的声音属性。结果是培训材料中没有出现的全新声音组合。

例如，Fugatto 可以生成听起来像孩子大笑的小提琴音频，或发出金属疼痛尖叫的工厂机器的音频。该模型还允许对特定特征进行微调，例如放大或减少法国口音或调整录音中的悲伤程度。

除了组合和转换声音之外，Fugatto 还可以执行经典的 AI 音频任务，例如改变声音的情感、隔离音乐中的人声或使乐器适应新的声源。

有关所有细节，您可以阅读有关 Fugatto 的内容：Nvidia 官方白皮书（PDF）。否则，请检查赋加托页面包括紧急声音和紧急任务的示例。

这篇文章最初发表在我们的姊妹刊物上M3是从瑞典语翻译和本地化的。

OC