作者:May 14 Written By Ian Schneider
我们开源稳定的音频与与手臂,其技术在全球范围内为99%的智能手机提供了权力。建立在行业领先的文本与原模型的基础上稳定的音频打开,新的紧凑型变体较小且更快,同时保留产出质量和及时的依从性。
此版本遵循我们的先前宣布突破现在,该稳定的音频打开已优化可在手臂上运行,由手臂驱动克莱迪亚在手机上启用AI生成的音频。在向世界移动大会展示了行动中的技术之后,稳定性AI和ARM现在正在使任何人都可以访问和部署模型的模型权重。
据我们所知,稳定的音频打开是市场上最快的立体声文本与原模型。您可以在该模型的技术进步中阅读更多信息研究论文。这里有一些亮点:
轻的:与稳定的音频打开的1.1b参数相比,稳定的音频打开的参数具有3.41亿个参数。
快速地:稳定的音频开放式小型会在不到8秒的时间内在手机上生成音频。生成的速度更快,然后更快地进行调整。
高效的:利用武器Kleidiai库,我们设计了这个新模型以更有效地在边缘运行,因此用户可以更快地获得结果,同时降低计算时间的成本。通过完全在ARM CPU上运行,稳定的音频打开也可以在没有繁重硬件要求的情况下访问。
像稳定的音频打开一样,稳定的音频打开小型也可以使用文本提示来生成简短的音频样本,声音效果和生产元素。它非常适合创建鼓循环,Foley,乐器即兴和环境纹理。
它的紧凑尺寸和快速推理使其非常适合在武器驱动的智能手机和边缘设备上的设备部署,这些智能手机和边缘设备很重要。
作为AI驱动的创意媒体工作负载移至边缘,较小的模型有助于将资源与任务复杂性保持一致。通过使用不同的型号尺寸,组织可以将工作负载分配给最适合其用例的处理器,例如生成短声效果与全长歌曲。