英语轻松读发新版了,欢迎下载、更新

稳定性AI和ARM合作以发布稳定的音频打开小型,使现实世界的部署可用于设备的音频生成 - 稳定性AI

2025-05-14 15:02:14 英文原文

作者:May 14 Written By Ian Schneider

将生成的音频创建带到手机

我们开源稳定的音频与与手臂,其技术在全球范围内为99%的智能手机提供了权力。建立在行业领先的文本与原模型的基础上稳定的音频打开,新的紧凑型变体较小且更快,同时保留产出质量和及时的依从性。 

此版本遵循我们的先前宣布突破现在,该稳定的音频打开已优化可在手臂上运行,由手臂驱动克莱迪亚在手机上启用AI生成的音频。在向世界移动大会展示了行动中的技术之后,稳定性AI和ARM现在正在使任何人都可以访问和部署模型的模型权重。 

技术进步

据我们所知,稳定的音频打开是市场上最快的立体声文本与原模型。您可以在该模型的技术进步中阅读更多信息研究论文。这里有一些亮点:

轻的:与稳定的音频打开的1.1b参数相比,稳定的音频打开的参数具有3.41亿个参数。

快速地:稳定的音频开放式小型会在不到8秒的时间内在手机上生成音频。生成的速度更快,然后更快地进行调整。

高效的:利用武器Kleidiai库,我们设计了这个新模型以更有效地在边缘运行,因此用户可以更快地获得结果,同时降低计算时间的成本。通过完全在ARM CPU上运行,稳定的音频打开也可以在没有繁重硬件要求的情况下访问。

何时使用模型

像稳定的音频打开一样,稳定的音频打开小型也可以使用文本提示来生成简短的音频样本,声音效果和生产元素。它非常适合创建鼓循环,Foley,乐器即兴和环境纹理。 

它的紧凑尺寸和快速推理使其非常适合在武器驱动的智能手机和边缘设备上的设备部署,这些智能手机和边缘设备很重要。

作为AI驱动的创意媒体工作负载移至边缘,较小的模型有助于将资源与任务复杂性保持一致。通过使用不同的型号尺寸,组织可以将工作负载分配给最适合其用例的处理器,例如生成短声效果与全长歌曲。

入门

稳定的音频开放式Small现在可以免费用于商业和非商业用途稳定AI社区许可证。您可以阅读论文arxiv,下载模型权重拥抱脸,并访问代码github

参观手臂学习路径漫步在部署稳定的音频上,在手臂硬件上张开ARM社区博客为了深入了解如何优化稳定音频的小音频,以进行设备的性能。

要保持最新进展,请关注我们x,,,,LinkedIn,,,,Instagram,加入我们的不和谐社区

关于《稳定性AI和ARM合作以发布稳定的音频打开小型,使现实世界的部署可用于设备的音频生成 - 稳定性AI》的评论


暂无评论

发表评论

摘要

稳定性AI和ARM是开源稳定的音频开放式Small,这是文本与ADIO模型稳定音频打开的紧凑版本。该新型号旨在在由ARM CPU驱动的手机上有效运行,从而在不到8秒的时间内实时生成简短的音频样本和声音效果。与前任1.1B相比,它具有341m的参数,它提供了更快的推理速度和降低的计算成本,这是在智能手机等边缘设备上部署的理想选择。现在,该模型可在稳定性AI社区许可下进行拥抱面孔和GitHub,以及与ARM硬件集成的技术文档和教程。