- 研究人员开发出一种新的人工智能视频生成器
- 生成器在生成高分辨率最终之前创建几个低分辨率阶段
- AI生成器已完全开源,可供个人和商业用途
来自北京大学、快手科技、北京邮电大学的研究团队在AI视频生成领域取得重大进展。
他们开发了一种新的人工智能Pyramid Flow 模型能够生成 768p 的高分辨率虚拟视频图像。
与近年来开发的许多专有人工智能模型不同,Pyramid Flow 的创建者将其模型开源,让开发人员和用户可以免费访问底层技术。
AI视频生成的突破?
金字塔流模型采用了与其许多前辈不同的方法,它在产生高分辨率的最终输出之前在多个低分辨率阶段生成视频。
这种方法降低了运行模型所需的计算能力,对用户来说更具成本效益。该团队声称该模型可以在短短 56 秒内生成 384p 分辨率的 5 秒视频剪辑。
金字塔流也可用作开源软件开发人员可以根据 MIT 许可证免费访问该模型,这意味着任何人都可以出于个人或商业目的下载、修改和使用该代码。
除了模型本身之外,研究人员还发布了几个示例视频,展示了 Pyramid Flow 输出的质量。结果显示了高度真实、详细的图像,包括水下爆炸产生气泡和溅水等示例。此外,用于训练 Pyramid Flow 的数据集(由约 1000 万个短视频组成)也向公众开放。
在人工智能视频生成中使用开源数据集一直是一个有争议的问题,一些批评者声称这种做法侵犯了版权所有者的权利。
Pyramid Flow 背后的研究团队尚未具体解决这些问题,但他们确实表明该模型可能是微调开源材料的有用工具,有可能减少对第三方来源的依赖。
通过科技探索