新的高分辨率视频生成AI模型Pyramid Flow现已作为开源软件提供

2024-10-14 13:27:05 英文原文
New AI model for hi-res video generation, Pyramid Flow, is available as open-source software
空间金字塔在50k图像训练步骤的消融研究。右边是FID结果的定量比较,我们的方法几乎达到了三倍的收敛速度。

北京大学、快手科技和北京邮电大学的一组AI研究人员开发了一个新的AI模型,称为Pyramid Flow,可用于生成虚拟高分辨率(768p)视频图像。该团队已经撰写了一篇纸张描述他们是如何构建模型的,包括模型的属性及其可能的应用,并将其发布在了arXiv预印本服务器。

在过去几年里,多家私营和公共实体纷纷竞相建立视频AI生成模型。这是因为此类模型可以用于创建能够产生虚拟视频内容的应用程序,这些应用程序可用于电视和比拍摄真实场景的成本低得多。

这意味着AI模型的价值正在迅速增加。在这项新的努力中,中国的团队选择将其模型开源,这意味着任何选择为它开发应用程序(推理壳)并在本地运行它的人——包括用于商业用途——都可以免费进行。

Pyramid Flow的开发者为AI视频生成模型增加了一个新特性——在生成最终处理结果之前,会以多个低分辨率阶段生成视频。研究团队声称,一个推理外壳可以在56秒内生成一段五秒钟的视频——结果将是384p分辨率。

他们指出,他们的方法使用远少的计算能力生成视频,这使得成本更低。它还大幅减少了所需令牌的数量生成,使其更高效。

一系列水下爆炸,产生气泡和溅起的水流。信用:杨瑾等

团队已在(MIT许可证下)发布了Pyramid Flow的代码链接:请注意,给定的句子不完整,只包含了许可信息和项目名称的部分内容,因此无法提供完整的翻译。如果只需要翻译已有的部分,上述即为准确翻译。若需补充完整,请提供完整句子。 GitHub包括一些演示模型高逼真度效果的示例视频。他们还列出了用于训练模型的开源数据集,总计包含了1000万段短视频。

研究团队没有提及那些认为由开源数据库生成的虚拟视频侵犯了版权持有者的权利的人们的持续主张的影响。然而,他们确实建议Pyramid Flow可以作为微调的一个合适工具使用。材料,无需支付第三方费用。

更多信息:杨金等,金字塔流匹配高效视频生成建模,arXiv (2024). DOI: 10.48550/arxiv.2410.05954

pyramid-flow.github.io/

示例:huggingface.co/spaces/Pyramid-Flow/pyramid-flow

期刊信息: arXiv

© 2024 Science X网络

引用Pyramid Flow高清视频生成新AI模型现已作为开源软件提供(2024年10月14日) 引用日期:2024年10月14日 来源网址:https://techxplore.com/news/2024-10-ai-res-video-generation-pyramid.html

本文件受版权保护。除个人研究或学习目的的合理使用外,未经书面许可,不得以任何方式复制。所提供的内容仅作信息用途。

关于《新的高分辨率视频生成AI模型Pyramid Flow现已作为开源软件提供》
暂无评论