新型高质量AI视频生成器Pyramid Flow推出——并且它是完全开源的!

2024-10-10 15:23:10 英文原文

作者:Carl Franzen

Screenshot of Pyramid Flow video

金字塔流程视频截图

订阅我们的每日和每周通讯,获取最新的更新和独家行业领先的人工智能内容。了解更多


AI视频生成模型的数量持续增长,新的模型不断出现,金字塔流程,本周推出,提供高质量的视频片段,时长最长可达10秒——快速且全部开源。

由北京大学、北京邮电大学和快手科技的研究人员合作开发的——后者是好评的自有Kling AI视频生成器的创建者——Pyramid Flow 利用了一种新技术,其中单个 AI 模型分阶段生成视频,大部分阶段为低分辨率,仅在生成过程结束时保留一个全分辨率版本。

它可以在以下网址以原始代码形式下载:Hugging FaceGitHub,可以在一个环境中运行推理壳在这里但要求用户下载并在他们自己的机器上运行模型代码。

https://twitter.com/reach_vb/status/1844241948233826385

在推理阶段,该模型可以在56秒内生成一段5秒钟、分辨率为384p的视频——与许多全序列扩散模型相比,速度相当或更快——尽管Runway的Gen 3-Alpha Turbo在AI视频生成的速度方面仍然领先,通常在我们的测试中不到一分钟,甚至常常只需10到20秒。

我们还没有机会测试Pyramid Flow,但模型创作者发布的视频看起来极为逼真,分辨率足够高,并且引人注目——与专有产品类似。您可以在其页面上看到各种示例在这里:Github项目页面.

确实,Pyramid Flow 现已设计好可供下载和使用——甚至可用于商业/企业目的——它直接与付费的专有产品(如 Runway 的 Gen-3 Alpha、Luma 的 Dream Machine、Kling 和 Haulio)竞争,这些产品的无限生成订阅费用可能高达数百美元乃至数千美元每年。

随着各个AI视频提供商争夺用户的竞赛继续进行,Pyramid Flow旨在为寻求高级视频生成能力的开发者、艺术家和创作者带来更多的效率和灵活性。

一种高质量AI视频的新技术:“金字塔流匹配”

AI视频生成是一项计算密集型任务,通常涉及建模大的时空空间。传统方法往往需要为过程的不同阶段分别建立模型,这限制了灵活性并增加了训练的复杂性。

金字塔流是基于金字塔流动匹配的概念构建的,这是一种在保持高质量视觉效果的同时大幅削减视频生成计算成本的方法。通过一系列“金字塔”阶段完成视频生成过程,只有最后一个阶段以全分辨率运行。

这在一篇经过预审的论文中有所描述:“金字塔流匹配高效视频生成模型,“提交至”开放访问科学期刊arXiv2024年10月8日。

作者包括杨金、_sun至诚、李宁远、徐坤、蒋浩、庄楠、黄且哲、宋阳、穆亚东和林舟辰。这些研究人员大多来自北京大学,而其他人则来自快手科技。

在编写过程中,能够在不同阶段压缩和优化视频生成的能力导致训练过程中的更快收敛,从而使Pyramid Flow能够在一个训练批次中生成更多的样本。

例如,提出的金字塔流与传统的扩散模型相比,将令牌数量减少了四倍,从而导致更高效的训练。

该模型可以在768p分辨率和每秒24帧的条件下生成5至10秒的视频,并且是基于开源数据集进行训练的。具体来说,论文中提到Pyramid Flow是在以下数据集上进行训练的:

  • LAION-5B,一个用于多模态AI研究的大型数据集。
  • CC-12M,一个由网络爬虫收集的图像文本对的数据集。
  • 具有高质量、无模糊图像的SA-1B。
  • WebVid-10M和OpenVid-1M,这两个视频数据集广泛用于文本到视频生成。

作者总共整理了大约一千万个单镜头视频。

然而,近年来许多所谓的“公共”或“开源”数据集因在未经版权所有者许可或知情同意的情况下包含受版权保护的材料而受到批评者的指责,特别是LAION-5B被指控包含此类内容。传播儿童性虐待材料.

另外,Runway是被艺术家起诉的公司之一在一项集体诉讼中,原告指控被告未经授权、未给予补偿且未经同意的情况下对材料进行培训,涉嫌违反美国版权法。该案目前仍在法庭上争论。

宽松许可,开源且可供商业使用

Pyramid Flow 按照 发行在 下述 许可下:请注意,源文本中的“is released under the”部分似乎不完整或缺少后续的许可信息。如果需要完整的翻译,请提供完整的原文。根据给出的部分内容,这里只提供了可以翻译的部分。MIT许可协议允许广泛使用,包括商业应用、修改和重新分发,前提是保留版权声明。

这使得Pyramid Flow成为希望将模型集成到专有系统中的开发人员和公司的有吸引力的选择,并可能构成挑战Luma AI以及跑ways(注意:"Runway"在不同情境下可以指跑道或T台,具体语境不明时可保留原词或根据上下文选择更合适的中文词汇)原文为英文词汇,此处提供两种可能的翻译解释,实际使用请依据具体情况。如果需要确切翻译,请提供更多背景信息以便准确翻译。若无更多信息,则输出原词:Runway双方都希望为开发者提供付费的应用程序接口,这些开发者希望能够将他们的专有AI视频生成技术集成到面向客户或员工的应用程序中。

然而,那些专有的模型已经存在,适合开发者使用。而Pyramid Flow在Hugging Face上有演示版本,但不适合构建完整的应用程序,用户需要自行托管推理版本,这可能会产生额外成本,尽管该模型本身是“免费”的。

此外,Pyramid Flow 可能会对希望利用人工智能提高效率、降低成本并探索新的创意工具的电影工作室具有吸引力。一家主要的电影工作室,狮门影业——所有者约翰·威克暮光电影系列以及其他许多标题——最近与Runway签署了一笔金额未披露的协议,以训练一个自定义AI视频生成模型。此外,泰坦尼克号以及终结者导演詹姆斯·卡梅隆加入了董事会AI视频和图像模型提供商Stability(后者亦受制于同样的集体诉讼来自艺术家们(作为Runway)

使用Pyramid Flow,狮门或其他任何电影工作室都可以在不支付第三方公司的情况下微调开源版本。然而,他们仍然需要拥有或外包必要的开发人才和计算资源,这可能会使与 established AI 提供商(如Runway)合作更具吸引力,因为该公司和其他类似公司已经拥有了内部的AI工程人才。

金字塔流匹配的研究团队也致力于开放性和可访问性。所有代码和模型权重都将通过他们的平台免费向公众提供。官方项目页面确保世界各地的研究人员和开发人员能够利用并在此基础上进行开发。

尽管Pyramid Flow具有诸多优点,但它也存在一些局限性。目前,它缺乏像Runway Gen-3 Alpha这样的模型所具备的一些高级微调功能,后者提供了对摄像机角度、关键帧和人体姿态等电影元素的精确控制。同样,Luma的Dream Machine提供了先进的摄像机控制选项,而Pyramid Flow仍在追赶这些功能。

此外,金字塔流程最近才推出,这意味着其生态系统虽然强大,但还不像竞争对手那样成熟。

展望未来:AI视频竞赛没有放缓的迹象

随着AI视频生成市场继续发展,Pyramid Flow的发布标志着向更加开放、开源的解决方案转变,这些解决方案能够与Runway和Luma等专有产品竞争。

目前,它为那些希望避免封闭模型的成本和限制的人提供了坚实的选择,并且提供的视频质量与更商业化的产品相当。

在未来几个月里,开发人员和创作者可能会密切关注Pyramid Flow的发展。鉴于进一步改进和优化的潜力,它有可能成为视频内容创作者工具箱中的首选工具。当前,各大公司和研究人员都在争夺技术和用户的优势。

与此同时,OpenAI的Sora,最早在2024年2月展出的,至今仍未露面。——除了与少量早期(alpha)用户的合作之外。

VB每日消息

关注最新资讯!每天将最新新闻发送到您的邮箱。

通过订阅,您同意VentureBeat的条款服务条款。

感谢订阅。查看更多VB新闻通讯此处.

发生错误。

关于《新型高质量AI视频生成器Pyramid Flow推出——并且它是完全开源的!》
暂无评论

摘要

2024年10月10日 8:23 AM 金字塔流视频截图 订阅我们的每日和每周通讯,获取行业领先的AI报道的最新更新和独家内容。金字塔流由来自北京大学、北京邮电大学和快手科技的研究人员合作开发——后者是广受好评的Kling AI视频生成器的所有者。金字塔流利用了一种新技术,其中单一的人工智能模型分阶段生成视频,大多数为低分辨率,在其生成过程结束时才保存完整分辨率版本。随着各种AI视频提供商争夺用户的竞赛继续进行,金字塔流旨在为寻求高级视频生成能力的开发者、艺术家和创作者带来更高的效率和灵活性。该技术采用宽松许可协议,并以开源形式供商业使用。 金字塔流根据MIT许可证发布,允许广泛的用途,包括商业应用、修改和重新分发,前提是保留版权通知。一家主要电影制作公司狮门影业——拥有《疾速追杀》和《暮光之城》等众多系列的版权所有者——最近与Runway达成了一笔未披露金额的协议,以训练一个定制的人工智能视频生成模型。