英语轻松读发新版了,欢迎下载、更新

AI生成的视频现在可以使用游戏GPU,只有6GB的VRAM

2025-04-19 18:07:40 英文原文

作者:Hassam NasirSocial Links NavigationContributing Writer

,与斯坦福大学的Maneesh Agrawala合作,本周推出了FramePack。FramePack使用固定长度的时间上下文对视频扩散进行了实际实现,以进行更有效的处理,从而实现更长和更高质量的视频。使用FramePack体系结构构建的130亿个参数模型可以生成一个只有6GB的视频内存的60秒剪辑。

FramePack是一种神经网络体系结构,使用多阶段优化技术来启用本地AI视频生成。在撰写本文时,据说GUI可以在引擎盖下运行基于饥饿的自定义模型,尽管研究论文提到现有的预培训模型可以使用FramePack进行微调。

典型的扩散模型从先前生成的嘈杂框架处理数据,以预测下一个,稍微少的嘈杂框架。每个预测考虑的输入帧数称为时间上下文长度,随着视频大小而生长。标准视频扩散模型需要一个大VRAM池,其中12GB是一个常见的起点。当然,您可以减少内存,但这是以较短的剪辑,质量较低和更长的处理时间为代价的。

输入framepack:一种新的体系结构,将输入帧根据其重要性压缩到固定尺寸的上下文长度中,从而大大减少了GPU内存开销。所有帧必须被压缩以在所需的上限上收敛到上下文长度。作者将计算成本描述为类似于图像扩散。

What goes inside FramePack

(图片来源:github

再加上减轻“漂移”的技术,质量随着视频的长度而降低,FramePack提供了更长的视频生成,而没有明显的忠诚折衷。就目前而言,FramePack需要RTX 30/40/50系列GPU,并支持FP16和BF16数据格式。在图灵和旧体系结构上的支持尚未得到验证,没有提及AMD/Intel硬件。Linux也是受支持的操作系统之一。

除了RTX 3050 4GB,大多数现代(RTX)GPU满足或超过6GB标准。在速度方面,RTX 4090可以将多达0.6帧/秒(用TeaCache进行优化)均匀,因此您的里程会根据您的图形卡而有所不同。无论哪种方式,每帧生成后都会显示,提供即时的视觉反馈。

所采用的模型可能具有30 fps盖,这可能是许多用户限制的。也就是说,FramePack并不依赖昂贵的第三方服务,而是为使AI视频生成更容易为普通消费者提供了铺平的方法。即使您不是内容创建者,这也是制作GIF,模因和Whate的有趣工具。我知道我会在业余时间给它。

获取汤姆(Tom)的硬件的最佳新闻和深入的评论,直接进入收件箱。

Hassam Nasir是一位顽固的硬件爱好者,拥有多年的技术编辑和作家经验,专注于详细的CPU比较和一般硬件新闻。当他不工作时,您会发现他弯曲的管子是因为他不断发展的定制水环游戏钻机或为最新的CPU和GPU进行基准测试只是为了娱乐。

关于《AI生成的视频现在可以使用游戏GPU,只有6GB的VRAM》的评论


暂无评论

发表评论

摘要

FramePack是由Github的LVMin Zhang与Stanford University合作推出的,它是一种新的神经网络体系结构,使用固定长度的时间上下文实现视频扩散,以减少GPU内存开销,并启用更有效的更长,更高质量的视频。130亿个参数模型可以生成一个只有6GB视频内存的60秒剪辑。FramePack使用多阶段优化技术并根据其重要性来压缩输入框架,以解决“漂移”的问题,并允许更长的视频生成而没有大量质量损失。该系统当前需要RTX 30/40/50系列GPU和Linux OS支持,并且较旧的硬件兼容性有限。lvmin Zhang atgithub