英语轻松读发新版了,欢迎下载、更新

中国研究团队可能已经解决了负担得起的高分辨率人工智能视频的问题

2024-11-30 12:08:00 英文原文

作者:Efosa UdinmwenSocial Links NavigationFreelance Journalist

Computer generated face amongst abstract lines and points signifying AI
(图片来源:Shutterstock / IrenaR)

  • 研究人员开发出一种新的人工智能视频生成器
  • 生成器在生成高分辨率最终之前创建几个低分辨率阶段
  • AI生成器已完全开源,可供个人和商业用途

来自北京大学、快手科技、北京邮电大学的研究团队在AI视频生成领域取得重大进展。

他们开发了一种新的人工智能Pyramid Flow 模型能够生成 768p 的高分辨率虚拟视频图像。

与近年来开发的许多专有人工智能模型不同,Pyramid Flow 的创建者将其模型开源,让开发人员和用户可以免费访问底层技术。

AI视频生成的突破?

金字塔流模型采用了与其许多前辈不同的方法,它在产生高分辨率的最终输出之前在多个低分辨率阶段生成视频。

这种方法降低了运行模型所需的计算能力,对用户来说更具成本效益。该团队声称该模型可以在短短 56 秒内生成 384p 分辨率的 5 秒视频剪辑。

金字塔流也可用作开源软件开发人员可以根据 MIT 许可证免费访问该模型,这意味着任何人都可以出于个人或商业目的下载、修改和使用该代码。

除了模型本身之外,研究人员还发布了几个示例视频,展示了 Pyramid Flow 输出的质量。结果显示了高度真实、详细的图像,包括水下爆炸产生气泡和溅水等示例。此外,用于训练 Pyramid Flow 的数据集(由约 1000 万个短视频组成)也向公众开放。

订阅 TechRadar Pro 时事通讯,获取您的企业成功所需的所有热门新闻、观点、功能和指导!

在人工智能视频生成中使用开源数据集一直是一个有争议的问题,一些批评者声称这种做法侵犯了版权所有者的权利。

Pyramid Flow 背后的研究团队尚未具体解决这些问题,但他们确实表明该模型可能是微调开源材料的有用工具,有可能减少对第三方来源的依赖。

通过科技探索

您可能还喜欢

Efosa 撰写有关技术的文章已有 7 年多了,最初是出于好奇心,但现在是出于对该领域的强烈热情。他拥有理学硕士和博士学位,这为他的分析思维奠定了坚实的基础。Efosa 对技术政策产生了浓厚的兴趣,特别是探索隐私、安全和政治的交叉点。他的研究深入研究技术进步如何影响监管框架和社会规范,特别是在数据保护和网络安全方面。加入TechRadar Pro后,除了隐私和技术政策外,他还专注于B2B安全产品。

关于《中国研究团队可能已经解决了负担得起的高分辨率人工智能视频的问题》的评论


暂无评论

发表评论

摘要

来自北京大学、快手科技和北京邮电大学的研究人员开发了 Pyramid Flow,这是一种用于生成 768p 高分辨率视频的开源人工智能模型。与专有模型不同,Pyramid Flow 通过多个低分辨率阶段生成视频,以降低计算能力要求,使其具有成本效益。该模型可以在 56 秒内生成一个 5 秒的 384p 视频,并且可以在 MIT 许可证下使用。约 1000 万个短视频的训练数据集也可以公开访问。