Metas Movie Gen 制作令人信服的人工智能视频剪辑 - 连线

2024-10-04 13:00:00 英文原文

Meta 刚刚发布了自己的专注于媒体的 AI 模型,称为 Movie Gen,可用于生成逼真的视频和音频剪辑。

该公司分享了用 Movie Gen 生成的多个 10 秒剪辑,其中包括一只 Moo Deng 式的河马宝宝四处游动,以展示其功能。虽然该工具尚未可供使用,但 Movie Gen 的这一公告是在其 Meta Connect 活动之后不久发布的,该活动展示了新的和更新的硬件以及其大型语言模型 Llama 3.2 的最新版本。

除了生成简单的文本到视频剪辑之外,Movie Gen 模型还可以对现有剪辑进行有针对性的编辑,例如将物体添加到某人的手中或更改表面的外观。在 Meta 的一个示例视频中,一位戴着 VR 耳机的女性看起来就像戴着蒸汽朋克双筒望远镜。

可以使用 Movie Gen 在视频旁边生成音频片段。在示例剪辑中,一个 AI 人站在瀑布附近,可以听到水花飞溅的声音和充满希望的交响乐声;一辆跑车的引擎发出咕噜声,轮胎在赛道上飞驰时发出刺耳的声音,一条蛇沿着丛林地面滑行,伴随着令人悬念的喇叭声。

Meta 在周五发布的一份研究论文中分享了有关 Movie Gen 的更多细节。Movie Gen Video 由 300 亿个参数组成,而 Movie Gen Audio 由 130 亿个参数组成。(模型的参数数量大致与其能力相对应;相比之下,Llama 3.1 的最大变体有 4050 亿个参数。)Movie Gen 可以制作长达 16 秒的高清视频,Meta 声称它优于竞争模型整体视频质量。

今年早些时候,首席执行官马克·扎克伯格展示了 Meta AI 的 Imagine Me 功能,用户可以上传自己的照片,并通过在 Threads 上发布自己淹没在金链中的 AI 图像,在多个场景中进行角色扮演。Movie Gen 模型可以实现类似功能的视频版本,将其视为一种类固醇的 ElfYourself。

Movie Gen 接受过哪些信息培训?Metas 公告中的具体细节并不清楚:我们结合许可和公开可用的数据集来训练这些模型。对于生成型人工智能工具来说,训练数据的来源以及从网络上获取哪些数据是否公平仍然是一个有争议的问题,而且公众很少知道使用哪些文本、视频或音频剪辑来创建任何主要模型。

看看 Meta 需要多长时间才能使 Movie Gen 广泛可用,这将会很有趣。该公告博客含糊地暗示了未来可能发布的版本。相比之下,OpenAI 在今年早些时候宣布了名为 Sora 的人工智能视频模型,但尚未向公众开放,也没有透露任何即将发布的日期(尽管《连线》杂志确实收到了该公司的一些独家 Sora 剪辑,用于调查偏见))。

考虑到 Metas 作为一家社交媒体公司的传统,由 Movie Gen 支持的工具最终可能会开始在 Facebook、Instagram 和 WhatsApp 内部出现。9 月份,竞争对手 Google 分享了计划在明年某个时候在其 YouTube Shorts 中向创作者提供其 Veo 视频模型的各个方面。

虽然大型科技公司仍在推迟向公众全面发布视频模型,但您现在可以尝试 Runway 和 Pika 等小型新兴初创公司的 AI 视频工具。如果您曾经好奇看到自己被液压机卡通般地压碎或突然融化在水坑中会是什么样子,请尝试一下 Pikaffects。

关于《Metas Movie Gen 制作令人信服的人工智能视频剪辑 - 连线》的评论


暂无评论

发表评论

摘要

Meta 刚刚宣布了自己的专注于媒体的人工智能模型,称为 Movie Gen,可用于生成逼真的视频和音频剪辑。使用 Movie Gen 可以在视频旁边生成音频片段。在示例剪辑中,一名人工智能男子站在瀑布附近,可以听到水花飞溅的声音和充满希望的交响乐声;一辆跑车的引擎发出咕噜声,轮胎在赛道上飞驰时发出刺耳的声音,一条蛇沿着丛林地面滑行,伴随着令人悬念的喇叭声。Movie Gen 接受了哪些信息的培训?对于生成型人工智能工具来说,训练数据的来源以及从网络上获取哪些数据是否公平仍然是一个有争议的问题,而且公众很少知道使用哪些文本、视频或音频剪辑来创建任何主要模型。9 月份,竞争对手谷歌分享了计划,计划明年某个时候在其 YouTube Shorts 中向创作者提供其 Veo 视频模型的各个方面。