生成式AI的竞争正在达到高潮,因为越来越多的公司发布了他们自己的模型。生成式视频似乎目前最大的战场之一,而Genmo采取了不同的方法。
该公司将其Mochi-1模型作为“研究预览”发布,但新的视频生成模型则采用了Apache 2.0许可证,这使其成为开源软件,并可以被拆解和重新组装。
那也意味着Mochi-1可以免费使用,你可以在那边亲自尝试一下:Genevo的网站它的开源性质也意味着将来它将在所有常见的生成式人工智能平台上可用,有一天甚至可能在一台好的游戏电脑上运行。
它将进入一个极具竞争力的市场,各种服务提供多种功能包括来自Haiper的模板,克林格或海尔罗的现实主义作品从来自Pika Labs的趣味效果以及Dream Machine。Genmo表示其重点是将最先进的技术带入开源社区。
Genmo发布免费AI视频模型
所以,为什么要在现在提供的其他模型中选择Genmo的模型呢?这一切都归结于运动。我们采访了Genmo的首席执行官Paras Jain,他解释说,在对模型进行基准测试时,运动是一个关键指标。
“我认为从根本上说,在很长一段时间里,唯一不有趣的视频就是不动的视频。我觉得很多AI生成的视频都受到了‘Live Photo效应’的影响。”他解释道。“我认为我们的早期模型也有这个问题,这是技术不得不经历的发展阶段。但关于运动的视频是我们投资最多的领域,这一点比什么都重要。”
这个初始版本是一个令人惊讶的只有10亿参数的变压器扩散模型,它采用了一种新的异步方法,在一个小巧的包体内提供了更大的性能。
Jain表示他们只用视频训练了Mochi-1,而不是传统的混合视频、图像和文本的方法。这使得它对物理有更好的理解。
然后团队致力于确保模型能够正确理解人们希望它创建的内容。他告诉我们:“我们在遵循您的指令方面也投入了大量的努力,确保模型能够很好地遵从提示。”
Genmo希望Mochi-1能提供“业界最佳”的开源视频生成,但目前,视频仅限于480p分辨率,这是今天推出的新研究预览版的一部分。
正如Jain提到的,重点放在了提示遵守和识别上。Genmo通过使用视觉语言模型作为裁判来对此进行基准测试,类似于Open AI的DALL-E 3。
你会测试Mochi-1吗?让我们知道。它确实进入了一个竞争激烈的领域,但其开源性质可能会让它比一些竞争对手走得更远。
这甚至不是本周发布的唯一一个开源AI视频模型。AI公司Rhymes掉了Allegro一个小型且高效的开源文本转视频模型。它采用Apache许可证发布,尽管它的帧率是每秒15帧和720P分辨率,而Mochi-1的帧率则是每秒24帧和420P分辨率。
这两个模型目前还不能在你的笔记本电脑上运行,但正如Jain告诉我们的那样,开源的美好之处在于有一天有人会对其进行微调,使其能在低性能硬件上运行,那时我们就可以离线制作视频了。