订阅我们的每日和每周通讯,获取最新更新和独家行业领先的人工智能报道内容。了解更多
Genmo,一家专注于视频生成的AI公司宣布发布了Mochi 1的研究预览版,这是一个开创性的开源模型,能够从文本提示中生成高质量的视频——并且声称其性能可与领先的闭源/专有竞争对手如 相媲美或超越。 runway的Gen-3 Alpha版本, Luma AI的梦想机器, 快手的Kling, MinMax的海洛式算法(注意:“Hailuo”在这里可能是专有名词或特定术语,直译为“海洛”,但没有更多上下文信息,无法准确判断其含义,故保留原文"Hailuo",仅翻译了"Minimax”的常见中文表达)等等。
根据宽松的Apache 2.0许可证,Mochi 1为用户提供免费访问尖端视频生成功能——而其他模型的价格从有限的免费层级开始,但最高可达每月94.99美元(对于海尔洛无限层级).
除了发布模型之外,Genmo还提供了托管的实验平台,允许用户亲自体验Mochi 1的功能。
480p模型现已可用,更高清晰度版本的Mochi 1 HD预计将于今年晚些时候推出。
最初与VentureBeat共享的视频展示了令人印象深刻的真实场景和动作,特别是涉及人类主体的场景,如下面一位老年妇女的视频所示:
推进最先进水平
Mochi 1 在视频生成领域带来了几项重要的进步,包括高保真的运动和强大的提示遵从性。
根据Genmo的说法,Mochi 1在遵循详细用户指令方面表现出色,允许对生成的视频中的角色、设置和动作进行精确控制。
Genmo将Mochi 1定位为一个解决方案,旨在缩小开放和封闭视频生成模型之间的差距。
“我们已经达到了生成视频未来的1%。真正的挑战是创建长篇、高质量且流畅的视频。我们将重点放在提高运动质量上,”Genmo的首席执行官兼联合创始人Paras Jain在接受VentureBeat采访时说道。
Jain和他的联合创始人成立Genmo的使命是让每个人都能使用人工智能技术。“当我们谈到视频,生成式AI的下一个前沿领域时,我们认为将这项技术交到真正需要的人手中非常重要,”Jain强调说。他补充道:“我们坚信要使这项技术民主化,并尽可能多地将其交给更多人使用。这也是我们将它开源的一个原因。”
目前,Genmo声称在内部测试中,Mochi 1 在遵循指令和动作质量方面优于大多数其他视频AI模型——包括专有的竞争对手Runway和Luna。
2840万美元的A轮融资
与Mochi 1预览版一同,Genmo宣布它已筹集了2840万美元的A轮融资,由NEA领投,并得到了The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC等公司的参与。包括Typespace首席执行官Abhay Parasnis和Replit首席执行官Amjad Masad在内的几位天使投资人也支持该公司在高级视频生成方面的愿景。
詹恩对视频在人工智能中的作用的看法超出了娱乐或内容创作的范畴。“视频是沟通的终极形式——我们大脑皮层的30到50%致力于视觉信号处理。这就是人类运作的方式,”他说。
Genmo的长期愿景是打造能够推动机器人和自主系统未来发展的工具。“我们的长期愿景是,如果我们成功开发出视频生成技术,我们将建造世界上最好的模拟器,这有助于解决具身人工智能、机器人技术和自动驾驶的问题,”Jain解释道。
开放合作——但训练数据仍然保密不露底细
Mochi 1 基于 Genmo 的新颖的非对称扩散变压器(AsymmDiT)架构。
在100亿参数规模下,它是迄今为止发布的最大的开源视频生成模型。该架构专注于视觉推理,处理视频数据的参数是文本处理参数的四倍。
效率是模型设计的关键方面。Mochi 1 利用视频 VAE(变分自编码器)将视频数据压缩到其原始大小的几分之一,减少了终端用户设备的内存需求。这使得开发者社区能够更轻松地从 HuggingFace 下载模型权重或通过 API 集成该模型。
Jain认为Mochi 1开源性质是推动创新的关键。“开源模型就像原油。它们需要被提炼和精调。这就是我们希望为社区实现的目标——这样他们就可以在此基础上构建令人惊叹的新事物,”他说。
然而,当被问及关于模型的训练数据集时——这是AI创作工具最具争议的方面之一,作为证据表明许多人都接受过训练贾因对此含糊其辞,没有明确表示,在线大量复制他人的创意作品,这些作品中有些是有版权的,并且在未获得明示许可或补偿的情况下进行。
“通常,我们使用公开可用的数据,并且有时会与各种数据合作伙伴合作,”他告诉VentureBeat说,由于竞争原因,他拒绝详细说明。“拥有多样化数据真的非常重要,这对我们也至关重要。”
限制和路线图
作为预览,Mochi 1 还存在一些限制。当前版本仅支持 480p 分辨率,并且在涉及复杂运动的边缘情况下可能会出现轻微的视觉失真。此外,虽然该模型在照片写实风格方面表现出色,但在处理动画内容时却显得力不从心。
然而,Genmo计划在今年晚些时候发布Mochi 1 HD,该版本将支持720p分辨率,并提供更出色的运动清晰度。
“唯一不有趣的视频就是不动的视频——运动才是视频的核心。这就是为什么我们在提升运动质量方面比其他模型投入了更多的资源,”Jain说。
展望未来,Genmo 正在开发图像到视频的合成能力,并计划改进模型的可控性,为用户提供更加精确的视频输出控制。
通过开源视频AI扩展用例
摩奇1的发布为各个行业带来了可能性。研究人员可以推动视频生成技术的边界,而开发人员和产品团队可能在娱乐、广告和教育等领域发现新的应用。
摩奇1也可以用于生成合成数据,以训练机器人和自主系统的AI模型。
贾因在反思这项技术民主化可能产生的影响时说:“五年后,我看到一个世界,在这个世界里,孟买的一名穷孩子可以拿出手机,有一个很棒的想法,并赢得奥斯卡奖——这就是我们所追求的那种民主化。”
Genmo邀请用户通过他们托管的游乐场试用Mochi 1的预览版genmo.ai/play,可以在其中使用个性化提示来测试模型——尽管在发布本文时,该URL无法加载VentureBeat的正确页面。
人才征集令
随着它继续推进开源AI的前沿,Genmo正在积极招聘研究人员和工程师加入其团队。“我们是一个研究实验室,致力于构建用于视频生成的前沿模型。这是一个极其令人兴奋的领域——人工智能的下一个阶段——解锁人工智能的右脑。”Jain说道。该公司专注于推进视频生成的状态,并进一步发展其对未来通用人工智能的愿景。