流行的AI图像生成服务Midjourney推出了第一个AI视频生成Model V1,标志着公司从图像生成到完整的多媒体内容创建的关键转变。
从今天开始,Midjourney的近2000万用户可以通过网站对图像进行动画图像,将其生成或上传的静止图像转换为5秒长的剪辑,并具有将一代延长长达20秒(以5秒爆发)扩展的选项,并用文本引导它们。
随着发布会,引导小型实验室Midjourney在快速加剧的AI视频竞赛中立场。同时,这也面临着世界上两个最大的娱乐工作室的严重法律挑战。
对于希望利用最新的广告,营销或用户参与的最新创意技术的AI创作者和企业意味着什么?Midjourney如何与漫长而越来越多的AI视频模型竞争对手清单相抵触?继续阅读以找出答案。
直接在Midjourney流行的AI Image Generator上建造的新产品
Midjourney的新产品扩展了其熟悉的基于图像的工作流程,包括其新的V7文本对图像模型。
用户在Midjourney平台内或通过上传外部文件生成静止图像,然后按“动画”将该图像变成视频。
存在两个主要模式:一种使用自动运动合成,而另一个让用户编写自定义运动提示,以通过文本决定元素应如何在场景中移动。因此,Midjourney视频可以支持图像到视频和文本对视频的编辑和修改。
从创意的角度来看,用户可以在两个运动设置之间切换。在那里低运动模式针对环境或极简主义运动进行了优化 - 例如角色闪烁或轻微微风转移的风景和高运动尝试对主题和相机进行更动态动画的模式,尽管这可以增加视觉错误的机会。
这些位于Midjourney网站上的生成或上传图像下方的右手选项窗格上的窗格上,下面是标有动画图像的字段,如下所示:

每个视频作业生成四个不同的5秒夹作为选项,用户可以将动画扩展到每个剪辑中4秒钟,总计20秒。

尽管这是相对较短的形式,但该公司表示,视频持续时间和功能将在以后的更新中扩展。
Midjourney于2022年夏季推出,许多AI映像创建者被广泛认为是AI Image Generation的首映或“金标准”,这要归功于其相对频繁,更现实和更多样化的创建选项,因此围绕其进入AI视频空间的期望很高。
我们见过的用户的最初反应主要是有希望的,有些像困惑AI设计师Phi Hoang(@ApoStraphi在x上)评论:在X上的帖子上,这超出了我的所有期望。
这是我使用我的Midjourney帐户创建的样本一代:
负担得起的价格
Midjourney将提供视频访问作为其现有订阅计划的一部分,从每月10美元。
该公司指出,每个视频工作都会花费约8倍不仅仅是图像生成任务。但是,由于每个视频作业都会产生20秒的内容,因此每秒成本大致相当于生成一个静止图像的定价模型,该模型似乎削弱了许多竞争对手。
一个视频放松模式正在对订户及以上进行测试。与图像生成中的对应物一样,这种模式将提供延迟的处理,以换取降低的计算成本。基于分层订阅计划,快速生成在GPU分钟内保持计量。
社区评论员在很大程度上得到了积极的评价。AI内容创建者@blvcklightai在社交媒体上强调,成本大致符合用户为提高图像所支付的费用,这使该工具令人惊讶地负担得起短形式视频实验。
这与竞争对手相当Luma ai s web Lite计划每月$ 9.99下面跑道标准计划(每月15美元)。
以下是其他一些可用产品:
AI视频模型 | 公司 | 起价 |
---|---|---|
OpenaisâsoraOpenai | 开始 | $ 20/月使用Chatgptâplus(50个视频)或$ 200/月与chatgptâproâ Google Deepmindsâveoâ3 |
Google DeepMind / Google AI Ultra | $ 249.99/月 | 通过aiâultra跑道4 |
跑道 | 自由层; | 付费计划$ 12/月标准,,,,$ 28/月专业,,,,$ 76/月无限 |
Luma Labs -Dream MachineLuma Labs | 开始 | $ 9.99/月(Web Lite)或$ 6.99/月每年收费克林 |
克林(以前是kuaishou) | $ 6.99/月 | 有折扣,$ 8.80没有minimax(Hailuo) |
Hailuo AI / minimax | 付费 | 每一代$ 0.625;标准计划$ 9.99/月或者$ 14.99/月没有 |
皮卡实验室(Pikaâ2.2)皮卡实验室 | 免费基本; | $ 10/月Adobe -sâfireFlyâvideo |
Adobe | 自由层; | 从$ 9.99/月标准,$ 29.99/月Pro |
希格斯菲尔德AI希格斯菲尔德AI | $ 9/月 | 用于基本计划Genmo(Mochi) |
Genmo | 免费(开源) | Moonvalleysâmarey |
Moonvalley | 未公开,估计 | lightricks |
Lightricks | $ 9/月 | 用于精简计划与AI视频竞争对手(例如跑道,Sora,Luma)相比,还没有声音和内置编辑器更有限 |
模型最明显的限制是
缺乏声音。与Google等竞争对手不同
VEO 3和Luma Labs梦想机器,Midjourney的系统不会产生随附的音轨或环境声音效果。目前,需要使用单独的工具在后期制作中手动添加任何配乐。
此外,Midjourney的输出仍然很短,并且
上限20秒。目前没有剪辑之间的编辑时间表,场景过渡或连续性的支持。
Midjourney表示,这仅仅是开始,并且初始版本旨在探索性,可访问和可扩展性。
在拥挤的AI视频市场中的赌注上升
发射降落在人工智能视频生成迅速成为生成AI景观中最具竞争力的角落之一。
科技巨头,由风险投资的初创公司和开源项目都在快速发展。
本周,中国创业公司minimax发行Hailuo 02,升级其以前的视频模型。早期反馈赞扬了它的现实主义,运动遵守提示和1080p分辨率,尽管一些审稿人指出,渲染时间仍然相对较慢。
该模型似乎特别擅长解释复杂的运动或电影摄像头角度,并与跑道的Gen-3 Alpha和Google的VEO系列直接进行比较。
同时,Luma Labs梦想机器因其能力而获得了关注共同创造音频除了高保真视频之外,Midjourney的新版本中缺少这一功能,并且像Runway一样,还可以重新塑造或重新饰演视频。新功能称为修改视频。
GoogleVEO 3和Openai的即将到来索拉模型类似地致力于更广泛的多模式合成,将文本,图像,视频和声音整合到凝聚力,可编辑的场景中。
Midjourney的赌注似乎在上面简单性和成本效益一个足够好的解决方案定价为规模,但这也意味着它在Premium AI视频层中没有许多高级功能而没有许多高级功能。
迪士尼和普遍IP侵权的诉讼阴影
就在发布前几天,Midjourney在A中得名扫地版权侵权诉讼提起迪士尼和普遍在美国地方法院。
跨越100页的投诉指责Midjourney对受版权保护的角色进行培训,包括Marvel,《星球大战》,《辛普森一家》和《史瑞克》,没有授权,并继续允许用户生成衍生产品。
该工作室声称,Midjourney创造了一个无底的窃坑,有意使用户能够制作出可下载的图像,其中包括达斯·维达(Darth Vader),艾尔莎(Elsa),钢铁侠(Iron Man),巴特·辛普森(Bart Simpson),史瑞克(Shrek), 和无牙几乎没有摩擦。
他们进一步声称,Midjourney使用数据刮擦工具和网络爬网来摄取受版权保护的材料,并且未能实施技术保障来阻止类似于受保护的IP的输出。
特别注意:诉讼抢先将Midjourney的视频服务命名为未来侵权的可能来源,指出该公司已经在启动之前开始训练该模型,并且很可能已经复制了受保护的角色。
根据投诉,Midjourney赢得了2024年的3亿美元收入并几乎服务2100万用户。该制片厂认为,这个规模使该平台在未补偿的创意工作上建立了商业优势。
迪士尼的总法律顾问Horacio Gutierrez,清楚地说:盗版是盗版。AI公司完成的事实并不能减少侵权。
预计该诉讼将测试与AI培训数据和输出控制有关的美国版权法的限制,并可能影响Midjourney,OpenAI等平台如何构建未来的内容过滤器或许可协议。
对于关注侵权风险的企业,具有Openai的Sora或Adobe Firefly视频(例如AIDENICE videment)的内置赔偿服务可能是AI视频创建的更好选择。
世界模型和实时世界一代是目标
尽管有直接的风险,但Midjourney的长期路线图还是雄心勃勃的。在围绕视频模型发行的公开声明中,该公司表示其目标是最终合并静态图像生成,动画运动,3D空间导航和实时渲染进入一个单一的统一系统,也称为世界模型。
这些系统的目的是让用户通过动态生成的环境导航,视觉,角色和用户输入实时演变,例如沉浸式视频游戏或VR体验。
他们设想了一个未来,用户可以在日落时发出命令,例如在摩洛哥的市场中走动,并且该系统通过可探索的,交互式的模拟进行了响应,并带有不断发展的视觉效果,也许最终,最终是生成的声音。
目前,视频模型是朝这个方向朝着这个方向发展的早期一步。Midjourney将其描述为更复杂的系统的技术垫脚石。
但是Midjourney远非唯一一个追求如此雄心勃勃的计划的AI研究实验室。
奥德赛,一家由自动驾驶技术退伍军人奥利弗·卡梅隆(Oliver Cameron)和杰夫·霍克(Jeff Hawke)共同创立的初创公司首次以每秒30帧的速度流式传输视频的系统具有空间互动功能。他们的模型试图根据先前的状态和行动来预测世界的下一个状态,使用户能够环顾并探索场景,就好像在3D空间一样。
Odyssey将AI建模与其自己的360度相机硬件相结合,并正在与3D平台进行集成,例如虚幻引擎和搅拌机进行后编辑。但是,它尚不允许除移动相机位置外,还不允许在用户导航生成的空间时看到模型产生的随机景点。
相似地,跑道是AI视频生成的长期玩家,已开始将世界建模折叠到其公共路线图中。该公司的AI视频模型 - 其中最新的视频模型Gen-4于2025年4月推出 - 支持高级AI相机控件,使用户可以围绕受试者进行弧形,放大和缩小,或在环境中平稳滑行,这些功能开始模糊视频生成和场景模拟之间的界限。
在2023年的博客文章中跑道的首席执行一般世界模型作为了解环境足以模拟未来事件及其内部互动的系统。换句话说,他们不仅会产生一个场景看起来就像他们在预测它如何行为。
在该领域的其他主要AI努力包括:
- 深态,该研究对机器人训练和强化学习的世界建模进行了基础研究;
- 世界实验室,由AI研究人员领导的新事业fei-fei li,专门针对以模拟为中心的模型;
- 微软,它正在探索用于企业应用程序等世界模型,例如数字双胞胎和基于模拟的培训;
- 脱发,这是一家在多代理仿真模型上工作的隐形但资金丰富的初创公司。
迄今为止,Midjourney的方法强调了可访问性和易用性,但现在它标志着这些更复杂的模拟框架的演变。该公司表示,要实现这一目标,它必须首先构建必要的组件:静态视觉效果(其原始图像模型),运动(视频模型),空间控制(3D定位)和实时响应能力。然后,其新的视频模型是此更长的弧线中的一个基础块。
这使Midjourney参加了全球竞赛,不仅是为了引起美丽的媒体,还定义了互动,AI生成的世界的基础设施。
一个计算出的有希望的飞跃到越来越复杂的竞争空间
Midjourney进入视频生成是其流行图像平台的逻辑扩展,该平台的价格为广泛访问,旨在降低动画实验的障碍。它为创作者提供了一条简单的途径,可以将其视觉效果带入生活,而成本结构目前似乎既具有攻击性又可持续。
但是,该公司也将公司正置于多个挑战的十字准线中。在产品方,它面临着具有更多功能和更少法律行李的能力和快速运动的竞争对手。在法律方面,它必须在诉讼中捍卫自己的做法,该诉讼可以重塑AI公司如何在美国培训和部署生成模型
对于评估AI创意平台的企业领导者,Midjourney的发行版提供了一把双刃剑:一种低成本,快速发展的工具,具有强大的用户采用,但未解决的监管和IP暴露可能会影响企业部署的可靠性或连续性。
未来的问题是,Midjourney是否可以在不撞到法律隔离墙的情况下保持其速度,或者是否必须大大重组其业务和技术才能在成熟的AI内容生态系统中可行。