Pika Labs 推出第二版上周介绍了其强大的人工智能视频模型,它不仅带来了改进的动作和真实感,还带来了一套工具,使其成为我在报道生成人工智能期间尝试过的同类最佳平台之一。
对于实现旨在简化 AI 视频创建过程的功能并不陌生,Pika 2 中的新功能包括添加“成分”以创建更符合您想法的视频、具有预构建结构的模板、还有更多皮卡效果。
Pikaffects 是 AI 实验室首次尝试此类改进的可控性,Fenty 和 Balenciaga 等公司以及名人和个人分享了产品、地标和物体被压扁、爆炸和炸毁的视频。
从表面上看,这可能听起来像是 Pika Labs 正在使用技巧和噱头来掩盖其底层模型的能力不足,但事实并非如此。在我周末进行的测试中,即使没有这些功能,Pika 生成的视频也可以与现场最好的模型相媲美,包括 Kling、MiniMax、Runway 和甚至空。
测试 Pika 2.0
郊区的外星人 — AI 视频 - YouTube
在 Pika 2.0 上运行测试与我处理其他模型的方式略有不同。通常,当我测试人工智能视频工具时,我会创建一系列提示(有些带有图像,有些没有),然后立即启动。然而,皮卡的很多力量都来自于这些附加功能。
我决定首先看看它处理简单的图像到视频提示和文本到视频提示的效果如何。我给了它生成的图像中途用一个简单的描述性提示,然后使用我在《中途旅程》中使用的相同提示来看看皮卡如何创造视觉效果。
火车上戴着墨镜的狗
我最喜欢的人工智能视频测试提示是:“一只戴着墨镜的狗在火车上旅行。”这是因为大多数模型都能很好地处理它,但以不同的方式解释它。
它还要求模型创造出一只戴着墨镜、看起来很逼真的狗——这是不寻常的。最重要的是,它必须在窗外产生准确的快速运动,同时保持窗内静止。
与索拉或克林不同,皮卡让狗保持静止,坐在座位上。它还在五秒视频中生成了第二个镜头,放大狗的脸以展示那些太阳镜。
它的效果不如使用中途图片的直接图像到视频提示,但当我使用图像而不是提示作为成分尝试相同的提示时,效果明显更好。
将自己置于不同的境地
前段时间我写了一篇文章,利用 FreePic 一贯的人物特征,用自己的照片对模型进行了微调。我能够通过使用图像到视频模型将自己置于各种情况下,因此我决定使用 Pika Labs 2.0 进行尝试。
我首先制作了一张自己站在 20 世纪 50 年代风格的美国大街上的照片,背景中可以看到一个典型的 UFO。我穿着全套套装,准备好行动,我把它交给 Pika 2.0 作为场景中的成分的一部分。我不确定它会如何解释它,或者它是否会只采用我的肖像而忽略其余的视觉效果。
该模型做得非常出色,创造了两个摄像机运动 - 首先聚焦在我身上,然后缩小拍摄移动的 UFO 的广角镜头。它成功地保持了多个单独元素的移动,同时保留了整个短视频剪辑中图像的美感。
然后我尝试了一些更复杂的东西,给它一张人工智能生成的我在白色背景下的照片(当你可以生成照片时谁需要摆姿势拍照?)以及潜在火星基地内部的生成图像。
我给了它这两张图片作为素材,并附上提示“在火星上工作”。它创建了一段我微笑着走来走去的视频。然后我给了它一张火星定居者可能穿的潜在服装的图像,但模型将其解释为机器人并给了这套衣服一个头部。不过,它看起来仍然很酷。
使用 AI 视频创建身份
最后,我决定看看它如何处理我的第一个人工智能视频提示:“一只穿着宇航服的月球上的猫,背景是地出。”这是所有人工智能视频模型过去都惨败的事情。,大多数图像模型也遇到了困难。
首先,我使用该提示在 Ideogram 中生成了一个图像。它现在是我一直以来最喜欢的图像之一,我计划将其打印为海报。然后我将其交给 Pika 2.0 作为 AI 视频生成的成分,没有任何额外的提示。它看起来就像一部新电影的工作室标识。
我在文本转视频中尝试了相同的提示,但效果不佳,在背景中出现了第二个超级地球,但它仍然比以前更好。
最后的想法
Pika 2.0 不仅是对上一代型号的重大升级,它还使 AI 视频实验室成为市场上最好的平台之一。
上周,当 Sora 首次发布时,我写了一份指南最好的索拉替代品并将皮卡排除在名单之外。虽然 1.5 模型很好,尤其是与 Pikaffects 一起使用时,但它不如替代方案。现在我觉得我需要写一个皮卡指南的最佳替代品,因为在我看来它比索拉更好。
抛开竞争不谈,我认为人工智能视频在不到一年的时间里取得了如此大的进步,从 2 秒几乎移动的糊状内容,到类似于用真实相机实际拍摄的内容,并且几乎完全控制输出。