这个人工智能可以创建会说话的角色，这些字符足以使电影

作者：Chris Smith

Chatgpt在创建图像和深层时忽略版权和常识的能力是该镇的讨论。OpenAI上周推出的图像发生器模型被广泛使用，以至于它破坏了chatgpt的基本功能和所有人的正常运行时间。

但是，这不仅是我们最近目睹的AI生成的图像的进步。这跑道Gen-4视频模型与我们以前见过的任何内容不同，让您可以从单个文本提示和照片中创建令人难以置信的剪辑，并保持角色和场景连续性。

公司提供的视频应引起好莱坞的注意。任何人都可以使用Ruway等工具制作电影级剪辑，并假设它们按预期工作。至少，AI可以帮助降低某些电影的特殊效果成本。

不仅是跑道的新型AI视频工具，它转向了头部。Meta拥有自己的摩卡AI产品，可以用来在视频中创建会说话的AI字符，这可能足以欺骗您。

注册那里最有趣的技术和娱乐新闻。

通过注册，我同意使用条款并审查了隐私通知。

摩卡是一种咖啡拼写错误的类型。电影角色动画师（Meta）和滑铁卢大学（University of Waterloo）的一项研究项目是简短的。摩卡AI模型的基本思想非常简单。您为AI提供了文本提示，该提示可以描述视频和语音示例。然后，AI将视频汇总在一起，以确保角色几乎完美地讲音频样本中的线条。

研究人员提供了大量样品，这些样本显示了摩卡咖啡的高级功能，结果令人印象深刻。我们有各种各样的剪辑，显示了现场表演和动画主角，讲述了音频样本中的线条。Mocha考虑了情绪，AI还可以支持同一场景中的多个字符。

结果几乎是完美的，但不是很完美。夹子中有一些明显的缺陷。眼睛和面部动作是我们看AI生成的视频的赠品。同样，虽然唇部运动似乎与音频样本完全同步，但与真实的人相比，整个嘴的运动被夸大了。

我说，作为现在看到其他公司的许多类似AI模式的人，包括一些令人信服的人。

首先，几天前我们谈到的跑道Gen-4。Gen-4演示夹比摩卡咖啡好。但这是您可以使用的产品，在成为商业AI模型时，摩卡咖啡肯定可以改善。

说到您可以使用的AI型号，我总是比较可以将AI生成字符同步的新产品与音频样本进行比较微软的VASA-1 AI研究项目，我们去年四月看到了。

只要您提供任何类型的音频示例，VASA-1就可以将真实人的静态照片变成说话角色的视频。可以理解的是，微软从未将VASA-1模型可用于消费者，因为这种技术打开了滥用之门。

最后，Tiktok的母公司BYTEDANCE在几个月前显示了类似Vasa-1的AI，也有同样的事情。它将一张照片变成了一个完全动画的视频。

Omnihuman-1还可以使身体部位动作动画，这也是我在Meta的Mocha演示中看到的。那就是我们如何看待泰勒·斯威夫特唱火影忍者日语主题曲。是的，这是一个深层剪辑；我去了。

诸如VASA-1，Omnihuman-1，Mocha以及可能的Gen-4之类的产品可能用于创造可能误导的深击。

在摩卡咖啡和类似项目上工作的元研究人员应在商业上和何时公开解决这一问题。

您可能会在网上可用的摩卡咖啡样本中发现不一致之处，但是在智能手机显示屏上观看这些视频，它们可能并不那么明显。消除您对AI视频生成的熟悉程度；您可能会认为其中一些摩卡咖啡夹是用真正的相机拍摄的。

同样重要的是，披露用于训练此AI的数据元。该论文说，摩卡咖啡采用了约500,000个样本，总计300小时的高质量语音视频样本，而无需说出他们得到数据的位置。不幸的是，这是行业中的一个主题，不承认用于培训AI的数据的来源，这仍然是一个令人担忧的数据。

您会找到完整的摩卡咖啡研究论文在此链接上。

OC