作者:Leslie Katz
Omnihuman样本视频展示了人类和动物运动的范围。
Tiktok所有者Bytedance揭开了Omnihuman,这是一种AI模型,可以从一张照片中产生栩栩如生的人说话,手势,摆姿势,唱歌,演奏,演奏乐器等视频。
'Omnihuman显着胜过现有方法,基于弱信号输入(尤其是音频)生成极为现实的人类视频。”Omnihuman-1项目页面。它支持任何纵横比的图像输入,无论它们是肖像,半身还是全身图像,在各种情况下都提供了更多寿命和高质量的结果。星期天问世在在线开放访问存档arxiv上。
该模型还没有准备就绪,也没有用于公共使用,但是研究人员共享了显示其功能的示例视频。例子表明,从多个角度,动画角色,动物和历史人物中看到的手和身体运动恢复了生命。
在一个清脆的黑白视频中,阿尔伯特·爱因斯坦(Albert Einstein)在黑板前说话,用手势和微妙的面部表情打断了他的话。好像我们及时回去观看著名的理论物理学家进行大学演讲,只有镜头看起来像今天是在拍摄的。
他们非常令人印象深刻弗雷迪·特兰·纳格(Freddy Tran Nager),南加州大学安嫩堡传播与新闻学院的临床副教授在观看了示例视频后的一次采访中说。•如果您正在考虑恢复汉弗莱·博加特(Humphrey Bogart)并将他抛在电影中,那么我不确定这是怎么看的。但是在小屏幕上,尤其是在电话上,这些都令人印象深刻。
该工具将野性和蒂克托克(Tiktok)放置在拥挤的竞争者种族中,以创造出AI生成的人类的最佳,最现实的镜头。这些数字人物在任何地方都弹出虚拟影响者促进产品,政府官员帮助公民导航社会服务和人造版本的名人与粉丝互动或者说,出现在假政治认可。
纳格说,他可以设想一系列场景,用于从一张照片中生成视频的工具。例如,学生可以选择基本在线课程中的信息如何交付:我希望玛丽莲·梦露(Marilyn Monroe)教我统计。我想要一个木偶。我希望凯米特(Kermit)与Tiktok的Omnihuman联系,Nager还可以想象它被烧毁的内容创建者使用,他们将自己转向虚拟版本的喘息。
或者,他说,Tiktok可以说,您知道吗?现在,我们可以自己创建视频。谁需要人类?
萨曼莎·沃尔夫(Samantha G. Wolfe)nyu的Steinhardt文化,教育和人类发展学院的兼职教授,以及新兴技术营销咨询公司Pitchfwd的创始人,也看到Omnihuman等工具中的承诺和潜在危险。
``从图片中创造出一些东西,使它看起来真的很在说话,而且从技术的角度来看,它确实令人着迷,但它也可能带来很多潜在的负面后果。”面试。``假装商业领袖或政治领导人的版本说,准确的事情对企业或对一个国家的影响很大。
随着AI生成的视频的增长越来越复杂,风险也会增加。•沃尔夫说,当它开始越来越像现实,越来越像人类实际上这样做的时候,人们认为它变得更大的可能性。”沃尔夫说。
野兽团队在超过18,700小时的人类视频数据中训练了Omnihuman,结合了多种类型的输入,例如文本,音频和物理姿势。
Omnihuman是第一个从一张照片中生成视频的AI工具,但是在纳格(Nager)的眼睛中使其与众不同的是该团队背后的训练数据量。如果您创建了一个Tiktok视频,他说,您现在很有可能在数据库中使用来创建虚拟人类。”
BONTEDANCE的发言人通过电子邮件澄清了该模型没有对公司产品的数据进行培训。代表补充说,如果宣布Omnihuman供公众使用,它将包括防止有害或误导性内容的保障措施,以及透明度措施,以表明其内容是AI生成的。