字节跳动的人工智能可以让你的照片呈现出电影场景——但这是否太真实了?

2024-11-08 03:27:00 英文原文

作者:Michael Nuñez

Composite Image: ByteDance / VentureBeat

合成图像:字节跳动/VentureBeat

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


字节跳动推出了一种人工智能系统,可以将任何照片转化为令人信服的视频表演,其微妙的表情和情感深度可与真实镜头相媲美。这家以 TikTok 闻名的中国科技巨头设计了其“X肖像2– 使静态图像镜像著名电影场景的系统 – 其结果如此逼真,以至于模糊了真实内容和人造内容之间的界限。

该系统的示威展示《闪灵》、《面对面》和《栅栏》等电影中标志性场景的静态照片,捕捉原始表演中的每一个细微表情。现在,单张照片可以像训练有素的演员一样以令人信服的细节展现恐惧、愤怒或喜悦,同时保持原始人物的身份和特征。

这一突破正值关键时刻。随着社会努力应对数字错误信息和美国总统大选之后X-Portrait 2 能够根据任何照片创建与现实毫无区别的视频,这引起了人们的严重担忧。以前的人工智能动画工具通过机械运动产生了明显的人造效果。但字节跳动的新系统捕捉了面部肌肉的自然流动、微妙的眼球运动和复杂的表情,使人脸具有独特的表现力。

字节跳动通过创新方法实现了这一现实。该系统不是跟踪脸上的特定点(这是大多数动画软件使用的标准方法),而是观察完整的面部动作并从中学习。旧系统通过连接点来创建表情,而 X-Portrait 2 可以捕捉整个面部的流畅运动,即使在快速讲话或从不同角度观看时也是如此。

X-Portrait 2 展示了其在不同视觉风格中的多功能性。驾驶照片(左上)可以转换为匹配另一个人的表情(右上),而相同的技术可以生成动漫风格的插图(左下)和绘画肖像(右下),所有这些都保持一致的面部表情表达式。(来源:字节跳动)

TikTok 的十亿用户数据库:字节跳动人工智能突破背后的秘密

字节跳动的优势源于其作为拥有者的独特地位抖音,每天处理超过十亿个用户生成的视频。这些面部表情、动作和情绪的大量集合提供了大多数人工智能公司无法提供的大规模训练数据。虽然竞争对手依赖有限的数据集或合成数据,但字节跳动可以使用在不同面孔、照明条件和摄像机角度捕捉到的真实世界表情来微调其人工智能模型。

的释放X肖像2恰逢字节跳动将人工智能研究扩展到中国以外的地区。公司正在建立新的研究中心在欧洲,可能在瑞士、英国和法国设立办事处。一个有计划的21.3亿美元的人工智能中心马来西亚的人工智能实验室以及与清华大学的合作提出了一项跨多个洲建立人工智能专业知识的战略。

这项全球研究的推动正值关键时刻。尽管字节跳动在西方市场(包括加拿大)面临监管审查,但最近要求 TikTok停止运营并正在进行中美国辩论关于限制——公司不断提高其技术能力。

好莱坞的下一场革命:人工智能如何取代价值数百万美元的动作捕捉

对动画产业的影响不仅仅限于技术成就。目前主要工作室花费数百万美元购买动作捕捉设备并聘请数百名动画师来创造逼真的面部表情。X-Portrait 2 暗示了未来,一个摄影师和一个参考视频可以取代大部分基础设施。

这一转变是在关于人工智能生成内容和数字版权的争论日益激烈的背景下出现的。尽管竞争对手纷纷公开发布他们的代码,字节跳动却保留了 X-Portrait 2 的实现私人的– 该决定反映了人们越来越意识到人工智能工具如何被滥用来创建未经授权的表演或误导性内容。

字节跳动对人类动作和表达的关注标志着与其他人工智能公司不同的道路。OpenAI 和 Anthropic 等公司专注于语言处理,而字节跳动则建立在其核心优势之上:了解人们如何在镜头前移动和表达自己。这种专业化直接源于 TikTok 多年来对舞蹈趋势和面部表情的分析。

这种对人体运动的重视可能比当前市场分析所暗示的更为重要。随着工作和社交活动越来越多地进入虚拟空间,准确捕捉和传递人类情感的技术变得至关重要。字节跳动的进步使其能够影响人们在数字环境中的互动方式,从商务会议到娱乐。

人工智能安全问题:当数字面孔需要数字锁时

10 月份字节跳动解雇一名实习生,涉嫌违规干扰人工智能模型训练强调了人工智能开发中经常被忽视的一个方面:内部安全。随着模型变得越来越复杂,保护它们免遭篡改变得越来越重要。

随着娱乐、教育和商业通信领域对人工智能生成视频内容的需求不断增长,这项技术应运而生。虽然 X-Portrait 2 在传输细微表达的同时保持身份一致方面取得了重大技术进步,但它也引发了有关人工智能生成内容的身份验证和验证的问题。

在西方政府审查中国科技公司之际,字节跳动在人工智能动画领域的进步呈现出一个复杂的现实:创新无国界,我们在线互动的未来可能由远离硅谷开发的技术决定。

VB日报

保持了解!每天在您的收件箱中获取最新消息

订阅即表示您同意 VentureBeat 的服务条款。

感谢您的订阅。查看更多VB 时事通讯在这里

发生错误。

关于《字节跳动的人工智能可以让你的照片呈现出电影场景——但这是否太真实了?》的评论


暂无评论

发表评论

摘要

字节跳动推出了“X-Portrait 2”,这是一种人工智能系统,能够将照片转换为具有细致入微的表情和情感深度的逼真视频表演,该系统取自主要由 TikTok 用户生成的面部动作和表情的庞大数据库。该系统可以复制著名的电影场景和不同视觉风格的作品,同时保持原始照片的身份和特征。字节跳动正在全球范围内扩大人工智能研究,以在西方市场的监管审查中保持领先地位。这一突破可能会彻底改变动画和数字交互,但也引发了人们对数字错误信息和人工智能生成内容的认证的担忧。