当探索周围环境,与他人交流并表达自己时,人类可以进行广泛的身体运动。现实地复制这些动作,将它们应用于人类和人形特征的能力对于可以使用虚拟现实(VR)耳机(VR)耳机和专业人士的培训视频来查看的内容可能非常有价值。
北京大学人工智能研究所(AI)和通用AI的国家主要实验室的研究人员最近引入了新的模型,这些模型可以简化人类角色或化身的现实动作的产生。工作是出版在arxiv预印服务器。
他们提出的用于产生人类动议的方法,在介绍的论文中概述了CVPR 2025,依靠一种称为MotionCutMix的数据增强技术和称为扩散模型MotionRefit。
“随着研究人员探索的交集人工智能和计算机视觉,我们对文本到动作生成系统的最新进展着迷,这些系统可能会从文本描述中创造人类运动,”该论文的高级作者Yixin Zhu告诉Tech Xplore。
“但是,我们注意到技术景观的一个危险差距。虽然从头开始产生动作的进展巨大,但编辑现有动作的能力仍然受到严重限制。”
艺术家,视频游戏开发人员和动画制片人通常不会完全从头开始创建新内容,而是从以前的作品中汲取灵感,对其进行完善并调整它们,直到他们获得所需的结果为止。但是,大多数现有的AI和机器学习系统并非旨在支持基于编辑和灵感的创意工作流程。
该论文的合着者Nan Jiang表示:“以前开发的系统确实尝试了运动编辑面临的重大限制,即,他们需要广泛的原始动议,编辑动议和相应的指令数据的预先收集的三胞胎,这些数据非常稀缺且昂贵。”“这使他们僵硬,只能处理他们明确培训的特定编辑场景。”
朱及其同事最近研究的主要目标是创建一个新系统,该系统可以根据用户提供的书面指令编辑所有人类动作,而无需特定于任务的输入或身体部件规格。
他们希望该系统支持对特定身体部位(即空间编辑)的两种更改和随着时间(即时间编辑)的改编,即使在有限的注释数据进行培训时,在各种情况下都可以很好地概括。
“ MotionCutMix是我们设计的机器学习方法,是一种简单而有效的训练帮助AI系统学会根据文本说明来编辑3D人类动作的技术。”
“与厨师如何通过混合和匹配的成分运动结合来创建许多不同的菜肴,从而通过将身体部位从不同的运动序列融合在一起来创建各种训练示例。”
研究人员开发的学习方法可以通过运动序列选择特定的身体部位(例如角色的手臂,腿部,躯干等),将其与另一个序列中存在的部分结合在一起。Motion Cutmix并没有突然从一个身体部位的运动转变为另一部分的运动,而是逐渐融合了它们之间的边界,从而产生了更光滑的运动。
江说:“例如,当将手臂从一种运动与另一个运动的躯干相结合时,它会顺利地插入肩部区域。”“对于每个混合运动,它都会创建一个新的训练示例,该示例包括原始运动,该运动的编辑版本以及描述更改的文本指令。”
以前引入的大多数生成人类动作的方法是在固定数据集中培训的,通常包含带有不同方式的人的带注释的视频。相比之下,MotionCutMix可以在即时生成新的训练样本,从而可以从不需要手动注释的大量运动数据库中学习。
考虑到大多数在线可用的内容没有注释,因此无法通过其他现有方法来利用这是有利的。值得注意的是,研究人员开发的新框架既支持特定身体部位执行的运动(即语义元素)的编辑,以及它如何执行(即风格元素)。
朱说:“运动符号需要更少的注释示例才能取得良好的结果,从而从一系列标记的示例中产生了数百万个培训变化。”
“通过培训身体部位和动作的各种组合,该模型学会了处理更广泛的编辑请求。尽管创建了更复杂的训练示例,但它并没有大大减慢训练过程。软遮罩和身体零件的配位创造了更光滑,更自然的编辑运动,而没有尴尬的过渡或不现实的运动。”
除了运动训练数据增强方法外,朱和他的同事开发了一种运动生成和编辑模型,称为MotionRefit。尽管MotionCutMix可用于创建各种训练样本,但MotionRefit是一种自动回归扩散模型,可处理这些样品并学会生成和修改人类运动。
与其他人类运动生成模型相反,MotionRefit仅通过描述他们想要做出的更改就可以精确地修改人类动作的序列。据团队所知,他们的系统是第一个可以同时处理空间和时间编辑的系统,而无需其他输入和用户规格。
“从本质上,MotionRefit由自动回归有条件组成扩散模型这是在原始运动和文本指导的指导下按细分市场处理的。
“这种设计克服了先前方法的关键局限性,因为它可以与任意输入动作和高级文本说明一起使用,而无需明确的身体部位规格。与此同时,它可以保持身体部位之间的自然协调,同时对运动进行实质性变化,同时在两种空间上进行平稳的过渡(在修饰的身体区域和范围内)和跨弗雷姆(跨帧)(在两种空间上实现平稳)。”
研究人员在一系列测试中评估了他们提出的系统,发现人类动作的质量随着运动粘合数据增强技术的增加而有所提高。这证实了他们的预测,即在训练过程中将运动固定模型暴露于更广泛的运动组合范围,从而可以更好地跨越不同的运动和场景。
此外,朱和他的同事将其数据增强技术与基线模型(称为TMED)结合在一起。值得注意的是,他们发现MotionCutMix显然改善了该模型的性能,这表明它可以用来提高对运动范围之外的其他体系结构的学习。
朱说:“尽管引入了更复杂的训练示例,但即使使用高运动效果比率也保持了训练的融合。”
“所有变体都在80万个步骤内汇合,表明该技术并未创建重要的计算开销。这些发现共同证明了MotionCutMix通过利用现有运动数据来通过智能组成技术创建现有的动作数据来解决运动编辑中的基本挑战。”
将来,该研究人员开发的数据增强技术和人类运动生成模型可用于创建和编辑具有人类或人形特征的广泛内容。对于动画师,视频游戏开发人员和其他视频内容创建者来说,它可能是特别有价值的工具。
朱说:“运动编辑使动画师可以在不从头开始的情况下快速迭代角色运动。”
“游戏开发人员可以通过有限的捕获数据产生广泛的运动变化,创建不同的NPC行为和玩家动画。可以通过使机器人能够根据自然语言反馈来调整其运动来改善人类机器人的互动。制造环境可以微调机器人运动模式而无需重新编程。”
Zhu及其同事创建的系统依赖于基于文本的接口,因此对于没有创建游戏或动画经验的非专家用户也可以访问它。将来,它可以用于机器人研究中,例如作为改善人形服务机器人运动的工具。
Jiang补充说:“开发高级运动表示技术,更好地捕获较长序列的依赖性对于处理复杂的时间模式至关重要。”“这可能涉及专门的注意机制,以跟踪顺序动作中的一致性,以及了解微动物和宏观模式的层次模型。”
作为下一项研究的一部分,研究人员计划扩大系统的功能,例如,它可以将上传的图像用作视觉参考,并根据用户提供的演示进行编辑。
他们还想增强其以与环境约束以及执行环境的方式保持一致的方式编辑动作的能力。
更多信息:Nan Jiang等人,用于多功能运动编辑的动态运动混合,arxiv(2025)。doi:10.48550/arxiv.2503.20724
期刊信息: arxiv
©2025科学X网络
引用:动态模型可以产生现实的人类动作并编辑现有动作(2025年4月13日)检索2025年4月13日摘自https://techxplore.com/news/2025-04-Dynamic-generate-realistic-ranistic-human-motions.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。