作者:Luke Auburn
虽然像Openai的Sora这样的文字视频人工智能模型在我们眼前迅速变形,但他们一直在努力制作变质视频。对于AI系统而言,模拟树发芽或花朵开花比生成其他类型的视频更难,因为它需要物理世界的知识,并且可能差异很大。
但是现在,这些模型已经采取了进化步骤。
计算机科学家罗切斯特大学,北京大学,加利福尼亚大学,圣克鲁斯分校和新加坡国立大学开发了一种新的AI文本与视频模型,该模型从延时视频中学习真实世界的物理知识。该团队在发表的一篇论文中概述了他们的模特MagictimeIEEE关于模式分析和机器智能的交易。
已经开发了人工智能来尝试了解现实世界并模拟发生的活动和事件。”Jinfa Huang,由教授监督的博士生JieboâLuo来自罗切斯特 计算机科学系,他们俩都是论文的作者。Magictime是朝着人工智能迈出的一步,可以更好地模拟我们周围世界的物理,化学,生物学或社会特性。
以前的模型生成的视频通常具有有限的运动和变化差。为了培训AI模型以更有效地模仿变质过程,研究人员开发了一个高质量的数据集,其中包含2,000多个带有详细标题的延时视频。
目前,开源U-NET版本的魔术生成两秒钟的512 by-by-512像素夹(以每秒8帧为单位),并且随附的扩散转换器体系结构将其扩展到十秒钟的剪辑。该模型不仅可以用于模拟生物学变形,还可以模拟烤箱中经过建筑或面包烘烤的建筑物。
但是,尽管产生的视频在视觉上很有趣,并且演示很有趣,但研究人员认为这是迈向更复杂的模型的重要一步,可以为科学家提供重要的工具。
``我们希望有一天,生物学家可以使用生成性视频来加快对思想的初步探索。”尽管物理实验仍然必不可少以进行最终验证,但准确的模拟可以缩短迭代周期并减少所需的实时试验数量。”