作者:Ryan Daws
位于伦敦的AI实验室奥德赛(AI Lab Odyssey)已经启动了将视频转换为互动世界的模型的研究预览。奥德赛团队最初专注于电影和游戏制作的世界模型,偶然发现了一种全新的娱乐媒体。
Odyssey的AI模型生成的交互式视频实时响应输入。您可以使用键盘,电话,控制器甚至语音命令与它进行交互。奥德赛的人们正在将其作为holodeck的早期版本。
基础AI可以每40毫秒生成逼真的视频帧。这意味着,当您按下按钮或做出手势时,该视频几乎立即响应了您实际上会影响这个数字世界的幻想。
根据奥德赛的说法,今天的经历就像探索一个无聊的梦,不稳定但不可否认的新经历。”我们在这里没有谈论抛光的AAA游戏质量视觉效果,至少还没有。
让我们暂时了解一些技术。是什么使这种AI生成的交互式视频技术与标准视频游戏或CGI不同?这一切都归结为奥德赛所说的世界模型。
与传统的视频模型一一生成整个剪辑不同,世界模型逐帧工作,以根据当前状态和任何用户输入来预测下一步的下一步。这类似于大型语言模型在顺序中预测下一个单词的方式,但更复杂,因为我们谈论的是高分辨率的视频帧而不是单词。
正如奥德赛所说的那样,世界模型是一个动作条件的动力学模型。每次互动时,模型都会采用当前状态,您的操作以及发生的历史记录,然后相应地生成下一个视频框架。
结果是比传统游戏感觉更有机和不可预测的东西。没有预先编程的逻辑说,如果玩家做X,那么Y会发生,而是,AI正在根据观看无数视频中学到的知识对接下来发生的一切做出最好的猜测。
建造类似的东西不是在公园里散步。AI生成的互动视频的最大障碍之一就是随着时间的推移保持稳定。当您根据以前的帧重新生成每个帧时,小错误可能会迅速复合(AI研究人员称之为“漂移”。
为了解决这个问题,奥德赛已经使用了他们称其为狭窄的分布模型,从本质上讲,将其AI预先培训在一般录像带上,然后在较小的环境中进行微调。这种权衡意味着较少的变化,但稳定性更好,因此一切都不会变得奇怪。
该公司表示,他们已经在下一代模型上取得了快速的进步,这显然显示了更丰富的像素,动态和动作。
实时运行所有这些花哨的AI技术并不便宜。目前,依靠散布在美国和欧盟的H100 GPU群体,为每用户时以0.80英镑至1.60英镑(1-2)英镑(1-2)英镑(1-2)英镑之间的基础设施。
流媒体视频听起来可能很昂贵,但是与制作传统游戏或电影内容相比,它非常便宜。奥德赛期望随着模型变得更加高效,这些成本将进一步崩溃。
在整个历史上,新技术从洞穴绘画到书籍,摄影,广播,电影和视频游戏的新形式。奥德赛认为,AI生成的互动视频是此进化的下一步。
如果他们正确的话,我们可能正在研究会改变娱乐,教育,广告等的事物的原型。想象一下培训视频,您可以在其中练习所教授的技能,或者可以从沙发探索目的地的旅行体验。
现在可用的研究预览显然只是朝着这一愿景迈出的一小步,而不是成品的概念证明。但是,这是一个有趣的一瞥,当AI生成的世界成为互动游乐场,而不仅仅是被动体验时,这可能是可能的。
您可以尝试研究预览这里。
想从行业领导者那里了解有关AI和大数据的更多信息吗?查看AI和大数据博览会在阿姆斯特丹,加利福尼亚和伦敦举行。综合事件与其他领先活动共同分居,包括智能自动化会议,,,,块,,,,数字转换周, 和网络安全和云博览会。
探索由Techforge提供支持的其他即将举行的企业技术活动和网络研讨会这里。